Scraping משטרת ישראל: מדריך טכני לאיסוף נתונים

אם ניסיתם פעם לעשות scraping למשטרת ישראל או לכל אתר ממשלתי אחר, אתם יודעים שהאתגר הוא לאו דווקא חסימות מתוחכמות. האתגר הוא מבנה. מדובר במערכות שנבנו לעיתים קרובות כדי לשרת אזרחים דרך ממשק דפדפן, לא כדי לחשוף API נקי. הנתונים קיימים – רשימות מכרזים, מאגרי אבדות ומציאות, נתונים סטטיסטיים – אבל הם קבורים מאחורי טפסים, דפים מרובים ואינטראקציות JavaScript. המאמר הזה הוא לא למתחילים. אנחנו נדבר על הכלים והטקטיקות שבאמת עובדים כדי להפוך את הכאוס הזה לדאטה סטרוקטורלי ואמין.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

מעבר ל-HTML: למה גישה סטטית נכשלת באתר משטרת ישראל

האינסטינקט הראשוני של רובנו הוא לשלוח בקשת GET עם requests ולקוות לטוב. באתרים כמו police.gov.il, הגישה הזו תיתן לכם במקרה הטוב את שלד העמוד, אבל לא את הבשר. נתונים קריטיים כמו רשימת המכרזים הפומביים או מאגר האבדות והמציאות לא נטענים עם ה-HTML הראשוני. הם מופיעים רק אחרי אינטראקציה של המשתמש: מילוי טופס חיפוש, בחירת קטגוריה מדרופדאון, או לחיצה על כפתור "הצג עוד".

כל הפעולות האלה מפעילות JavaScript שמבצע בקשות XHR/Fetch ברקע כדי למשוך את הנתונים ולהציג אותם ב-DOM. אם אתם מסתכלים רק על ה-source של העמוד, אתם פשוט לא רואים את המידע. זו הסיבה שכל ניסיון רציני לבצע איסוף קטלוג משטרת ישראל חייב להתחיל עם headless browser. תפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית, במיוחד בביצועים וב-API האסינכרוני שלו. היכולת שלו ליירט בקשות רשת היא קריטית כאן. במקום לגרד את ה-HTML העמוס, אפשר פשוט לחכות לתגובת ה-API הפנימית שמכילה JSON נקי עם כל שמות המוצרים/מודעות שאתם צריכים, ולעבד אותו ישירות. זה מהיר יותר, אמין יותר, ופחות שביר לשינויים ב-CSS.

תכנון לתהליך אמין: ניהול Session ו-State

באתרים ציבוריים, לעיתים קרובות תהליכים מורכבים מפוצלים למספר עמודים. חיפוש מכרז, לדוגמה, יכול לדרוש מכם לבחור סוג, תת-סוג, ואז טווח תאריכים – כל שלב מרענן את הדף או טוען קומפוננטה חדשה. המערכת עוקבת אחרי ההתקדמות שלכם באמצעות session cookies. אם תנסו לגשת ישירות ל-URL של השלב השלישי בלי ה-cookie הנכון מהשלבים הקודמים, תקבלו שגיאה או תחזרו לדף הראשון. זה כישלון שקט ומסוכן, כי ה-scraper שלכם עלול לרוץ ימים ולייצר דאטה ריק בלי שתשימו לב.

הפתרון הוא לא לטפל בכל בקשה כיחידה עצמאית, אלא לחשוב במונחים של user sessions. ב-Playwright, שימוש ב-browser.newContext() לכל תהליך איסוף מבודד הוא קריטי. הוא מספק לכם סביבה נקייה עם cookies ו-storage משלה. כך, אתם יכולים להריץ 10 תהליכי חיפוש במקביל בלי שהם ידרסו אחד את השני. הגישה הזו חיונית כשצריך לבצע API / קובץ נתונים משטרת ישראל בצורה עקבית. תארו לעצמכם שאתם עוברים על 200 עמודים של תוצאות חיפוש, 50 רשומות בכל עמוד. איבוד ה-session בעמוד 180 אומר ש-9,000 רשומות נזרקו לפח. ניהול state נכון הוא ההבדל בין פרויקט שעובד לבין פרויקט שרק נראה שעובד. טעות נפוצה היא להתעלם משגיאות רשת קטנות, אבל כל שגיאה כזו יכולה להיות סימן לאיבוד session. חשוב לטפל בהן נכון, כפי שמוסבר במדריך על טיפול בשגיאות 429 ושגיאות רשת אחרות.

האתגר האמיתי: Rate Limiting ולא CAPTCHA

כשחושבים על חסימות, CAPTCHA ו-WAF כמו Cloudflare קופצים לראש. אבל באתרים ציבוריים רבים, הבעיה פחות מתוחכמת ויותר ארכאית: rate limiting פשוט ברמת ה-IP או ה-session. המערכות האלה לא תמיד מתוכננות לעמוד בעומס של מאות בקשות בדקה מכתובת אחת. הן יתחילו להחזיר שגיאות 503 (Service Unavailable) או פשוט יפסיקו להגיב (timeout). זהו failure mode קלאסי בפרויקטים של מעקב מלאי/זמינות משטרת ישראל, שם נדרשת בדיקה תכופה של סטטוסים.

הפתרון הוא לאו דווקא צבא של פרוקסים. למעשה, שימוש אגרסיבי ב-proxy rotation יכול לעורר חשד בעצמו. הגישה היעילה יותר היא קודם כל לכבד את האתר. התחילו עם קצב נמוך – בקשה אחת כל 2-3 שניות – ובדקו איך השרת מגיב. בנו לוגיקת backoff אקספוננציאלית: אם קיבלתם שגיאה, המתינו 5 שניות. שוב שגיאה? המתינו 15. וכן הלאה. רק אם זה לא מספיק, שלבו רשת קטנה ואיכותית של פרוקסים. לעיתים קרובות, 3-5 כתובות IP קבועות ואיכותיות עדיפות על 1,000 כתובות זולות ורועשות. אם אתם בכל זאת צריכים נפח גבוה, חשוב להבין את ההבדלים בין סוגי הפרוקסי השונים. המדריך על איך לבחור פרוקסי residential הוא נקודת התחלה טובה. זכרו, המטרה היא להיראות כמו תנועה אנושית מתונה, לא כמו מתקפת DDoS.

מודיעין על בסיס נתונים ציבוריים: מה לחפש

הרבה חושבים על scraping בהקשר של מחירים, אבל הערך האמיתי באתרי ממשלה הוא לא בנתונים עצמם, אלא במטא-דאטה ובשינויים לאורך זמן. פרויקט של מודיעין מתחרים משטרת ישראל הוא לא על "מתחרים" במובן הקלאסי, אלא על ניטור שינויים במדיניות, בתקנות או במכרזים שיכולים להשפיע על השוק. למשל, ניטור שדה כמו זמינות של מכרזים חדשים יכול לספק התראה מוקדמת על פרויקטים ממשלתיים קרובים. ניתוח תדירות עדכון של מאגרי מידע יכול להצביע על סדרי עדיפויות פנימיים.

בנינו פעם scraper שעקב אחרי שינויים במסמכי PDF של נהלים באתר ציבורי. הלקוח לא התעניין בתוכן המסמכים, אלא רק בעצם העובדה שמסמך מסוים השתנה. יצרנו hash לכל קובץ PDF, ושמרנו אותו. פעם ביום, הורדנו את כל הקבצים מחדש, חישבנו hash, והשוונו. אם ה-hash היה שונה, ידענו שהיה עדכון ושלחנו התראה. פרויקט כזה דורש כ-500 בקשות ביום בלבד, אבל מספק ערך עצום. זה המקום שבו scraping הופך מכלי לאיסוף דאטה גולמי למנוע של מודיעין עסקי. זה דורש חשיבה אחרת: לא "איך אני מוריד את כל האתר", אלא "איזה שינוי קטן באתר מספק לי את הסיגנל הכי חשוב?".

מתי לא כדאי לעשות Scraping לאתר המשטרה (או כל אתר ציבורי)

למרות כל מה שאמרתי, יש מצבים שבהם בניית scraper ייעודי היא פשוט בזבוז זמן ומאמץ. אם כל מה שאתם צריכים זה קובץ נתונים חד-פעמי, או עדכון פעם בחודש, סביר להניח שיש דרכים פשוטות יותר. לפני שאתם כותבים שורת קוד אחת, בדקו אם יש אפשרות לייצוא נתונים מובנה. לפעמים, עמוק בתוך האתר, מסתתר כפתור "ייצוא ל-CSV" או "הורדת דוח" שיכול לחסוך לכם שבוע של פיתוח. אל תניחו שזה לא קיים.

בנוסף, אם הנתונים שאתם צריכים הם רגישים או אישיים, פשוט אל תתקרבו. המטרה היא לעבוד עם מידע ציבורי, כזה שהארגון בחר לפרסם. ניסיון לעקוף מנגנוני אימות כדי לגשת למידע פרטי הוא לא scraping, וזה פותח תיבת פנדורה של בעיות אתיות ומשפטיות. לבסוף, אם האתר מציע API ציבורי רשמי, גם אם הוא מוגבל או לא מתועד היטב, כמעט תמיד עדיף להשתמש בו. זה ידרוש פחות תחזוקה בטווח הארוך, כי ממשקי API נוטים להיות יציבים יותר ממבנה ה-HTML של האתר. ה-scraper הכי טוב הוא זה שלא הייתם צריכים לכתוב. לפני שאתם צוללים לפרויקט מורכב, תמיד תשאלו את עצמכם: האם אני מנסה לפתוח דלת עם לום כשהמפתח נמצא לי מתחת לשטיח?

נקודות מרכזיות

באתר משטרת ישראל, נתונים קריטיים נטענים דינמית. השתמשו ב-Playwright במקום ב-requests.
נהלו כל תהליך איסוף ב-browser context נפרד כדי למנוע דריסת sessions ואיבוד state.
הבעיה המרכזית היא rate limiting, לא חסימות מתוחכמות. התחילו בקצב נמוך והוסיפו backoff.
חפשו שינויים ומטא-דאטה לאורך זמן, לא רק את הנתונים הגולמיים. זהו המודיעין האמיתי.
לפני שאתם בונים scraper, ודאו שאין אפשרות ייצוא ל-CSV או API רשמי שיכול לחסוך את העבודה.

שאלות נפוצות

איך ניתן ליצור קובץ נתונים מעודכן של מכרזים מאתר משטרת ישראל?▾

הדרך היעילה ביותר ליצירת קובץ נתונים מעודכן של מכרזים מאתר משטרת ישראל היא באמצעות סקריפט Python המשתמש בספריית Playwright לניווט בממשק מונע ה-JavaScript. בניגוד ל-Requests או BeautifulSoup, רק כלי כמו Playwright יכול להתמודד עם טעינת התוכן האסינכרונית ולנהל את ה-session state הנדרש כדי לעבור בין עמודי המכרזים השונים. הסקריפט צריך לאתר את אלמנטי ה-HTML הספציפיים המכילים את פרטי המכרז, לחלץ את הטקסט, ולשמור אותו במבנה נתונים כמו CSV או JSON, תוך המתנה של 2-3 שניות בין בקשה לבקשה.

מהם 3 האתגרים המרכזיים ב-scraping של נתונים מ-police.gov.il מעבר לחסימות IP?▾

האתגר המרכזי ב-scraping של police.gov.il אינו חסימות IP, אלא ניהול מצב (state management) באפליקציית single-page. ראשית, יש לטפל באינטראקציות מורכבות מבוססות JavaScript, כמו לחיצה על כפתורים לטעינת נתונים נוספים, הדורשות שימוש בכלים כמו Puppeteer. שנית, ניהול ה-session cookies חיוני לשמירת ההקשר בין בקשות עוקבות. שלישית, מבנה ה-DOM משתנה באופן דינמי, מה שמצריך שימוש ב-selectors חכמים ועמידים יותר מ-ID או class פשוטים, למשל, כאלה המבוססים על XPath עם תנאים.

כיצד ניתן לאסוף מידע על דרושים מאתר משטרת ישראל באופן אוטומטי?▾

איסוף אוטומטי של משרות דרושים מאתר משטרת ישראל דורש סימולציה של התנהגות משתמש אמיתי באמצעות דפדפן אוטומטי. הפתרון היעיל ביותר הוא להשתמש ב-Selenium עם Python כדי לנווט לעמוד הדרושים, להפעיל את מסנני החיפוש הרלוונטיים באמצעות פקודות click ו-sendKeys, ולהמתין לטעינת התוצאות. לאחר שהנתונים מוצגים, ניתן להשתמש ב-find_elements_by_css_selector כדי לחלץ את כותרות המשרות, התיאורים והדרישות. חשוב להוסיף השהיות אקראיות של 1.5 עד 4 שניות בין פעולות כדי למנוע זיהוי.

האם קיים API ציבורי למשטרת ישראל, ומה האלטרנטיבה אם לא?▾

נכון לשנת 2026, למשטרת ישראל אין API ציבורי ומתועד המאפשר גישה ישירה למאגרי המידע שלה כמו מכרזים או דוחות סטטיסטיים. האלטרנטיבה היחידה היא לבנות סקרייפר ייעודי (web scraper) הפועל מול האתר הציבורי police.gov.il. בניית סקרייפר כזה מתפקדת כ-API פרטי ומאפשרת לחלץ את המידע הנדרש באופן מובנה. כלים מומלצים למשימה זו כוללים את Playwright או Selenium, המסוגלים להתמודד עם אתרים דינמיים מבוססי JavaScript, בניגוד לספריות פשוטות יותר.

מהי הדרך הנכונה לטפל בעמודי תוצאות מרובים (pagination) באתר משטרת ישראל?▾

הטיפול היעיל ביותר בעמודי תוצאות מרובים באתר משטרת ישראל הוא באמצעות לולאה המדמה לחיצות על כפתור "הבא" ולא על ידי ניסיון לנחש את כתובות ה-URL של העמודים הבאים. מכיוון שהניווט מבוסס JavaScript, יש להשתמש בספרייה כמו Playwright. בתוך הלולאה, הסקריפט צריך לבצע 3 פעולות: לחלץ את הנתונים מהעמוד הנוכחי, לאתר את כפתור "הבא" באמצעות selector, ולבצע עליו פעולת click. חשוב לשלב תנאי עצירה שיזהה מתי הכפתור הופך ללא פעיל (disabled) כדי לסיים את הלולאה.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור