Web Scraping אתר הרשות השופטת: המדריך המלא

הרבה חושבים ש-scraping לאתר הרשות השופטת זה כמו כל אתר אחר. הם טועים. המערכות הממשלתיות מציבות אתגרים ייחודיים שלא תמצאו באתרי e-commerce. זה לא מקום לסקריפטים פשוטים של requests ו-BeautifulSoup. אנחנו מדברים על מערכת עם לוגיקת חיפוש מורכבת, ניהול סשנים קפדני וקצבי בקשות נמוכים. בניית scraper יציב כאן דורשת גישה שונה לגמרי, המבוססת על אוטומציה של דפדפן, סבלנות, והבנה עמוקה של איך המערכת עובדת מתחת למכסה המנוע.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה Requests ו-cURL פשוט לא יספיקו

בואו נשים את זה על השולחן: אם הגישה הראשונית שלכם היא לשלוח בקשת GET פשוטה ולנתח את ה-HTML, אתם מבזבזים את הזמן שלכם. מערכת נט המשפט של הרשות השופטת לא מגישה מידע כך. הנתונים מוחבאים מאחורי טופס חיפוש מורכב, כזה שדורש אינטראקציה אמיתית. זה לא סתם טופס עם כמה שדות. אנחנו מדברים על state שצריך לנהל, טוקנים נסתרים, ואירועי JavaScript שמפעילים את שליחת הבקשה. ניסיון לחקות את זה עם בקשות POST ידניות הוא סיוט לתחזוקה. כל שינוי קטן ב-frontend ישבור לכם הכל.

הפתרון הנכון הוא להשתמש בכלי אוטומציה לדפדפן. תפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית – מהירות, יציבות, ו-API נקי יותר. עם Playwright, אתם מדמים משתמש אמיתי: ממלאים את שדות החיפוש (למשל, טווח תאריכים או מילות מפתח), לוחצים על כפתור החיפוש, ומחכים שהתוצאות ייטענו דינמית. זה מאפשר לכם להתמקד בלוגיקת החילוץ עצמה, במקום בהנדסה לאחור של בקשות רשת. זו הדרך היחידה לבנות משהו שיעבוד לאורך זמן וישרוד את העדכונים הבלתי נמנעים של האתר. כך מתחילים פרויקט רציני של איסוף קטלוג הרשות השופטת – על ידי הבנה שהאינטראקציה היא המפתח, לא רק ה-HTML.

בניית צינור נתונים יציב: קצב, פרוקסי וניהול שגיאות

אחרי שהבנו שצריך דפדפן, האתגר הבא הוא קנה מידה. אתר הרשות השופטת מכיל מאות אלפי, אם לא מיליוני, מסמכים. אי אפשר פשוט להריץ לולאה שתפתח 50 טאבים במקביל. שרתים ממשלתיים רגישים לעומס. המטרה היא לא להפיל את האתר, אלא לאסוף נתונים ביעילות ובאחריות. קצב סביר הוא בקשה אחת כל 5-8 שניות. זה נשמע איטי, אבל עם תכנון נכון, אפשר לאסוף עשרות אלפי מסמכים ביום.

גם בקצב איטי, כתובת IP בודדת תסומן בסופו של דבר. זה כמעט מובטח. לכן, שימוש ב-proxy rotation הוא חובה, לא המלצה. לא צריך משהו אקזוטי, מאגר קטן של 5-10 פרוקסי datacenter איכותיים יכול לעשות את העבודה, כל עוד אתם מבצעים רוטציה חכמה. המטרה היא לא להיראות כמו משתמשים שונים בכל בקשה, אלא לפזר את העומס על פני מספר קטן של זהויות. אם נתקלתם בחסימה, חשוב להבין איך לטפל בה. טיפול נכון בשגיאות 429 ו-403 הוא קריטי. במקום להיכשל, ה-scraper צריך להשהות את הפעילות עבור אותו פרוקסי, לעבור לבא בתור, ולנסות שוב את הבקשה הכושלת מאוחר יותר. בניית לוגיקת retry כזו היא מה שמבדיל בין סקריפט חובבני למערכת production-grade.

תרחיש כישלון קלאסי: סשנים שפגים באמצע

הנה תרחיש שראיתי קורה יותר מדי פעמים בפרויקטים מול אתרי ממשלה: ה-scraper רץ יפה במשך 45 דקות, אוסף מאות רשומות, ופתאום מתחיל לקבל דפים ריקים או הודעות שגיאה גנריות. הכל נראה תקין, אין חסימות IP, אין CAPTCHA. מה קרה? הסשן שלכם פג.

בניגוד לאתרים מודרניים המשתמשים ב-JWT או טוקנים שמתרעננים אוטומטית, מערכות ישנות יותר מסתמכות על סשנים קלאסיים בצד השרת עם זמן קצוב. באתר הרשות השופטת, סשן חיפוש יכול להיות תקף ל-60 דקות, למשל. אם תהליך ה-scraping שלכם ארוך יותר, תמצאו את עצמכם שולחים בקשות בתוך סשן מת. השרת לא מזהה אתכם יותר, ולכן מחזיר אתכם לדף החיפוש הראשי, או גרוע מכך, מחזיר דף תוצאות ריק עם קוד סטטוס 200. אם לא בודקים את תוכן הדף, אתם עלולים לחשוב שסיימתם לאסוף את כל הנתונים, כשבפועל פשוט נפלתם מהסשן.

הפיתרון הוא ניהול סשנים פרואקטיבי. צריך לתכנן את ה-scraper כך שירוץ במחזורים קצרים יותר (למשל, 30 דקות כל פעם) או שיזהה מתי הסשן עומד לפוג ויתחיל אחד חדש. דרך פשוטה לזהות את זה היא לבדוק בכל תגובה קיומו של אלמנט ספציפי שמופיע רק בדפי תוצאות תקינים. אם האלמנט חסר, זה סימן שהסשן נפל. במקרה כזה, צריך להפעיל פונקציה שסוגרת את הדפדפן, מנקה קוקיז, ומתחילה את תהליך החיפוש מחדש. זה מוסיף מורכבות, אבל זה הכרחי ליציבות.

מעבר לאיסוף: יצירת API וניתוח נתונים

איסוף הנתונים הוא רק הצעד הראשון. הערך האמיתי מגיע מהפיכת המידע הלא מובנה לפורמט שמיש. זהו ה-use case של API / קובץ נתונים מהרשות השופטת. המטרה היא לחלץ שדות ספציפיים מכל פסק דין – כמו מספר הליך, שמות הצדדים, תאריך, ושמות השופטים – ולשמור אותם במסד נתונים מובנה (PostgreSQL, למשל). משם, אפשר לחשוף את הנתונים דרך API פנימי לשימוש הארגון.

ברגע שהנתונים מובנים, אפשר להתחיל לבצע ניתוחים מעניינים. לדוגמה, ניתן לבצע מעקב אחר תיקים חדשים על ידי הרצת ה-scraper מדי יום על טווח התאריכים של היום האחרון. זה מאפשר לזהות החלטות חדשות שפורסמו בתחום עניין ספציפי כמעט בזמן אמת. תרחיש שימוש נוסף הוא מודיעין וניתוח מגמות משפטיות. על ידי ניתוח טקסטואלי של אלפי פסקי דין, אפשר לזהות מגמות, טיעונים נפוצים, או אפילו את אחוז ההצלחה של עורכי דין מסוימים בתיקים מסוג מסוים. היכולת להפוך את המאגר הציבורי של הרשות השופטת למקור מידע מובנה וניתן לחיפוש פותחת אפשרויות אדירות למשרדי עורכי דין, חוקרים, ועיתונאים.

מתי הגישה הזו היא Overkill

למרות כל מה שאמרתי, חשוב להיות פרגמטיים. לא כל משימה דורשת בניית מערכת מורכבת עם Playwright ו-proxy rotation. אם כל מה שאתם צריכים זה לבדוק סטטוס של חמישה תיקים ספציפיים פעם בשבוע, אל תבנו מערכת אוטומטית. פשוט היכנסו לאתר ותעשו את זה ידנית. המאמץ ההנדסי הכרוך בבניית scraper אמין ויציב לאתר כמו הרשות השופטת הוא משמעותי. זה פרויקט שלוקח שבועות, לא שעות.

הגישה שתיארתי מתאימה למקרים בהם נדרש איסוף נתונים בקנה מידה גדול ומתמשך. אם אתם בונים מאגר מידע של כל פסקי הדין בתחום מסוים, או מנטרים אלפי תיקים במקביל, אז אין דרך אחרת. אבל למשימות קטנות וחד-פעמיות, המורכבות פשוט לא מצדיקה את עצמה. בנוסף, אם האתר מציע דרך רשמית לקבל את המידע, גם אם היא פחות נוחה, כדאי לבחון אותה קודם. במקרה של הרשות השופטת, אין API ציבורי, ולכן scraping הוא לרוב הדרך היחידה. אבל תמיד כדאי לבדוק. לפעמים, הפתרון הפשוט ביותר הוא גם הנכון ביותר, וחשוב לדעת מתי להניח את הכלים הכבדים בצד.

נקודות מרכזיות

הימנעו מ-requests ו-cURL. השתמשו ב-Playwright לאינטראקציה עם טופס החיפוש המורכב של האתר.
עבדו בקצב איטי ומבוקר (בקשה כל 5-8 שניות) והשתמשו ב-proxy rotation כדי למנוע חסימות IP.
תכננו מראש ניהול סשנים. סשנים שפגים הם נקודת כשל נפוצה ושקטה במערכות ממשלתיות.
הערך האמיתי הוא לא באיסוף, אלא בהפיכת הנתונים ל-API מובנה המאפשר ניתוח מגמות ומעקב.
למשימות קטנות וחד-פעמיות, המורכבות של בניית scraper ייעודי היא כנראה overkill.

שאלות נפוצות

איך ניתן להפוך את המידע הציבורי מ-court.gov.il ל-API נתונים בזמן אמת?▾

הפיכת המידע הציבורי מ-court.gov.il ל-API דורשת תהליך ETL מתוזמן. ראשית, יש לבנות scraper ייעודי באמצעות Scrapy או Playwright שיודע להתמודד עם ניהול סשנים ו-view state של האתר. לאחר מכן, יש לאחסן את הנתונים הגולמיים בפורמט מובנה כמו Parquet ב-S3. השלב השלישי הוא תזמון הרצת ה-scraper כל 15 דקות באמצעות Airflow או Prefect. לבסוף, יש לחשוף את הנתונים המעובדים דרך endpoint של FastAPI או GraphQL, עם שכבת caching ב-Redis כדי להבטיח latency נמוך מ-100ms.

מהי הדרך היעילה ביותר לנטר שינויים בפסקי דין ספציפיים באתר הרשות השופטת?▾

ניטור שינויים בפסקי דין דורש גישת stateful scraping. במקום לסרוק הכל מחדש, שמרו hash (למשל, MD5) של התוכן של כל פסק דין במאגר נתונים כמו PostgreSQL. בכל ריצה, ה-scraper יחשב hash חדש וישווה אותו ל-hash השמור. אם יש אי-התאמה, זהו סימן לעדכון, ויש להפעיל התראה. גישה זו מפחיתה את עומס הרשת ב-95% ומאפשרת זיהוי שינויים תוך דקות ספורות מרגע פרסומם באתר הרשות השופטת, תוך שימוש מינימלי במשאבים.

כיצד מתמודדים עם ניהול סשנים (sessions) ו-view state מורכבים ב-scraping של הרשות השופטת?▾

התמודדות עם ניהול סשנים ו-view state באתר הרשות השופטת מחייבת שימוש בכלים מתקדמים יותר מ-requests. הפתרון היעיל ביותר הוא להשתמש בספריית browser automation כמו Playwright, המנהלת באופן אוטומטי עוגיות ו-state. עבור סקריפטים מבוססי Python, ניתן להשתמש ב-requests-html או בספריית requests עם אובייקט Session ייעודי ששומר ומעביר את ה-cookies וה-headers הרלוונטיים בין בקשות. חשוב לחלץ את ערכי ה-view state הדינמיים מכל תגובת HTML ולשלב אותם בבקשה הבאה.

מהן 3 הטעויות הנפוצות שגורמות לחסימה אוטומטית בעת איסוף נתונים מ-court.gov.il?▾

הטעות הראשונה היא שליחת בקשות בקצב גבוה וקבוע, מה שמזוהה מיד כבוט; יש להוסיף השהיות רנדומליות של 1.5 עד 4 שניות. הטעות השנייה היא שימוש באותו User-Agent בכל הבקשות, במקום להשתמש ב-pool של לפחות 20 User-Agents עדכניים של דפדפנים פופולריים. הטעות השלישית היא התעלמות מ-headers כמו 'Referer' ו-'Accept-Language', שחסרונם מסמן את הבקשה כחשודה. תיקון שלוש הטעויות האלו ימנע כ-80% מהחסימות האוטומטיות באתר הרשות השופטת.

איך בונים data pipeline אמין לאיסוף קטלוג החלטות מהרשות השופטת ללא איבוד נתונים?▾

בניית data pipeline אמין מתחילה בהפרדת שלב האיסוף משלב העיבוד. השתמשו ב-scraper ייעודי (כמו Scrapy) כדי לאסוף את דפי ה-HTML הגולמיים ולשמור אותם ישירות ב-object storage כמו S3 או Google Cloud Storage. רק לאחר שהאיסוף הסתיים, הפעילו תהליך עיבוד נפרד (למשל, עם Spark או Pandas) שמנתח את הקבצים השמורים, מנקה אותם ומכניס אותם לדאטהבייס. גישה זו מבטיחה שגם אם שלב העיבוד נכשל, הנתונים הגולמיים תמיד זמינים לניסיון חוזר, ומונעת 100% ממקרי איבוד המידע.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור