Scraping תקדין: המדריך הטכני למערכות משפטיות מורכבות

ביצוע scraping תקדין זה לא כמו לעשות scrape לאתר e-commerce פשוט. אנחנו לא מדברים פה על קטלוג סטטי שמתעדכן פעם ביום. המערכת של תקדין היא גוף חי של מידע משפטי – פסקי דין, החלטות, חקיקה – שמתעדכן בקצב גבוה. מי שמגיע עם `requests` ו-BeautifulSoup יתקע בקיר תוך שעה. האתגר האמיתי הוא לא רק בחילוץ הנתונים הראשוני, אלא בבניית מערכת יציבה שמסוגלת לעקוב אחרי השינויים, לזהות עדכונים ולנהל סשנים ארוכים בלי להיחסם. זה דורש גישה אחרת לגמרי.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה Scraper פשוט לא יעבוד על תקדין

אם הניסיון שלכם מסתכם באתרים עם HTML סטטי, תשכחו מזה. תקדין הוא יישום רשת מורכב. התוכן לא יושב שם ומחכה לכם ב-view-source. הוא נטען דינמית, כנראה דרך קריאות API פנימיות שמופעלות על ידי JavaScript אחרי שהדף הראשוני נטען. המשמעות היא שספרייה כמו requests תחזיר לכם מעטפת HTML ריקה מתוכן. אתם חייבים להריץ את ה-JS.

זו הסיבה שתפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית. הוא מהיר יותר, יציב יותר, וה-API שלו נקי ואינטואיטיבי. עם Playwright, תוכלו לחכות לרכיבים ספציפיים שיופיעו על המסך, ליירט קריאות רשת, ולנהל סשנים בצורה מתוחכמת. ראיתי פרויקטים שניסו לנתח את קריאות ה-API הפנימיות של אתרים דומים, אבל זה משחק שברירי. עדכון קטן ב-frontend וה-scraper שלכם מת. גישה מבוססת דפדפן מלא היא הדרך היחידה להבטיח יציבות לאורך זמן, גם אם היא דורשת יותר משאבים בהתחלה. בניית מערכת אמינה ל-איסוף קטלוג תקדין מתחילה כאן.

ניהול סשנים ו-State: האתגר האמיתי

באתר כמו תקדין, אתם לא סתם מבקרים. אתם מבצעים חיפושים, מפעילים פילטרים, ועוברים בין עמודים של תוצאות. כל הפעולות האלה מנוהלות בתוך סשן (session) בצד השרת. איבוד הסשן באמצע תהליך איסוף אומר שתצטרכו להתחיל הכל מההתחלה. זהו failure scenario קלאסי: ה-scraper רץ במשך 45 דקות, אוסף אלפי רשומות, ואז בקשה אחת נכשלת, ה-cookie מתאפס, והבקשה הבאה מחזירה אתכם לדף הבית. כל ההתקדמות נזרקה לפח.

הפתרון דורש ניהול state אקטיבי. צריך לשמור cookies בין בקשות, לטפל ב-headers הנכונים, ואולי אפילו לנהל מספר סשנים במקביל. חשוב גם לזהות מתי סשן הפך ללא תקף. אם פתאום ה-latency קופץ מ-300ms ממוצע ל-1500ms, או שאתם מתחילים לקבל pre-login HTML, זה סימן שהסשן מת. מערכת טובה צריכה לדעת לזהות את זה, לבצע login מחדש באופן אוטומטי ולהמשיך מאותה נקודה. זה ההבדל בין מערכת שמשיגה 85% הצלחה ודורשת התערבות ידנית, לבין מערכת אוטונומית עם 99.5% הצלחה. אם לא תטפלו נכון ב-state, אתם תבזבזו את רוב הזמן בדיבגים ולא באיסוף נתונים.

בניית קטלוג וניטור שינויים בזמן אמת

אחד ה-use cases המרכזיים הוא בניית API / קובץ נתונים תקדין שמסנכרן את המידע המשפטי. זה אומר שני שלבים: איסוף ראשוני ומעקב שוטף. האיסוף הראשוני יכול לכלול מאות אלפי מסמכים. בהנחה שאתם מוגבלים לקצב של 20-30 בקשות בדקה כדי לא להעמיס על השרת, איסוף מלא יכול לקחת ימים. לכן, חשוב לבנות את ה-scraper כך שיהיה ניתן לעצירה והמשך (resumable).

השלב השני, והמורכב יותר, הוא ניטור שינויים. אתם לא רוצים לסרוק את כל האתר מחדש כל יום. במקום זאת, צריך לפתח אסטרטגיה לזיהוי מסמכים חדשים או מעודכנים. זה יכול להיות מבוסס על סריקת עמודי "עדכונים אחרונים", מעקב אחרי מספרי תיקים עוקבים, או שימוש בחיפושים מבוססי תאריך. המטרה היא להוריד את כמות הבקשות היומית ממאות אלפים לכמה אלפים בודדים וממוקדים. לצורך ניטור מחירים תקדין (או במקרה הזה, ניטור שינויים בפסקי דין), אתם תצטרכו לשמור hash של תוכן כל מסמך. כשאתם סורקים מסמך קיים, השוו את ה-hash החדש לישן. אם הוא השתנה, זה דגל לעדכון. איסוף שדות כמו שמות מוצרים/מודעות (שמות פסקי דין) ו-קטגוריות (תחומי משפט) הוא קריטי לבניית קטלוג שמיש.

התמודדות עם הגנות וקצב בקשות

בואו נדבר על proxy rotation. זה לא אופציונלי. כל ניסיון לבצע scraping בקנה מידה גדול מאותה כתובת IP יסתיים בחסימה מהירה. השאלה היא לא אם להשתמש בפרוקסי, אלא איך. עבור אתר מתוחכם כמו תקדין, פרוקסי של דאטה סנטר פשוט לא יספיק. אתם צריכים כתובות IP שנראות כמו משתמשים אמיתיים. המדריך לאיך לבחור פרוקסי residential הוא נקודת התחלה טובה. המטרה היא לא להיראות כמו בוט, אלא כמו מאות משתמשים שונים שגולשים לאט.

בנוסף, צריך לנהל קצב. אל תפציצו את השרת עם מאות בקשות במקביל. זה המתכון הבטוח לקבלת שגיאות 429 (Too Many Requests). הטמעה של rate limiting בצד הלקוח היא חובה. התחילו עם דיליי של 2-3 שניות בין בקשות מאותו IP והתאימו לפי התגובות מהשרת. כלי כמו Playwright מאפשר לכם להשתמש ב-טכניקות התחמקות מתקדמות שמסוות את העובדה שאתם מריצים דפדפן אוטומטי. זה כולל זיוף של מאפייני דפדפן, הסתרת מאפייני אוטומציה, והתנהגות "אנושית" יותר. בסופו של דבר, המטרה היא לא להילחם בשרת, אלא לעבוד איתו בצורה שלא תפעיל את מנגנוני ההגנה שלו.

מתי Scraping הוא לא הפתרון הנכון

אחרי כל זה, חשוב להגיד: לא כל בעיה דורשת scraper מורכב. אם אתם צריכים מידע על 10-20 פסקי דין ספציפיים פעם בחודש, אל תבנו מערכת כזו. המאמץ פשוט לא מצדיק את התוצאה. בניית ותחזוקת scraper אמין לאתר כמו תקדין דורשת זמן פיתוח משמעותי. אנחנו מדברים על שבועות, לא ימים. ואחרי הבנייה, יש תחזוקה. אתרים משתנים. סלקטורים של CSS נשברים, לוגיקת ה-API מתעדכנת, ומנגנוני הגנה חדשים מתווספים.

אם אין לכם את המשאבים להקדיש לתחזוקה שוטפת, או אם הנתונים לא קריטיים לפעילות היומיומית שלכם, ייתכן שעדיף לחפש פתרונות אחרים. אולי יש גישה ל-API רשמי? אולי ניתן לקבל את הנתונים בצורה אחרת? פרויקט מודיעין מתחרים תקדין שמבוסס על נתונים לא אמינים או לא מעודכנים יכול לגרום יותר נזק מתועלת. המטרה היא לא רק לבנות משהו שעובד היום, אלא משהו שימשיך לעבוד גם בעוד חצי שנה. אם אין לכם את היכולת להתחייב לכך, אולי scraping הוא לא הכלי הנכון למשימה הספציפית הזו. זה לא כישלון, זו החלטה הנדסית נבונה.

נקודות מרכזיות

לתקדין השתמשו ב-Playwright עם stealth; ספריית requests פשוט לא תעבוד.
ניהול סשנים אקטיבי הוא קריטי יותר מחילוץ הנתונים עצמו.
הימנעו מסריקה מלאה יומית; בנו אסטרטגיה לזיהוי שינויים בלבד.
פרוקסי Residential ו-rate limiting הם דרישות חובה, לא אופציה.
אם אין לכם משאבי תחזוקה, פרויקט scraping מורכב עלול להיות טעות.

שאלות נפוצות

איך לבנות API פרטי מעל תקדין לאיסוף פסקי דין בזמן אמת?▾

בניית API פרטי מעל תקדין דורשת 3 רכיבים עיקריים: סקריפט סקרייפינג, מסד נתונים, ו-endpoint. השתמשו ב-Playwright עם stealth plugin כדי לנהל את הסשן המורכב של האתר. שמרו את הנתונים המובנים במסד נתונים כמו PostgreSQL. חשפו את המידע באמצעות API פשוט שנבנה עם FastAPI או Express.js. כדי להבטיח נתונים עדכניים, הריצו את הסקרייפר כל 6 שעות באמצעות cron job. גישה זו מאפשרת לכם לשלוף נתונים בצורה מבוקרת ויעילה, במקום לפנות לאתר תקדין בכל בקשה מחדש ובכך להסתכן בחסימה.

מהי הדרך היעילה ביותר לנטר שינויים בפסקי דין ספציפיים באתר takdin.co.il?▾

הדרך היעילה ביותר לניטור שינויים היא באמצעות hash-based change detection. במקום להוריד את כל תוכן פסק הדין בכל פעם, שמרו hash (למשל, SHA-256) של התוכן הרלוונטי במסד הנתונים שלכם. בכל ריצה של הסקרייפר, חשבו את ה-hash החדש והשוו אותו ל-hash השמור. רק אם יש אי-התאמה, שזה קורה בפחות מ-5% מהמקרים בדרך כלל, תורידו ותעבדו את התוכן המלא. שיטה זו חוסכת רוחב פס, מקטינה את טביעת הרגל שלכם בשרתי תקדין, ומצמצמת את הסיכוי לחסימה.

כיצד ניתן לנהל סשנים מורכבים ו-state בעת scraping של מאגר המידע המשפטי תקדין?▾

ניהול סשנים בתקדין דורש שימוש ב-browser automation tool כמו Playwright, לא בספריית requests פשוטה. שמרו את קובצי ה-cookies וה-local storage בין ריצות כדי לשמר את מצב ההתחברות והחיפושים. השתמשו ב-state machine כדי לעקוב אחר תהליך הניווט, למשל: 'unauthenticated', 'authenticated', 'in_search', 'viewing_document'. גישה זו מאפשרת לסקרייפר להתאושש מטעויות, כמו ניתוק סשן, על ידי חזרה לשלב הקודם במקום להתחיל את כל התהליך מחדש, מה שחוסך כ-30% מזמן הריצה.

מהן 3 הטעויות הנפוצות ביותר שגורמות לחסימה מיידית בעת איסוף קטלוג מתקדין?▾

שלוש טעויות עיקריות גורמות ל-90% מהחסימות בתקדין. הראשונה היא שימוש ב-datacenter proxies במקום ב-residential proxies; ה-IP ranges שלהם מזוהים ונחסמים באופן אוטומטי. השנייה היא שליחת בקשות בקצב קבוע ומהיר מדי; יש להוסיף השהייה רנדומלית של 1.5 עד 4 שניות בין בקשות. השלישית היא התעלמות מ-headers, במיוחד User-Agent ו-Referer, שחייבים להיות תואמים לדפדפן אמיתי. תיקון שלוש הטעויות הללו יאפשר לכם לאסוף נתונים לאורך זמן ללא הפרעות.

איך אפשר לחלץ טקסט נקי מפסקי דין ב-takdin.co.il ולהסיר רכיבי HTML מיותרים?▾

כדי לחלץ טקסט נקי, השתמשו בספריית Python בשם BeautifulSoup4 בשילוב עם lxml parser. ראשית, זהו את תג ה-HTML הראשי המכיל את גוף פסק הדין, לרוב זה יהיה div עם ID או class ספציפי. לאחר מכן, השתמשו בפונקציה get_text(separator='\n', strip=True) כדי לחלץ את כל הטקסט תוך שמירה על מעברי שורה והסרת רווחים מיותרים. לבסוף, העבירו את הטקסט דרך ביטוי רגולרי פשוט כדי להסיר תווים מיוחדים או שאריות JavaScript, מה שמבטיח קבלת טקסט נקי ב-99% מהמקרים.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור