Scraping מאגר רכב משרד התחבורה: המדריך למתקדמים

אם ניסיתם פעם לעשות scraping למאגר רכב משרד התחבורה עם סקריפט פשוט של `requests`, בטח גיליתם מהר מאוד שזה לא עובד. אתרים ממשלתיים הם חיה אחרת. הם לא בנויים עם APIs ציבוריים בראש, והאינטראקציה איתם דורשת יותר מסתם שליחת GET request. המטרה כאן היא לא להסביר לכם מה זה CSS selector. המטרה היא לדבר על הארכיטקטורה שצריך לבנות סביב סקרייפר כזה כדי שהוא לא יקרוס אחרי 500 בקשות ויספק דאטה נקי ואמין לאורך זמן. זה דורש הבנה של ניהול סשנים, עבודה עם פרוקסי בצורה חכמה, וזיהוי הדרך היעילה ביותר לחלץ את המידע.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה סקריפט פשוט נכשל: ניהול סשנים ו-State

הטעות הראשונה שרוב המהנדסים עושים כשהם ניגשים לאתר כמו מאגר רכב משרד התחבורה היא לחשוב עליו כעל אוסף של דפים סטטיים. זו טעות קריטית. המערכת מבוססת על state. כל חיפוש רכב הוא חלק מסשן עם תלות ב-cookies, טוקנים נסתרים בטפסים (CSRF), ולפעמים אפילו headers ספציפיים שנוצרים על ידי JavaScript בצד הלקוח. שליחת POST עם מספר רכב בלבד פשוט תיכשל עם שגיאת 403 או תחזיר דף שגיאה גנרי.

כאן נכנס לתמונה הצורך ב-headless browser. תשכחו מ-requests ו-BeautifulSoup לפרויקט הזה. הבסיס פה הוא כלי כמו Playwright. למה? כי הוא מנהל את כל הסשן בשבילכם. הוא טוען את ה-JS, שומר את ה-cookies, וממלא את הטפסים כמו משתמש אמיתי, מה שמאפשר לעבור את שכבות ההגנה הראשונות. ראיתי מערכות כאלה דורשות רצף של 3-4 בקשות מקדימות רק כדי לקבל טוקן זמני שמאפשר את החיפוש עצמו. ניסיון לשחזר את הלוגיקה הזו ידנית עם HTTP client הוא סיוט תחזוקתי. כל שינוי קטן ב-frontend של האתר ישבור לכם את הסקרייפר. עם Playwright, כל עוד ה-flow של המשתמש לא השתנה דרמטית, הקוד שלכם ימשיך לעבוד. המטרה היא לא רק לחלץ את הנתונים פעם אחת, אלא לבנות תהליך יציב עבור API / קובץ נתונים שירוץ כל יום.

איך בונים קטלוג רכב לאומי מאפס

אחרי שפיצחנו את האינטראקציה הבסיסית, האתגר הבא הוא סקייל. המטרה היא איסוף קטלוג מאגר רכב משרד התחבורה המלא. אנחנו מדברים על מאות אלפי רשומות, אולי מיליונים. אי אפשר פשוט להריץ לולאה אינסופית. צריך אסטרטגיה.

הגישה הנכונה היא לבנות תור משימות (message queue) עם כל מספרי הרכב הפוטנציאליים שאתם רוצים לבדוק. המערכת צריכה להיות מסוגלת לרוץ במקביל על מספר workers. כל worker לוקח משימה מהתור, מריץ אינסטנס של Playwright, מחלץ את הנתונים, מנקה אותם, ושומר אותם לדאטהבייס. חשוב מאוד לטפל במקרי קצה: מה קורה אם מספר רכב לא קיים? מה קורה אם הדף נטען חלקית? חובה להגדיר timeouts אגרסיביים ולבנות לוגיקת retry חכמה. אני תמיד מכוון ל-99.5% הצלחה בסריקה ראשונית. את ה-0.5% הנותרים אנחנו תופסים בריצה חוזרת שממקודת רק בכישלונות.

בשלב הזה, אתם מתחילים לאסוף מפרטים טכניים, שנת ייצור, צבע, סטטוס בעלות ועוד. מהר מאוד מצטברים לכם ג'יגהבייטים של דאטה. חשוב לתכנן את סכמת הדאטהבייס מראש כדי לאפשר שאילתות יעילות בהמשך. זה הבסיס לכל ניתוח שוק או מודיעין מתחרים מאגר רכב משרד התחבורה שתרצו לעשות בעתיד.

המלכודת הבלתי נמנעת: Rate Limiting וחסימות IP

אז הסקרייפר שלכם עובד, ואתם מתחילים להריץ אותו בסקייל. אחרי 2000 בקשות, פתאום הכל נעצר. אתם מתחילים לקבל שגיאות 429 (Too Many Requests) או שפשוט כל הבקשות נתקעות ב-timeout. ברוכים הבאים לעולם ה-rate limiting. שרתים ממשלתיים רגישים במיוחד לעומס. הם לא מצפים שמישהו יבקש מידע על 50,000 רכבים בשעה.

הפתרון הוא לא להאט, אלא להיות חכם יותר. ראשית, צריך לזהות את מנגנון ההגבלה. לרוב זה מבוסס IP. אם תריצו יותר מ-15-20 בקשות בדקה מאותו IP, סביר להניח שתיחסמו זמנית. כאן נכנסת לתמונה ארכיטקטורת פרוקסי חזקה. שימוש ב-datacenter proxies יכול לעבוד, אבל הם קלים לזיהוי. במקרים רבים, תצטרכו לעבור לפתרון מורכב יותר. תוכלו לקרוא עוד על איך לבחור פרוקסי residential כדי להבין את הטרייד-אופים. המפתח הוא לבצע רוטציה של כתובות IP בצורה שתדמה תעבורה של משתמשים אמיתיים. כל worker במערכת שלכם צריך לצאת מ-IP אחר. זה גם המקום לטפל בשגיאות בצורה אקטיבית. קראו את המדריך לטיפול בשגיאות 429; הוא מכיל טכניקות קונקרטיות כמו exponential backoff שחובה ליישם כאן.

מתי לא להשתמש ב-Headless Browser (ומה לעשות במקום)

אמרתי קודם להשתמש ב-Playwright, ועכשיו אני אגיד מתי זה בזבוז משאבים. שימוש ב-headless browser לכל בקשה ובקשה הוא יקר מבחינת CPU וזיכרון. אחרי שהבנתם את הלוגיקה של האתר, השלב הבא לאופטימיזציה הוא לנסות לעקוף את ה-UI לחלוטין.

פתחו את ה-Developer Tools בדפדפן, ובצעו חיפוש רכב באופן ידני. תחת לשונית 'Network', תסתכלו על בקשות ה-XHR/Fetch שהדפדפן שולח ברקע. הרבה פעמים, אחרי כל הלוגיקה המורכבת של ה-frontend, בסוף נקרא API פנימי ודי פשוט. אולי הוא דורש cookie מסוים או header של authorization שקיבלתם בבקשות קודמות. המשימה שלכם היא לשחזר את הבקשה הזו בלבד. אם תצליחו, תוכלו להחליף את Playwright היקר בקריאת requests פשוטה ומהירה פי 100. זה ההבדל בין סקריפט שיכול לעבד 10 רכבים בדקה לסקריפט שמעבד 1000.

זה לא תמיד אפשרי. אתרים מודרניים משתמשים בטכניקות כמו 'device fingerprinting' כדי לוודא שהבקשה מגיעה מדפדפן אמיתי. במקרים כאלה, אתם חייבים להישאר עם דפדפן מלא, ואולי אפילו להשתמש בספריות הסוואה. המדריך ל-Playwright stealth הוא נקודת פתיחה טובה אם אתם נתקלים בהגנות אקטיביות כאלה. אבל תמיד תבדקו קודם אם קיימת דרך קלה יותר. החיסכון במשאבים הוא עצום.

הפיכת הדאטה הגולמי לתובנות: ניקוי, מבנה ומעקב

הוצאת הנתונים היא רק חצי מהעבודה. הדאטה שתקבלו ממאגר רכב משרד התחבורה לא תמיד יהיה נקי. שדות יכולים להיות חסרים, פורמטים לא אחידים, או ערכים כמו 'לא ידוע'. השלב הבא הוא לבנות pipeline של עיבוד נתונים (ETL).

הפייפליין הזה צריך לקחת את ה-HTML או JSON הגולמי, לנרמל את הערכים (למשל, להפוך 'בנזין' ו-'דלק' לאותו ערך סטנדרטי), להעשיר את המידע (למשל, לחשב את גיל הרכב משנת הייצור), ולוודא את תקינות הנתונים. רק אחרי התהליך הזה הדאטה באמת שמיש. עכשיו אפשר להתחיל להשתמש בו למטרות המקוריות. לדוגמה, מעקב מלאי/זמינות מאגר רכב משרד התחבורה הופך לאפשרי: אתם יכולים להריץ את הסקרייפר על אותה רשימת רכבים פעם בשבוע ולזהות שינויים בסטטוס, כמו רכב שעבר טסט או הורד מהכביש. אתם יכולים לנתח את שדה שינויים במוצרים כדי לראות אילו דגמים חדשים נכנסים לשוק. בלי שלב ניקוי וסטנדרטיזציה, כל ניסיון להפיק תובנות מהדאטה יהיה מלווה בכאב ראש גדול ונתונים שגויים.

נקודות מרכזיות

עבור scraping מאגר רכב משרד התחבורה, התחילו עם Playwright לניהול סשנים; אל תנסו לשחזר לוגיקה עם requests.
צפו ל-rate limiting. תכננו מראש ארכיטקטורת פרוקסי עם רוטציה כדי למנוע חסימות IP.
אחרי שהבנתם את המערכת, חפשו API פנימי נסתר כדי להחליף את ה-headless browser ולשפר ביצועים פי 100.
הוצאת הנתונים היא רק ההתחלה; השקיעו מאמץ משמעותי ב-pipeline לניקוי וסטנדרטיזציה של המידע.
סקייל דורש תור משימות ו-workers מקבילים, עם לוגיקת retry חכמה כדי להגיע לאחוזי הצלחה גבוהים.

שאלות נפוצות

איך לבנות API פרטי מעל מאגר רכב משרד התחבורה ללא תחזוקה שוטפת?▾

הדרך היעילה ביותר היא להריץ scraper יומי המייצא את כל המאגר לקובץ Parquet או CSV שמאוחסן ב-S3. במקום לתחזק API חי מול האתר, האפליקציה שלך תקרא ישירות מהקובץ הסטטי, מה שמבטיח זמינות של 100% וזמן תגובה של מילי-שניות בודדות. גישה זו מונעת תלות בזמינות האתר הממשלתי ומפשטת את הארכיטקטורה. תהליך ה-scraping יכול לרוץ על פונקציית Lambda בודדת פעם ב-24 שעות כדי לשמור על עדכניות הנתונים בעלות מינימלית.

מהי הדרך היעילה ביותר לזהות שינויי מחירים במאגר רכב משרד התחבורה?▾

השיטה היעילה ביותר היא להריץ scraper ממוקד השומר 'תמונת מצב' (snapshot) יומית של מחירי הרכבים הרלוונטיים. על ידי חישוב hash (למשל, MD5) לכל שורת נתונים הכוללת מזהה רכב ומחיר, ניתן לזהות שינויים באופן מיידי בהשוואה לקובץ של היום הקודם. טכניקה זו חוסכת עיבוד מלא של כל המאגר ומאפשרת לשלוח התראות תוך פחות מ-5 דקות מרגע גילוי השינוי, תוך שימוש במשאבי חישוב מינימליים.

כיצד ניתן לעקוף את מנגנון ה-CAPTCHA באתר gov.il/apps/mot/car ב-2025?▾

עקיפת CAPTCHA באתר דורשת שימוש בשירותי פתרון ייעודיים כמו 2Captcha או Anti-CAPTCHA המשתלבים עם כלי אוטומציה. במקום לנסות לפתור את האתגר בעצמך, ה-scraper שלך שולח את פרטי ה-CAPTCHA (כמו site-key) ל-API של השירות וממתין ל-token פתור. שימוש ב-Playwright עם תוסף stealth יכול להפחית את תדירות הופעת ה-CAPTCHA ב-70%, אך עבור scraping בקנה מידה גדול, שירות פתרון חיצוני הוא הפתרון היחיד שעובד באופן עקבי.

מהי האסטרטגיה לניהול session state풀 בעת scraping של מאגר רכב משרד התחבורה?▾

ניהול state דורש שמירת עוגיות (cookies) ו-headers ספציפיים לכל session על פני מספר בקשות. במקום להשתמש ב-requests פשוט, השתמש בספרייה כמו requests.Session בפייתון או ב-browser אוטומטי כמו Puppeteer שדואג לכך אוטומטית. חובה לשמור את ה-session ID שמתקבל לאחר החיפוש הראשוני ולהעביר אותו בכל בקשת עמוד נוספת. אי ביצוע פעולה זו יגרום לאתר להחזיר אותך לדף החיפוש הראשי לאחר 2-3 בקשות בלבד.

איך אוכל לבצע איסוף קטלוג מלא ממאגר רכב משרד התחבורה מבלי להפעיל מגבלות קצב?▾

כדי להימנע ממגבלות קצב (rate limiting), יש לשלב שלוש טכניקות: סיבוב IP, השהיות אקראיות ושימוש ב-User-Agent מגוון. השתמש ב-pool של לפחות 10 כתובות IP מסוג residential וסובב אותן כל 50-100 בקשות. בנוסף, הטמע השהיה אקראית של בין 1.5 ל-4 שניות בין כל בקשה כדי לחקות התנהגות אנושית. לבסוף, החלף את ה-User-Agent שלך כל כמה מאות בקשות מתוך רשימה של 20 דפדפנים פופולריים. שילוב זה מוריד את סיכויי החסימה ביותר מ-95%.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור