Scraping אגד: המדריך הטכני לנתוני תחבורה בזמן אמת

אם ניגשתם למשימת scraping אגד עם requests ו-BeautifulSoup, אתם כנראה כבר יודעים שזה לא עובד. אתר אגד הוא לא קטלוג סטטי, אלא אפליקציית web דינמית שמחייבת גישה שונה לחלוטין. אנחנו לא מדברים על חילוץ טקסט מ-HTML, אלא על אינטראקציה עם מערכת מורכבת שדורשת ניהול מצב, ביצוע פעולות JavaScript, והתמודדות עם נתונים שמשתנים כל דקה. במדריך הזה, נפרק את האתגרים הספציפיים לאתר מסוג זה ונראה איך בונים פתרון יציב שמספק נתונים מדויקים ואמינים, בין אם המטרה היא ניטור מחירים או מעקב זמינות.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה אתר כמו אגד הוא לא עוד יעד סקראפינג פשוט

הטעות הראשונה שמהנדסים עושים היא להתייחס לאתר אגד כמו אל אתר תוכן. הם שולחים בקשת GET, מקבלים HTML ומתחילים לפרסר. זה נכשל מיד. חיפוש קו אוטובוס הוא לא לינק, הוא טופס אינטראקטיבי שמפעיל שרשרת של אירועי JavaScript. בחירת מוצא, יעד ותאריך מפעילה קריאות AJAX ברקע, מעדכנת את ה-DOM, ומנהלת state בצד הלקוח. אם תנסו לדלג על השלבים האלה ולגשת ישירות ל-URL של התוצאות, תקבלו דף ריק או שגיאה.

זו הסיבה שכלים כמו Playwright או Puppeteer הם נקודת הפתיחה, לא אופציה. אנחנו צריכים לדמות משתמש אמיתי: להקליד בתיבות טקסט, ללחוץ על כפתורים, להמתין לאלמנטים שיופיעו באופן אסינכרוני. כל ניסיון לחסוך פה במשאבים ולהישאר בסביבת HTTP טהורה יוביל לשעות של תסכול. לדוגמה, ראיתי פרויקטים שניסו להנדס לאחור את קריאות ה-API הפנימיות של האתר. זה עבד שבועיים, עד העדכון הבא של ה-frontend ששינה את ה-endpoint או את ה-payload הנדרש והשבית את כל המערכת. התחזוקה של גישה כזו גבוהה משמעותית מהשקעה ראשונית בבניית סקריפט מבוסס browser automation. המטרה היא לא רק להוציא את הנתונים פעם אחת, אלא לבנות תהליך עמיד שישרוד את השינויים הבלתי נמנעים באתר היעד.

איסוף קטלוג וניטור מחירים: הגישה הנכונה

אחד ה-use cases המרכזיים הוא איסוף קטלוג אגד – כלומר, מיפוי כל קווי הנסיעה האפשריים. זה לא פשוט כמו לעקוב אחרי לינקים של 'העמוד הבא'. צריך לייצר באופן פרוגרמטי את כל הצירופים של מוצא ויעד רלוונטיים. זה יכול להגיע בקלות לעשרות אלפי חיפושים שונים רק כדי לכסות את הרשת הארצית. לאחר מכן, עבור כל קו, נרצה לבצע ניטור מחירים אגד לאורך זמן.

התהליך חייב להיות מבוסס אינטראקציה. הסקריפט יצטרך לבצע לולאה שבה הוא:

מנווט לדף החיפוש הראשי.
ממלא את שדות המוצא והיעד.
בוחר תאריך מה-date picker (אלמנט JS קלאסי).
לוחץ על כפתור החיפוש וממתין לטעינת התוצאות.
מחלץ את הנתונים הנדרשים כמו מחירים וזמני יציאה.

האתגר הוא לעשות זאת ביעילות. הרצת אלפי מופעי דפדפן במקביל דורשת תכנון. צריך להשתמש ב-pools של workers ולנהל תורים. חשוב למדוד זמני תגובה – אם חיפוש ממוצע לוקח 4 שניות, אז סריקה של 10,000 קווים תיקח מעל 11 שעות על worker בודד. זה לא סקיילבילי. לכן, הפעלה מקבילית היא הכרח. כמו כן, חשוב לטפל בשגיאות נקודתית. אם חיפוש אחד נכשל, הוא לא אמור להפיל את כל הריצה. מנגנון retry חכם, אולי עם שימוש ב-proxy אחר, הוא קריטי כדי להגיע לאחוזי הצלחה של מעל 99% באיסוף הנתונים. המדריך שלנו על טיפול בשגיאות רשת נפוצות יכול לתת כאן בסיס טוב.

מעקב זמינות מושבים: אתגר ה-Real-Time

אם ניטור מחירים הוא מורכב, מעקב מלאי/זמינות אגד הוא סדר גודל אחר של קושי. כאן אנחנו מתמודדים עם נתונים שמשתנים לא פעם ביום, אלא פעם בדקה. זמינות המושבים בקו מבוקש יכולה להשתנות בזמן שה-scraper שלנו עדיין רץ. זהו failure scenario קלאסי: ה-scraper מדווח על 5 מושבים פנויים, אבל בזמן שעבר מהרצת הסקריפט ועד שהמידע נצרך, כל הכרטיסים נמכרו. המידע הופך לחסר ערך.

כדי להתמודד עם זה, צריך לעבור ממודל של סריקות תקופתיות (batch) למודל שקרוב יותר לזמן אמת. זה דורש תשתית מהירה מאוד, עם latency נמוך בין ה-worker לאתר היעד. כל שנייה חשובה. בנוסף, התהליך עצמו מורכב יותר. אחרי קבלת תוצאות החיפוש הראשוניות, לעיתים קרובות צריך לבצע פעולה נוספת – 'בחר נסיעה' – כדי לראות את מפת המושבים או את הכמות המדויקת של המקומות הפנויים. זה מוסיף עוד שלב לתהליך, עוד אינטראקציית JS, ועוד נקודת כשל אפשרית. ניהול סשנים הופך לקריטי. האם האתר משתמש בקוקיות כדי לזכור את החיפוש שבחרת? כנראה שכן. לכן, כל סדרת הפעולות (חיפוש -> בחירה -> בדיקת זמינות) צריכה להתבצע באותו קונטקסט דפדפן. אי אפשר לפצל את המשימות האלה בין workers שונים בלי לנהל את הסשן בקפידה. המפתח הוא לבנות 'טרנזקציות' קצרות וממוקדות שבודקות זמינות לקו ספציפי וחוזר חלילה, במקום סריקות ארוכות וגורפות.

איפה הגישה הזו נכשלת (ולמה לא תמיד צריך Headless Browser)

אחרי כל מה שאמרתי על Playwright, חשוב לשים סייג. להריץ דפדפן מלא זה יקר מבחינת CPU ו-RAM. אם כל מה שאתם צריכים זה רשימה של כל תחנות האוטובוס של אגד בארץ, ייתכן שהמידע הזה קיים בעמוד סטטי או נטען מקריאת API פשוטה וגלויה. במקרה כזה, להפעיל Playwright זה כמו להשתמש בפטיש 5 קילו כדי לתקוע נעץ. זה בזבוז משאבים.

לפני שכותבים שורת קוד אחת של browser automation, השלב הראשון הוא תמיד לפתוח את ה-DevTools ולנתח את תעבורת הרשת. חפשו קריאות ל-/api/ או קבצי JSON שנטענים ברקע. לפעמים, אפשר למצוא endpoint שמחזיר בדיוק את המידע שצריך, בלי כל התקורה של ה-UI. אם תצליחו למצוא API כזה, תוכלו לבנות API / קובץ נתונים אגד בעצמכם, באמצעות בקשות HTTP פשוטות. זה יהיה מהיר ואמין פי 100 מכל סקריפט אוטומציה. הבעיה היא שה-APIs האלה לא מתועדים, הם יכולים להשתנות ללא הודעה מוקדמת, ולעיתים דורשים headers מיוחדים או טוקנים שנוצרים על ידי ה-JavaScript של האתר. לכן, זו גישה שמתאימה יותר למשימות ספציפיות ומוגדרות היטב. למידע נוסף על התהליך, תוכלו לקרוא את המדריך שלנו להנדוס לאחור של APIs.

בניית Data Pipeline אמין למודיעין תחרותי

איסוף הנתונים הוא רק חצי מהסיפור. כדי להפוך את המידע הזה לבעל ערך, למשל עבור מודיעין מתחרים אגד, הוא חייב להיות עקבי, אמין וזמין. זה אומר לבנות data pipeline מלא. ה-scraper הוא רק השלב הראשון.

הנתונים הגולמיים שחולצו צריכים לעבור ניקוי וסטנדרטיזציה. לדוגמה, שמות תחנות עשויים להופיע בוריאציות שונות. לאחר מכן, הנתונים המנוקים נשמרים בבסיס נתונים – בין אם זה PostgreSQL, MongoDB או מחסן נתונים ייעודי. משם, אפשר לבנות דשבורדים, להפיק התראות על שינויים משמעותיים (כמו קו חדש שנוסף), או לייצא את המידע לפורמט CSV או API לשימוש מערכות אחרות. דמיינו מערכת שמנטרת 300 קווים מרכזיים, 4 פעמים ביום, ומייצרת מעל 1,200 נקודות נתונים חדשות מדי יום על מחירים וזמינות. זה דורש אוטומציה מלאה.

בנוסף, התשתית עצמה צריכה להיות חסינה. מה קורה אם ה-IP של השרת שלכם נחסם? כאן נכנסת לתמונה רוטציית פרוקסי חכמה. שימוש ב-pool של פרוקסי מסוג residential יכול להפחית משמעותית את הסיכוי לחסימה. צריך גם מערכת ניטור שתתריע אם אחוז השגיאות עולה מעל סף מסוים (למשל, 5%), מה שיכול להצביע על שינוי במבנה האתר או על הפעלת מנגנון הגנה חדש. בניית פייפליין כזה היא השקעה משמעותית, אבל היא ההבדל בין פרויקט scraping חד-פעמי ושברירי לבין נכס דאטה אסטרטגי.

נקודות מרכזיות

עבור אתרים דינמיים כמו אגד, התחילו עם Playwright; אל תבזבזו זמן על בקשות HTTP פשוטות.
מיפוי קווים ומחירים דורש הרצה מקבילית של אלפי חיפושים מדומים.
מעקב זמינות בזמן אמת מחייב ניהול סשנים קפדני וארכיטקטורה עם latency נמוך.
לפני אוטומציה של הדפדפן, בדקו תמיד אם קיים API פנימי שניתן לנצל.
איסוף נתונים אמין דורש Data Pipeline מלא, כולל ניקוי, אחסון וניטור.

שאלות נפוצות

איך אני יכול לקבל API של נתוני אגד בזמן אמת ללא שימוש באתר עצמו?▾

כדי ליצור API פרטי לנתוני אגד, הדרך היעילה ביותר היא להשתמש ב-Playwright או Puppeteer להרצת סקריפט על שרת כל 60 שניות. הסקריפט יבצע את החיפוש המבוקש באתר, יחלץ את הנתונים העדכניים וישמור אותם במסד נתונים כמו Redis. לאחר מכן, יש לחשוף endpoint פשוט ב-Flask או Express.js שיגיש את הנתונים השמורים. גישה זו עוקפת את הצורך באינטראקציה ישירה עם ה-frontend בכל קריאה ומפחיתה את הסיכוי לחסימה ב-90% לעומת גירוד ישיר פר בקשה.

מהי הדרך היעילה ביותר לניטור שינויי מחירי נסיעות באתר egged.co.il?▾

הדרך היעילה ביותר לניטור מחירים באתר אגד היא באמצעות גירוד ממוקד (scraping) של נקודות הקצה הפנימיות (internal API endpoints) שהאתר משתמש בהן. במקום לעבד את כל ה-HTML, השתמשו בכלי הפיתוח של הדפדפן (DevTools) כדי לזהות את קריאות ה-XHR/Fetch שמחזירות את נתוני המחיר בפורמט JSON. לאחר זיהוי, ניתן לשלוח בקשות HTTP ישירות לנקודות קצה אלו באמצעות ספריות כמו axios או requests, מה שמפחית את זמן הריצה ביותר מ-85% בהשוואה לאוטומציית דפדפן מלאה.

כיצד אוכל לעקוב אחר זמינות מקומות באוטובוסים ספציפיים של אגד באופן אוטומטי?▾

מעקב זמינות מקומות באגד דורש ניהול state ו-sessions באופן מדויק. הפתרון הוא להשתמש בספריית אוטומציית דפדפן כמו Playwright כדי לדמות תהליך הזמנה מלא עד לשלב בחירת המושבים, מבלי להשלים את התשלום. יש לשמור את קובצי ה-cookies וה-session storage בין ריצות כדי לשמור על ההקשר. על ידי הרצת תהליך זה כל 5 דקות עבור קווים ספציפיים, ניתן לחלץ את מפת המושבים העדכנית ולזהות שינויים בזמינות. שיטה זו אמינה יותר מ-95% מניסיונות גישה ישירה ל-API.

מהם 3 האתגרים המרכזיים בגירוד אתר דינאמי מבוסס JavaScript כמו אגד?▾

האתגר המרכזי הראשון בגירוד אגד הוא עיבוד JavaScript בצד הלקוח, מה שמחייב שימוש בכלים כמו Puppeteer ולא בספריית HTTP פשוטה. האתגר השני הוא ניהול מצב (state), מכיוון שנתונים רבים תלויים בפעולות קודמות של המשתמש, כמו בחירת מוצא ויעד. האתגר השלישי הוא התמודדות עם נתונים המתעדכנים בזמן אמת, מה שמצריך המתנה לאירועים ספציפיים ברשת או ב-DOM במקום להסתמך על טעינת עמוד סטטית. התעלמות מאתגרים אלו מובילה לכ-80% מכישלונות הגירוד.

איך לבנות קובץ נתונים (dataset) של כל קווי האוטובוס הפעילים של אגד?▾

כדי לבנות קובץ נתונים מקיף של קווי אגד, יש לתכנן סקראפר רב-שלבי. בשלב הראשון, השתמשו ב-Playwright כדי לעבור באופן שיטתי על כל האזורים והערים הזמינים בטופס החיפוש כדי לאסוף את רשימת התחנות המלאה. בשלב השני, הפעילו לולאה שתבצע חיפושים עבור כל זוג אפשרי של תחנות מוצא ויעד מרכזיות. לבסוף, יש לנקות את הנתונים, להסיר כפילויות ולשמור את התוצאה הסופית, הכוללת מספרי קווים ומסלולים, בקובץ CSV או במסד נתונים. תהליך זה יכול לארוך מעל 24 שעות.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור