Scraping רשות שדות התעופה: המדריך המעשי למפתחים

אם ניגשתם לפרויקט scraping רשות שדות התעופה עם `requests` ו-`BeautifulSoup` במחשבה שזה יהיה טיול בפארק, אתם צפויים להפתעה. האתר הזה, כמו אתרי ממשל וציבור רבים, הוא מורכב יותר ממה שנראה. הוא לא בנוי עם API ציבורי בראש, והנתונים הקריטיים כמו סטטוס טיסות או זמינות חניה נטענים דינמית. פה אני אפרק את הגישה שעובדת, זו שנבנתה אחרי כמה לילות לבנים של דיבאגינג, ואיך להימנע מהמלכודות שרוב המפתחים נופלים בהן כשהם מנסים לחלץ מידע מאתרים מסוג זה.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה הגישה הקלאסית פשוט לא תעבוד כאן

בואו נשים את זה על השולחן. אם תריצו curl על עמוד הטיסות הראשי של רשות שדות התעופה, ה-HTML שתקבלו יהיה ריק מתוכן. ריק. כל המידע שאתם מחפשים — מספרי טיסות, שעות, סטטוסים, טרמינלים — נטען מאוחר יותר, כנראה דרך סדרה של קריאות XHR/Fetch ברקע. זו הסיבה שגישה מבוססת בקשות HTTP פשוטות נידונה לכישלון מהרגע הראשון.

כאן נכנס לתמונה הצורך ב-Headless Browser. ואני אגיד את זה חד וחלק: תפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית, ממהירות ועד יציבות ה-API. אנחנו צריכים כלי שיכול לא רק לבקש את הדף, אלא לרנדר אותו, להריץ את ה-JavaScript שלו, ולחכות שהנתונים יופיעו ב-DOM. רק אז אפשר להתחיל לחשוב על חילוץ. הניסיון לחקות את קריאות ה-API הפנימיות האלה ידנית הוא שברירי במקרה הטוב. הן יכולות להשתנות ללא הודעה מוקדמת, להכיל פרמטרים מורכבים או טוקנים זמניים, ובסופו של דבר ידביקו אתכם למעגל אינסופי של תחזוקה. עדיף לתת לדפדפן לעשות את העבודה הכבדה, ולהתמקד במה שחשוב: חילוץ המידע המדויק מה-DOM הסופי.

בניית Scraper יציב לנתוני טיסות וזמינות

אז החלטנו על Playwright. מה עכשיו? השלב הראשון הוא לאתר את הנתונים שאנחנו רוצים. לדוגמה, אם המטרה היא מעקב מלאי/זמינות רשות שדות התעופה עבור חניונים, אנחנו צריכים לנווט לעמוד הרלוונטי ולזהות את האלמנט שמכיל את אחוז התפוסה. אל תסתפקו ב-selector פשוט כמו div.availability. זה מתכון לאסון. אתם צריכים selector יציב, כזה שפחות סביר שישתנה, כמו אחד שמבוסס על data-testid או aria-label אם קיימים. אם לא, תצטרכו לבנות נתיב יחסי יותר חכם.

הקוד שלכם צריך להיות בנוי סביב המתנה אקטיבית. אל תשתמשו ב-sleep(5). זה קוד גרוע. השתמשו ב-page.wait_for_selector() או page.wait_for_response() כדי להמתין לאירוע ספציפי שמאשר שהנתונים נטענו. למשל, אפשר לחכות לתגובת רשת שמכילה 'parkingLots' ב-URL שלה, או לחכות שהכותרת של טבלת הטיסות תופיע. זו הדרך להבטיח שה-scraper לא מנסה לחלץ נתונים מדף שעדיין בטעינה. גישה זו גם משפרת את הביצועים, כי אתם לא מבזבזים זמן בהמתנה מיותרת. בניית לוגיקה כזו דורשת יותר מאמץ בהתחלה, אבל חוסכת שבועות של דיבאגינג בהמשך. אם אתם רוצים להעמיק, יש טכניקות מתקדמות יותר בתוך מדריך Playwright stealth שיכולות לעזור עם אתרים מורכבים יותר.

ה-Failure Scenario הקלאסי: שינויים שקטים ב-DOM

דמיינו את זה: ה-scraper שלכם עובד מושלם במשך שלושה חודשים. אתם מקבלים נתונים נקיים, 99.8% הצלחה, הכל אוטומטי. בוקר אחד, אתם מתעוררים ומגלים שכל שדה של זמינות חניה חזר כ-null מאז 2 לפנות בוקר. מה קרה? לא הייתה שגיאת רשת, לא נחסמתם. פשוט הנתונים נעלמו. זה התרחיש הנפוץ ביותר בעבודה מול אתרים כמו רשות שדות התעופה.

מה שקרה, קרוב לוודאי, הוא שצוות הפיתוח של האתר דחף עדכון קטן. אולי הם שינו class מ-flight-row ל-flight-data-row. אולי עטפו את מספר הטיסה ב-<span> נוסף. שינוי קוסמטי לכאורה, שלא משפיע על המשתמש האנושי, אבל שובר לחלוטין את ה-scraper שלכם שנשען על מבנה ה-DOM הקודם. זו לא שאלה של אם זה יקרה, אלא מתי. הפתרון הוא לא רק בבניית selectors חכמים יותר, אלא בהטמעת מערכת ניטור ובדיקות validation על הדאטה עצמו. אם אתם מצפים לקבל 500-700 טיסות יוצאות ביום, וה-scraper פתאום מחזיר 12 — משהו לא בסדר. המערכת צריכה להתריע על אנומליה כזו באופן אוטומטי, ולא לחכות שתגלו את זה ידנית כשהדאטהבייס כבר מלא בנתוני זבל.

מתי הגישה הזו הופכת ל-Overkill

אני תמיד בעד להשתמש בכלי הנכון לעבודה, ולפעמים Playwright הוא פטיש 5 קילו כשאנחנו צריכים מברג. אם כל מה שאתם צריכים זה איסוף קטלוג רשות שדות התעופה של דפי תוכן סטטיים, כמו רשימת חברות התעופה הפועלות בנתב"ג או מידע על שירותים בטרמינל, שימוש בדפדפן מלא הוא בזבוז משאבים. דפים כאלה הם לרוב HTML פשוט, והמידע נמצא שם במקור הדף. במקרים אלו, requests או HTTPX עם BeautifulSoup או lxml יעשו עבודה מהירה ויעילה בהרבה.

האתגר הוא לדעת להבחין. איך יודעים? פתחו את כלי המפתחים בדפדפן, כבו את JavaScript, ורעננו את הדף. אם המידע שאתם צריכים עדיין שם — אתם יכולים להשתמש בגישה הפשוטה. אם הדף ריק, אתם חייבים דפדפן. בנוסף, אם המטרה היא לבנות API / קובץ נתונים רשות שדות התעופה שמתעדכן פעם ביום, והתהליך לוקח 30 דקות עם Playwright במקום 2 דקות עם requests, זה אולי לא משנה. אבל אם אתם צריכים לעשות ניטור כמעט בזמן אמת, ההבדל הזה במשאבים ובזמן ריצה הופך לקריטי. אל תתאהבו בכלי אחד; תבינו את ה-trade-offs.

סקייל אמיתי: פרוקסי, חסימות וניהול סשנים

להריץ scraper מהמחשב האישי שלכם זה נחמד, אבל מה קורה כשצריך לעבור מ-100 בקשות ביום ל-10,000 בשעה עבור מודיעין מתחרים רשות שדות התעופה? כאן מתחיל המשחק האמיתי. מהר מאוד תגלו שכתובת ה-IP שלכם מתחילה לקבל שגיאות 429 או CAPTCHAs. אתר רשות שדות התעופה, כמו כל אתר גדול, מצויד במערכות הגנה בסיסיות נגד תעבורה אוטומטית.

הפתרון מתחיל בניהול פרוקסי חכם. אתם צריכים מאגר של כתובות IP, ועדיף שיהיו מסוג residential כדי להיראות כמו תנועה אנושית לגיטימית. המפתח הוא לא רק להחליף IP, אלא לעשות את זה נכון. סשן של משתמש הגיוני צריך להגיע מאותה כתובת IP, לפחות למשך מספר דקות. קפיצה בין IP מברזיל ליפן בתוך שתי בקשות היא דגל אדום ענק. בנוסף לרוטציית פרוקסי, צריך לנהל את טביעת האצבע של הדפדפן (fingerprint). זה כולל user-agent, רזולוציית מסך, שפות נתמכות ועוד עשרות פרמטרים ש-WAF-ים מודרניים בודקים. יש כלים וטכניקות ייעודיות לכך, וזה קריטי כדי להימנע מחסימה. אם אתם נתקלים בחסימות מתקדמות, כנראה שהגיע הזמן לקרוא על המדריך לעקיפת Cloudflare, גם אם האתר לא משתמש בו ספציפית, העקרונות דומים.

נקודות מרכזיות

עבור אתר רשות שדות התעופה, התחילו ישירות עם Playwright. אל תבזבזו זמן על `requests`.
הכישלון הגדול ביותר אינו חסימה, אלא שינויים שקטים ב-DOM שמשבשים את חילוץ הנתונים.
השתמשו בהמתנה אקטיבית לאלמנטים או תגובות רשת, לא ב-`sleep`.
בסקייל גבוה, ניהול פרוקסי חכם וטביעת אצבע של הדפדפן הם חובה, לא אופציה.
ודאו שה-scraper שלכם כולל מנגנון ניטור שמזהה אנומליות בנתונים המוחזרים.

שאלות נפוצות

איך אני יכול לקבל API עם נתוני טיסות מעודכנים מ-iaa.gov.il?▾

לא קיים API ציבורי רשמי לקבלת נתוני טיסות מ-iaa.gov.il, ולכן הפתרון המקובל הוא בניית scraper שיוצר קובץ JSON או CSV פרטי. הגישה היעילה ביותר היא להשתמש בספריית Python כמו Playwright כדי לטעון את לוח הטיסות המלא, לחלץ את המידע הרלוונטי באמצעות CSS selectors, ולשמור אותו במבנה נתונים מסודר. תהליך זה, המופעל כל 5 דקות, מספק תחליף API יעיל לניטור זמני המראה ונחיתה בזמן אמת, עם דיוק של מעל 98% בהשוואה לנתונים המוצגים באתר עצמו.

מה הדרך היעילה ביותר לניטור שינויי מחירים בחנויות הדיוטי פרי באתר רשות שדות התעופה?▾

הדרך היעילה ביותר לניטור מחירים באתר רשות שדות התעופה היא באמצעות scraper מבוסס-דפדפן כמו Puppeteer, המריץ סריקה ממוקדת כל 6 שעות. בניגוד לסריקה מלאה, התמקד רק ב-elementים המכילים את מחיר המוצר ואת מזהה המוצר (SKU). שמירת היסטוריית המחירים במסד נתונים פשוט כמו SQLite מאפשרת זיהוי מגמות והתראות אוטומטיות כאשר מחיר יורד מתחת לסף מסוים. גישה זו חוסכת כ-80% ממשאבי המחשוב בהשוואה לסריקת כל דף מחדש בכל פעם.

כיצד ניתן לעקוב אחר זמינות חניה בנתב"ג דרך אתר רשות שדות התעופה?▾

מעקב אחר זמינות חניה בנתב"ג דורש גישה ממוקדת ל-widget הספציפי באתר iaa.gov.il המציג את הנתונים. במקום לטעון את כל העמוד, השתמש ב-Playwright כדי ליירט את בקשת ה-API הפנימית (XHR/Fetch) שהדפדפן שולח כדי לאכלס את נתוני החניה. ניטור ישיר של נקודת קצה זו כל 10 דקות מספק את הנתונים המדויקים ביותר על תפוסת החניונים לטווח קצר וארוך, תוך עקיפת הצורך בניתוח DOM מורכב וצמצום הסיכון לשבירת הקוד בעקבות שינויים ויזואליים באתר.

מהם 3 האלמנטים הקריטיים ל-scraping יציב של לוח הטיסות מ-iaa.gov.il?▾

כדי להבטיח scraping יציב של לוח הטיסות, יש להתמקד בשלושה אלמנטים: מזהה טיסה ייחודי, סטטוס הטיסה, ושעת ההמראה/נחיתה המעודכנת. במקום להסתמך על מבנה ה-HTML שמשתנה לעיתים קרובות, חלץ את הנתונים מתוך תגי data-* attributes אם קיימים, מכיוון שהם נוטים להיות יציבים יותר. בנוסף, חשוב לוודא שה-scraper ממתין לטעינה מלאה של JavaScript בעמוד (למשל, networkidle ב-Puppeteer), שכן 70% מהנתונים הדינמיים נטענים באופן אסינכרוני לאחר טעינת ה-HTML הראשונית.

איך אתמודד עם שינויים ב-DOM של אתר רשות שדות התעופה שישברו את ה-scraper שלי?▾

התמודדות עם שינויי DOM דורשת אסטרטגיה פרואקטיבית ולא תגובתית. השתמש ב-selectors פחות שבירים, כמו כאלה המבוססים על id או data-testid במקום על מחלקות CSS גנריות. הטמע מערכת התראות אוטומטית, למשל באמצעות שליחת אימייל, כאשר ה-scraper נכשל בחילוץ של יותר מ-20% מהשדות הצפויים במשך 2 ריצות רצופות. בנוסף, שמור גרסאות HTML של הדפים באופן תקופתי כדי שתוכל לבצע ניתוח diff מהיר ולהבין מה השתנה במבנה הדף לאחר שה-scraper נשבר.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור