Scraping השירות המטאורולוגי: מדריך טכני לאיסוף נתונים

אם ניסיתם לעשות scraping לאתר השירות המטאורולוגי ונתקעתם, אתם לא לבד. האתר נראה פשוט, אולי אפילו מיושן, אבל מתחת למכסה המנוע מסתתרות כמה הפתעות. זה לא אתר e-commerce עם הגנות Cloudflare מורכבות, אבל הוא דורש גישה חכמה יותר מסקריפט Python פשוט עם requests. בניתי ופרסתי scrapers לאתר הזה עבור כמה פרויקטים, ולמדתי בדרך הקשה מה עובד ומה שובר את המערכת אחרי 500 בקשות. זה המדריך שהלוואי והיה לי כשהתחלתי.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה בקשות GET פשוטות נכשלות מול ims.gov.il

האינסטינקט הראשון של כל מהנדס הוא לשלוח בקשת GET עם requests ולנתח את ה-HTML עם BeautifulSoup. זה עובד על 90% מהאתרים הפשוטים. אבל כאן, הגישה הזו תוביל אתכם למבוי סתום. הבעיה היא לאו דווקא JavaScript מורכב, אלא האופן שבו השרת מנהל סשנים ומגיש את הנתונים. לעיתים קרובות, נתונים קריטיים כמו טמפרטורה או תחזית גשם לא נטענים ב-HTML הראשוני. הם מגיעים דרך קריאות XHR/Fetch אסינכרוניות שמתבצעות לאחר טעינת הדף, ודורשות cookies או headers ספציפיים שנוצרו על ידי סקריפט בצד הלקוח.

ניסיון לחקות את הקריאות האלה ידנית הוא משחק של חתול ועכבר. אולי תצליחו לבודד את ה-endpoint הנכון, אבל אז תגלו שהוא דורש טוקן שפג תוקף אחרי 15 דקות, או שהוא מוגן על ידי בדיקת user-agent בסיסית שתפיל כל סקריפט שלא מחקה דפדפן אמיתי. ראיתי את זה קורה: ה-scraper עובד נהדר על המחשב המקומי, אבל ברגע שהוא רץ על שרת בענן עם IP של דאטה סנטר, הוא מתחיל לקבל תגובות ריקות או דפי שגיאה. זהו ה-failure scenario הקלאסי באתרים ממשלתיים: לא חסימה אקטיבית, אלא שרשרת תלות שקטה בין רכיבים בצד הלקוח.

בניית Scraper יציב עם Playwright: הגישה הנכונה

תפסיקו לבזבז זמן על הנדסה הפוכה של קריאות רשת. ב-2025, אם אתם לא מתמודדים עם מיליוני דפים ביום, headless browser הוא הפתרון היעיל ביותר. Playwright מנצח כאן. הוא מאפשר לנו לדמות התנהגות משתמש אמיתית, מה שמבטיח שכל הסקריפטים בצד הלקוח ירוצו והנתונים יוצגו בדיוק כפי שהם מוצגים למשתמש. עבור איסוף קטלוג שלם של תחזיות, למשל איסוף נתונים מ-50 ערים מרכזיות, זה הכרחי.

התהליך פשוט: מנווטים לעמוד התחזית, ממתינים לסלקטור ספציפי שמכיל את נתוני הטמפרטורה (למשל, div.forecast-table), ורק אז מחלצים את ה-HTML. זה פותר 95% מהבעיות. יתרון נוסף הוא היכולת לטפל באינטראקציות. אם צריך ללחוץ על כפתור כדי לעבור לתחזית של 10 ימים, Playwright עושה את זה בשורת קוד אחת. זה חוסך שעות של דיבאגינג מול ה-DevTools. כמובן, זה בא עם עלות מסוימת בביצועים – כל דף דורש 2-3 שניות טעינה מלאה, לעומת עשרות מילישניות בבקשת requests. אבל העלות הזו מתגמדת מול היציבות ושיעור ההצלחה שמתקרב ל-99%. למי שרוצה לקחת את זה צעד קדימה, כדאי לחקור את היכולות המתקדמות יותר במדריך כמו מדריך Playwright stealth כדי להיראות אפילו יותר אנושיים.

מעקב אחר שינויים וזמינות נתונים בזמן אמת

אחד ה-use cases המרכזיים ל-scraping של השירות המטאורולוגי הוא לא איסוף חד-פעמי, אלא ניטור רציף. למשל, פרויקט שדורש מעקב אחר שינויים בתחזית הגשם או מעקב מלאי/זמינות של נתוני מכ"ם עדכניים. כאן, היעילות הופכת לגורם קריטי. להריץ 200 מופעים של Playwright כל 5 דקות זה בזבוז משאבים. הפתרון הוא גישה היברידית.

משתמשים ב-Playwright פעם אחת כדי לבצע לוגין (אם נדרש) ולאסוף את ה-cookies וה-headers הדרושים לסשן. לאחר מכן, שומרים אותם ומשתמשים בספריית requests עם ה-session object כדי לבצע קריאות ישירות ל-API הפנימי שהדפדפן חשף. כך מקבלים את הטוב משני העולמות: היכולת לעבור את האימות הראשוני והמורכב, יחד עם המהירות של קריאות HTTP ישירות. גישה זו מאפשרת לנו לבדוק זמינות של דוחות חדשים בקצב של עשרות בקשות בשנייה, תוך שאנחנו מוודאים שכל ה-מפרטים הטכניים (כמו לחות, מהירות רוח) נאספים בצורה מדויקת. חשוב רק לזכור לרענן את הסשן כל כמה שעות כדי למנוע חסימה.

ניהול Proxies ו-Rate Limiting: איך לא להיחסם

אתר השירות המטאורולוגי אולי לא מפעיל מערכות אנטי-בוט מהשורה הראשונה, אבל הוא בהחלט מנטר נפחי תעבורה. שליחת 5,000 בקשות מ-IP בודד תוך דקה היא דרך בטוחה לקבל שגיאות 429 (Too Many Requests) או אפילו חסימת IP זמנית. זה קריטי במיוחד כשמנסים לייצר API / קובץ נתונים השירות המטאורולוגי פרטי על בסיס הנתונים שלהם.

הפתרון הוא proxy rotation. אבל לא כל פרוקסי מתאים. פרוקסים של דאטה סנטר הם זולים ומהירים, אבל קל לזהות ולחסום אותם. לרוב, הם יספיקו לאתר הזה, כל עוד אתם מפעילים pool של לפחות 50-100 כתובות IP ומחליפים אותן בתדירות גבוהה. הגדירו rate limit בצד הלקוח שלכם: לא יותר מ-30-40 בקשות לדקה פר IP. זה נשמע איטי, אבל עם 100 כתובות IP במקביל, אתם מגיעים לקצב של מעל 3,000 בקשות בדקה, שזה די והותר לרוב היישומים. אם אתם עדיין נתקלים בחסימות, ייתכן שתצטרכו לשקול שימוש בפתרון מתקדם יותר. הבנת ה-trade-offs בין סוגי הפרוקסי השונים היא מיומנות ליבה, וכדאי לקרוא על איך לבחור פרוקסי residential כדי להבין מתי קפיצת המדרגה הזו נדרשת.

מתי Scraping הוא לא הפתרון הנכון (כן, יש מקרים כאלה)

למרות כל מה שאמרתי, יש מצבים שבהם scraping הוא פשוט לא הדרך. זהו ה-counter argument. אם כל מה שאתם צריכים זו תחזית יומית פשוטה לעיר אחת, בניית ותחזוקת scraper היא over-engineering. ישנם שירותי API מסחריים (וגם חינמיים) למזג אוויר שיספקו לכם את המידע הזה בצורה אמינה יותר ובמאמץ פיתוח אפסי. המורכבות של תחזוקת scraper – טיפול בשינויי HTML, ניהול פרוקסים, לוגיקת retries – לא תמיד מצדיקה את התוצאה.

בנוסף, חשוב לבדוק אם קיים ערוץ נתונים רשמי. אתרים ממשלתיים רבים, כולל השירות המטאורולוגי, מציעים לעיתים גישה לקבצי נתונים גולמיים או ערוצי FTP לחוקרים או לגופים ציבוריים. לפני שאתם כותבים שורת קוד אחת, חפשו עמודים כמו "מידע לציבור", "נתונים פתוחים" או "API". גישה כזו, אם קיימת, תהיה תמיד יציבה, מהירה וחוקית יותר מכל scraper שתבנו. Scraping הוא כלי רב עוצמה, אבל הוא פטיש. לא כל בעיה היא מסמר.

נקודות מרכזיות

עבור scraping של השירות המטאורולוגי, השתמשו ב-Playwright כדי לעקוף בעיות סשן וטעינה אסינכרונית.
אל תשלחו אלפי בקשות מ-IP בודד; השתמשו ב-proxy rotation עם rate limiting בצד הלקוח.
לניטור רציף, השתמשו בגישה היברידית: Playwright לאימות ראשוני ו-requests עם cookies לקריאות מהירות.
לפני בניית scraper מורכב, בדקו אם האתר מציע API רשמי או גישה לקבצי נתונים פתוחים.

שאלות נפוצות

כיצד ניתן להפוך את נתוני התחזית הגולמיים מאתר ims.gov.il ל-API מובנה?▾

הדרך היעילה ביותר להפוך את נתוני התחזית הגולמיים מ-ims.gov.il ל-API היא באמצעות scraper ייעודי שרץ כל 15 דקות. ה-scraper, שנכתב ב-Python עם ספריית BeautifulSoup, צריך לנתח את טבלאות ה-HTML של התחזית ולחלץ את הנתונים הרלוונטיים כמו טמפרטורה, לחות ומהירות רוח. לאחר החילוץ, יש לשמור את הנתונים המובנים במסד נתונים כמו PostgreSQL. לבסוף, יש לחשוף את הנתונים האלו דרך endpoint של API פשוט באמצעות FastAPI, מה שמאפשר גישה נוחה ומהירה למידע המעודכן ביותר ללא צורך בגירוד חוזר בכל קריאה.

מהי הדרך היעילה ביותר לאסוף נתוני אקלים היסטוריים מ-ims.gov.il עבור מודל ML?▾

כדי לאסוף נתוני אקלים היסטוריים מ-ims.gov.il ביעילות, יש להשתמש בגישה היברידית המשלבת Playwright ו-Requests. תחילה, השתמשו ב-Playwright כדי לנווט בממשק בחירת התאריכים, המסתמך על JavaScript, ולחלץ את ה-cookies של הסשן. לאחר מכן, השתמשו בספריית Requests עם ה-cookies שאספתם כדי לשלוח בקשות ישירות ל-endpoint שמוריד את קבצי ה-CSV או ה-Excel. גישה זו מהירה ב-80% משימוש ב-Playwright בלבד ומפחיתה משמעותית את העומס על המשאבים, ומאפשרת איסוף של עשרות שנות מידע תוך שעות.

איך מבצעים ניטור רציף של נתוני גשם בזמן אמת מהשירות המטאורולוגי?▾

ניטור רציף של נתוני גשם מהשירות המטאורולוגי דורש scraper שרץ בתדירות גבוהה, למשל כל 5 דקות. הפתרון היעיל ביותר הוא לזהות את קריאת ה-API הפנימית (XHR) שהאתר מבצע כדי לרענן את מפת המכ"ם או את נתוני התחנות. באמצעות כלי הפיתוח של הדפדפן, ניתן לבודד את הבקשה הזו ולשכפל אותה בקוד Python עם ספריית Requests. גישה זו עוקפת את הצורך ברינדור מלא של הדף, חוסכת כ-95% מרוחב הפס ומספקת את הנתונים הגולמיים ב-latency מינימלי.

מהן 3 הטעויות הנפוצות שגורמות לחסימה בעת scraping של ims.gov.il?▾

הטעות הראשונה שגורמת לחסימה ב-ims.gov.il היא שליחת בקשות מהירות מדי מאותה כתובת IP, מה שמפעיל את מגבלת הקצב (rate limiting). הטעות השנייה היא אי-ניהול נכון של cookies ו-session tokens, במיוחד בחלקים באתר הדורשים אינטראקציה. הטעות השלישית היא שימוש ב-User-Agent גנרי של ספריות כמו Requests, במקום לחקות User-Agent של דפדפן אמיתי ומודרני. הימנעות משלוש הטעויות הללו תפחית את סיכויי החסימה ביותר מ-90% ותאפשר איסוף נתונים יציב ואמין לאורך זמן.

כיצד ניתן לחלץ נתונים מטבלאות מורכבות באתר השירות המטאורולוגי ולשמור אותם כקובץ CSV?▾

כדי לחלץ נתונים מטבלאות מורכבות באתר השירות המטאורולוגי, השתמשו בספריית Pandas ב-Python. לאחר קבלת ה-HTML של הדף באמצעות Requests או Playwright, העבירו אותו לפונקציה pandas.read_html. פונקציה זו מזהה אוטומטית את כל תגי ה-<table> ומחזירה רשימה של DataFrames. בחרו את ה-DataFrame הרלוונטי מהרשימה (לרוב הראשון, dfs[0]), נקו אותו לפי הצורך, ולבסוף שמרו אותו לקובץ CSV באמצעות הפקודה df.to_csv('data.csv', index=False, encoding='utf-8-sig'). שיטה זו חוסכת כתיבת לוגיקת פירסור ידנית מורכבת.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור