מדריך טכני: Scraping המשרד להגנת הסביבה

בואו נדבר על מטרה לא שגרתית: המשרד להגנת הסביבה. זה לא אתר איקומרס עם מבנה צפוי. זה פורטל ממשלתי, sviva.gov.il, חלק ממערכת gov.il הגדולה, והוא מכיל אוצר של נתונים ציבוריים חיוניים: דוחות זיהום אוויר, היתרי פליטה למפעלים, תוצאות דיגום מים ועוד. הבעיה? הנתונים האלה קבורים ב-PDF-ים, טבלאות HTML מסורבלות וממשקי חיפוש שלא תמיד עובדים. פרויקט scraping לאתר המשרד להגנת הסביבה הוא לא עניין של מה בכך. הוא דורש הבנה של ארכיטקטורה ממשלתית, התמודדות עם מבני נתונים לא עקביים, ובעיקר, גישה טכנית נכונה כדי להפוך את המידע הזה לזמין ושימושי.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה בכלל לחלץ מידע מאתר ממשלתי?

אם אתם רגילים לטרגט אתרי קמעונאות, המחשבה על אתר ממשלתי יכולה להיראות מוזרה. אבל כאן טמון הערך האמיתי של דאטה. ארגונים סביבתיים, חוקרים, עיתונאים ואפילו חברות ייעוץ זקוקים למידע הזה כדי לעשות את עבודתם. המטרה המרכזית היא כמעט תמיד יצירת API / קובץ נתונים שלא קיים רשמית. האתר מציע מידע, אבל לא גישה פרוגרמטית נוחה. אנחנו בונים את הגישה הזו בעצמנו.

אחד השימושים המיידיים הוא איסוף קטלוג מלא של כל דוחות הניטור הסביבתי. במקום לחפש ידנית כל פעם, בונים סקרייפר שרץ פעם ביום, מזהה פרסומים חדשים, ומקטלג אותם במסד נתונים עם שדות כמו שמות דוחות ותאריכי פרסום. דמיינו מאגר מידע אחוד של כל היתרי הפליטה שניתנו במפרץ חיפה בחמש השנים האחרונות, זמין לשאילתות. זה כוח שהאתר עצמו לא מספק בקלות.

מעבר לאיסוף הראשוני, יש את הצורך במעקב מלאי/זמינות של מידע חדש. לדוגמה, קבלת התראה אוטומטית ברגע שמתפרסם דוח דיגום מים חדש בנחל הירקון. המהירות פה קריטית עבור גופי תקשורת או ארגונים ירוקים שרוצים להגיב בזמן אמת. במובן מסוים, זהו סוג של מודיעין מתחרים, רק שה'מתחרה' הוא הבירוקרטיה והזמן שלוקח למידע להפוך לידיעה. בניית מערכת כזו הופכת גוף תגובתי לגוף יוזם.

הארכיטקטורה של gov.il והאתגרים הספציפיים שלה

חשוב להבין ש-sviva.gov.il הוא לא ישות עצמאית. הוא יושב על תשתית gov.il המאוחדת. זה אומר שיש לו שכבות הגנה ו-rate limiting משותפות לכל משרדי הממשלה. זה לא אומר שתפגשו את חומת ה-CAPTCHA המתוחכמת ביותר שראיתם, אבל זה כן אומר שתתקלו במגבלות קצב נוקשות ולא מתועדות. אל תופתעו אם אחרי 250 בקשות רצופות תוך 5 דקות, ה-IP שלכם יתחיל לקבל 403 Forbidden למשך שעה. זה מנגנון הגנה פשוט אבל יעיל נגד סקרייפרים נאיביים.

תרחיש כשל נפוץ שראיתי בפרויקטים כאלה לא קשור לחסימת IP. הסקרייפר רץ מצוין במשך שבועיים, אוסף נתונים ממערכת היתרי הפליטה, ופתאום, בוקר אחד, הוא מתחיל להחזיר דפים ריקים. אותה בקשה, אותם headers, אבל התוכן נעלם. אחרי שעות של דיבאגינג, מגלים שהמערכת הוסיפה פרמטר קטן לטופס החיפוש, או שינתה את ה-cookie הנדרש ליצירת session. אלו לא אתגרים של JavaScript מורכב, אלא של היגיון צד-שרת ישן שדורש תשומת לב לפרטים הקטנים. לכן, מערכת ניטור חזקה שמתריעה על ירידה של מעל 10% בכמות הרשומות שחולצו היא חובה, לא מותרות.

האתר מכיל אלפי דפים ומסמכים. ניסיון לסרוק את כל האתר בבת אחת מ-IP יחיד הוא מתכון לאסון. צריך לתכנן את הסריקה בקבוצות קטנות, עם השהיות מכובדות בין בקשות, ולחשוב במונחים של סריקה מתמשכת לאורך שעות, לא ספרינט של דקות.

למה Requests לא מספיק כאן: בחירת הכלים הנכונה

אם הגישה הראשונית שלכם היא requests ו-BeautifulSoup, אתם כנראה תתקעו מהר מאוד. חלקים גדולים מהאתר, במיוחד פורטלי נתונים אינטראקטיביים או מפות, טוענים את המידע שלהם באופן אסינכרוני באמצעות JavaScript לאחר טעינת הדף הראשוני. בקשת GET פשוטה תחזיר לכם HTML ריק מתוכן, מעין שלד של אפליקציה בלי הנתונים עצמם.

כאן נכנסים לתמונה כלים שמריצים דפדפן אמיתי. ותהיו חברים של עצמכם – תפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית, ממהירות ועד יציבות ה-API. עם Playwright, אתם יכולים לחכות לאלמנט ספציפי שיופיע, ליירט בקשות רשת ברקע (לפעמים אפשר לתפוס קריאת API פנימית ולחסוך את כל עיבוד ה-HTML), ולמלא טפסים מורכבים עם מספר שלבים. זה הכלי הנכון לעבודה מול אתר כמו המשרד להגנת הסביבה.

השילוב המנצח הוא Playwright עם תוספי stealth. למרות ש-sviva.gov.il לא משתמש ב-Cloudflare או Akamai, שימוש בספריית stealth עוזר להסוות את העובדה שהדפדפן נשלט אוטומטית. זה מקטין את הסיכוי להיתקל במנגנוני הגנה בסיסיים. אם אתם עדיין לא מכירים את הנושא, קראו את המדריך המלא ל-Playwright stealth – זה ישנה לכם את אחוזי ההצלחה.

ניהול פרוקסי ו-Sessions: איך לא להיחסם

גם עם הכלי הטוב ביותר, שליחת אלפי בקשות מ-IP יחיד תסתיים בחסימה. כאן נכנס לתמונה ניהול פרוקסי חכם. עבור אתר ממשלתי, לא תמיד צריך את התותחים הכבדים של רשת residential. לעיתים קרובות, מאגר איכותי של פרוקסי דאטה-סנטר יספיק, כל עוד אתם עושים רוטציה נכונה. הכלל הוא פשוט: אל תשתמשו באותו IP ליותר מדי בקשות רצופות. החליפו IP כל 50-100 בקשות, או אם אתם מתחילים לקבל שגיאות.

ניהול sessions חשוב לא פחות. חלק ממערכות האתר דורשות session cookie תקין כדי להציג תוצאות חיפוש. במקום להתחיל session חדש לכל בקשה, תכננו את הסקרייפר כך שישמור על session אחד למשך 'משימה' הגיונית (למשל, דיפדוף בתוצאות חיפוש). זה לא רק יעיל יותר, זה גם נראה פחות חשוד לשרת. סקרייפר שמבצע לוגיקה כזו מחקה התנהגות אנושית בצורה טובה יותר. אם אתם נתקלים בהרבה שגיאות, אולי הבעיה היא לא הפרוקסי אלא ניהול ה-session. תוכלו לקרוא עוד על איך לבחור את הפרוקסי הנכון למשימה במדריך שלנו.

ולבסוף, תהיו מוכנים לשגיאות. הן יקרו. קוד ה-scraping שלכם חייב לכלול לוגיקת retry חכמה. כשנתקלים בשגיאת 429 (Too Many Requests) או 503 (Service Unavailable), אל תנסו שוב מיד. המתינו עם exponential backoff, והחליפו IP לפני הניסיון הבא. טיפול נכון בשגיאות הוא מה שמבדיל בין סקרייפר שמקרטעים לסקרייפר שמביא 99.9% מהדאטה באופן עקבי.

מתי הגישה הזו לא הפתרון הנכון

למרות כל מה שאמרתי, scraping הוא לא תמיד התשובה. חשוב להיות כנים לגבי זה. אם כל מה שאתם צריכים זה קובץ נתונים חד-פעמי, למשל רשימת כל תחנות הניטור בארץ, ייתכן שפנייה רשמית למשרד דרך חוק חופש המידע תהיה מהירה ויעילה יותר מאשר לבנות ולתחזק סקרייפר. בניית מערכת אמינה דורשת זמן ומאמץ, וצריך להצדיק את ההשקעה הזו.

בנוסף, אם המשרד להגנת הסביבה מציע API רשמי ומתועד עבור הנתונים שאתם צריכים – השתמשו בו. זה תמיד עדיף. הבעיה היא שלרוב, ה-API-ים האלה, אם הם קיימים, מכסים רק חלק קטן מהמידע הזמין באתר, או שהם מוגבלים בקצב בצורה דרסטית. לכן, תמיד בדקו קודם אם קיימת דרך רשמית. Scraping הוא הפתרון כשאין ברירה אחרת.

נקודה נוספת היא עדכניות. אם הנתונים שאתם צריכים לא משתנים לעיתים קרובות (למשל, דוחות שנתיים), ריצה יומית של סקרייפר היא בזבוז משאבים ועומס מיותר על שרתי המשרד. במקרה כזה, ריצה חודשית או רבעונית היא גישה סבירה וחכמה יותר. המטרה היא לא להפציץ את האתר, אלא לחלץ את המידע הנדרש ביעילות ובאופן מידתי. תכנון תדירות הריצה הוא חלק קריטי בארכיטקטורת הפרויקט.

נקודות מרכזיות

עבור אתר המשרד להגנת הסביבה, השתמשו ב-Playwright עם stealth ולא ב-requests כדי להתמודד עם טעינת תוכן אסינכרונית.
האתגר המרכזי אינו CAPTCHA מורכב, אלא שינויים תכופים בטפסים וניהול sessions נכון.
תכננו את הסקרייפר לריצות איטיות וממושכות עם רוטציית IP כדי להימנע מ-rate limiting של תשתית gov.il.
לפני בניית סקרייפר, בדקו אם פנייה בחוק חופש המידע או שימוש ב-API קיים (אם יש) יכולים לפתור את הבעיה בפחות מאמץ.

שאלות נפוצות

איך אני יכול להפוך את נתוני זיהום האוויר מ-sviva.gov.il ל-API בזמן אמת?▾

כדי להפוך את נתוני זיהום האוויר של המשרד להגנת הסביבה ל-API, יש לבנות scraper שמריץ בדיקה כל 5 דקות ושומר את התוצאות במסד נתונים כמו PostgreSQL. ה-scraper, שנכתב ב-Playwright, צריך לטרגט את רכיבי ה-DOM הספציפיים המציגים את ערכי המזהמים. לאחר מכן, יש לחשוף את הנתונים דרך endpoint פשוט באמצעות FastAPI או Express.js. ארכיטקטורה זו מבטיחה שה-API שלכם יספק נתונים עם latency של פחות מ-300 מילישניות וישקף את המידע באתר כמעט בזמן אמת.

מהי הדרך היעילה ביותר לאסוף את כל קטלוג הדוחות הסביבתיים מהמשרד להגנת הסביבה?▾

הדרך היעילה ביותר לאיסוף קטלוג הדוחות מאתר המשרד להגנת הסביבה היא באמצעות סריקה מבוזרת עם תור משימות כמו RabbitMQ. התהליך מתחיל בסריקת עמוד האינדקס הראשי כדי לאסוף את כל הקישורים לדוחות. כל קישור נכנס לתור, ו-5-10 workers (תהליכי Playwright) שולפים משימות במקביל. גישה זו מפחיתה את זמן הסריקה הכולל בלמעלה מ-80% בהשוואה לסריקה סדרתית, ומאפשרת לאסוף אלפי דוחות בפחות משעה, תוך עקיפת מגבלות קצב פוטנציאליות.

כיצד אוכל לעקוב אחר שינויים במכרזים המתפרסמים באתר המשרד להגנת הסביבה באופן אוטומטי?▾

מעקב אוטומטי אחר מכרזים ב-sviva.gov.il דורש scraper שרץ כל שעה, משווה את תוכן עמוד המכרזים לגרסה קודמת, ושולח התראה על שינויים. הפתרון היעיל ביותר הוא לשמור hash (למשל, SHA-256) של תוכן ה-HTML של רשימת המכרזים. בכל ריצה, ה-scraper מחשב hash חדש ומשווה אותו ל-hash השמור. אם יש אי-התאמה, הוא מנתח את השינויים הספציפיים ושולח התראה ממוקדת דרך Slack או Telegram, מה שמבטיח תגובה מהירה תוך דקות ספורות.

מהן 3 הטעויות הנפוצות שגורמות לחסימה בעת ביצוע scraping לאתר sviva.gov.il?▾

הטעות הראשונה היא שימוש בספריית requests פשוטה, שאינה מריצה JavaScript ולכן נחסמת על ידי הגנות בצד הלקוח. הטעות השנייה היא שליחת בקשות מהירות מדי מאותה כתובת IP, מה שמפעיל מגבלות קצב אוטומטיות; יש לשמור על מרווח של 2-4 שניות בין בקשות. הטעות השלישית היא הזנחת ה-User-Agent header, מה שחושף את הסקריפט כבוט באופן מיידי. שימוש ב-Playwright עם User-Agent אקראי וניהול קצב נכון פותר כ-95% מבעיות החסימה הנפוצות.

איך ניתן לחלץ נתונים טבלאיים מורכבים מדוחות PDF באתר המשרד להגנת הסביבה?▾

כדי לחלץ נתונים טבלאיים מדוחות PDF באתר המשרד להגנת הסביבה, יש להשתמש בספריות ייעודיות כמו Tabula-py או Camelot ולא בניתוח טקסט רגיל. כלים אלו מזהים את מבנה הטבלה הוויזואלי וממירים אותו ישירות ל-DataFrame של Pandas בדיוק של מעל 90%. התהליך כולל הורדת קובץ ה-PDF באמצעות ה-scraper, העברתו לספריית החילוץ, וציון אזור העמוד המכיל את הטבלה. שיטה זו עדיפה משמעותית על פתרונות OCR שנוטים לייצר שגיאות רבות בנתונים מספריים.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור