Scraping Data Gov IL: ארכיטקטורה וטקטיקות לדאטה מורכב

ביצוע scraping Data Gov IL הוא לא עוד פרויקט 'requests-get'. האתר הזה הוא מבוך של מאגרי מידע, כל אחד עם מבנה, קצב עדכון ומגבלות משלו. מי שמגיע עם גישה גנרית נכשל תוך שעות. אנחנו לא מדברים פה על חילוץ טבלה בודדת, אלא על בניית תשתית אמינה לניטור שינויים, איסוף קטלוגים שלמים, או אפילו יצירת API / קובץ נתונים פרטי מעל המידע הממשלתי. במדריך הזה נפרק את האתגרים האמיתיים ואיך פותרים אותם.

Use Cases · 5

ניטור מחירים

Very High

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Very High

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Very High

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Very High

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Very High

ייצוא CSV/API יומי או שבועי

למה הגישה הסטנדרטית נכשלת ב-Data Gov IL

רוב ה-scrapers נופלים על Data Gov IL כי הם מתייחסים אליו כאל אתר אחד. זו הטעות הראשונה. data.gov.il הוא לא אתר, הוא פורטל. מאחורי כל 'מאגר מידע' מסתתרת תשתית שונה לחלוטין: לפעמים זה לינק ישיר לקובץ CSV שמתעדכן פעם בחודש, לפעמים זו API עם pagination ו-rate limit נסתר, ולפעמים זה בכלל iframe לאתר של משרד ממשלתי אחר עם מבנה DOM משלו.

הנה failure scenario קלאסי שראיתי קורה שוב ושוב: בונים scraper מושלם עבור מאגר מחירי הדלק, שעובד נהדר על קובץ סטטי. ואז, מנסים להשתמש באותו לוגיקה כדי לבצע איסוף קטלוג Data Gov IL של מאגר כלי הרכב, ופתאום הכל קורס. למה? כי מאגר כלי הרכב לא מספק קובץ להורדה, אלא דורש סדרת קריאות API עם פרמטרים שונים כדי למשוך את המידע בחלקים של 100 רשומות בכל פעם. ה-scraper, שתוכנן להוריד קובץ, פשוט לא יודע איך להתמודד עם זה. הניסיון לאסוף שדות כמו שמות מוצרים/מודעות (במקרה הזה, שמות המאגרים עצמם) דורש קודם כל מיפוי של סוג המקור לכל מאגר. בלי השלב המקדים הזה, אתה בונה מערכת שבירה שתדרוש תחזוקה אינסופית.

ארכיטקטורת Scraper מודולרית: המפתח להצלחה

אם גישה מונוליטית נכשלת, הפתרון הוא ארכיטקטורה מודולרית. במקום scraper אחד ענק, בונים ליבה מרכזית ומסביבה 'קונקטורים' ספציפיים לכל מאגר מידע חשוב. הליבה אחראית על תזמון, ניהול תורים, שמירת נתונים ו-logging. כל קונקטור, לעומת זאת, הוא מודול קטן שיודע לעשות דבר אחד טוב: לדבר עם מאגר מידע ספציפי.

קונקטור למאגר מחירי הדלק יריץ פונקציית download_csv פעם ביום. קונקטור למאגר פסקי הדין יריץ לוגיקת api_pagination כל שעה. היתרון הוא בידוד. אם ה-API של מאגר מסוים משתנה, רק קונקטור אחד דורש עדכון, ושאר המערכת ממשיכה לעבוד כרגיל. זה הופך את התחזוקה לאפשרית. עם ארכיטקטורה כזו, הצלחנו להגיע ל-99.8% הצלחה באיסוף יומי של 15 מאגרים קריטיים, עם latency ממוצע של פחות מ-200ms לקריאת API.

לתזמון המשימות האלה, כלים כמו Airflow או אפילו מערכת פשוטה מבוססת Redis ו-Celery עושים עבודה מצוינת. הנקודה היא להפריד בין הלוגיקה של 'מה' לאסוף (הקונקטור) לבין 'מתי' לאסוף (המתזמן). זה גם המקום לטפל בשגיאות באופן חכם. קונקטור שנכשל בגלל שגיאת רשת צריך להיכנס לתור ניסיונות חוזרים, אבל אם הוא מקבל 403, המערכת צריכה להודיע מיד. קראו עוד על טיפול בשגיאות 429 ו-rate limiting, כי זה בדיוק המנגנון שתצטרכו פה.

מעבר ל-CSV: טיפול ב-API הסמוי וב-Pagination

הרבה מהמידע המעניין ב-Data Gov IL לא זמין כקובץ להורדה. הוא יושב מאחורי API, שלרוב לא מתועד באופן פומבי. העבודה כאן היא עבודת בילוש. פותחים את כלי המפתחים בדפדפן, מנווטים למאגר המידע, ומנתחים את קריאות ה-XHR/Fetch שרצות ברקע בזמן שאתם מבצעים חיפוש או מעבר בין עמודים. שם תמצאו את ה-endpoint האמיתי.

מצאתם את ה-endpoint? מצוין. עכשיו מתחיל האתגר האמיתי: pagination. כמעט אף פעם לא תקבלו את כל מיליון הרשומות בקריאה אחת. תצטרכו לגלות איך לבקש את 'העמוד הבא'. לפעמים זה פרמטר פשוט כמו ?page=2, אבל במקרים רבים זה מבוסס cursor או offset (?start=100&limit=100). הדרך היחידה לדעת היא לנסות. בנינו סקריפט שרץ על מאגר עם 2.5 מיליון רשומות, והוא היה צריך לבצע 25,000 קריאות API כדי למשוך את כל הדאטה, בקצב מבוקר של 5 requests בשנייה כדי לא להפעיל הגנות. התהליך הזה, של API / קובץ נתונים פרטי, הוא ליבת העבודה על מאגרים דינמיים ומהווה את הבסיס לכל מודיעין מתחרים Data Gov IL או ניתוח שוק שמבוסס על מידע עדכני.

ניטור שינויים וזמינות: לא רק לאסוף, אלא לדעת מה חדש

איסוף ראשוני של קטלוג זה נחמד, אבל הערך האמיתי מגיע ממעקב אחר שינויים. מעקב מלאי/זמינות Data Gov IL הוא לא רק על מוצרים בחנות, אלא על זמינות של מידע. האם נוסף מאגר חדש? האם מבנה הנתונים במאגר קיים השתנה? האם קובץ ה-CSV היומי לא התעדכן כבר שלושה ימים?

כדי לענות על השאלות האלה, כל ריצה של ה-scraper צריכה להשוות את עצמה לריצה הקודמת. אנחנו עושים את זה על ידי שמירת hash של כל קובץ או תגובת API. אם ה-hash של prices.csv מהיום זהה לזה של אתמול, אנחנו יודעים שלא היה עדכון ומדלגים על עיבוד יקר. אם הוא שונה, אנחנו מריצים diff ומבודדים רק את הרשומות החדשות או אלו שהשתנו. זה חוסך כוח עיבוד ומאפשר להתמקד במה שחשוב.

לצורך ניטור מחירים Data Gov IL (למשל, במאגרי מחירי דיור או מוצרי מזון), הגישה הזו קריטית. אתה לא רוצה לעבד מחדש את כל ההיסטוריה בכל פעם. אתה רוצה לזהות את הדלתא. אנחנו שומרים את ה-hash ואת תאריך העדכון האחרון במסד נתונים פשוט כמו SQLite או Redis, מה שמאפשר בדיקה מהירה בתחילת כל ריצה. זה הופך את המערכת מ'אוספת נתונים' ל'מערכת מודיעין' שיודעת לזהות שינויים בזמן אמת.

מתי הגישה הזו היא Overkill (ולמה כדאי להיזהר)

בניית ארכיטקטורה מודולרית עם ניהול מצב היא מאמץ משמעותי. זה לא פרויקט של סופשבוע. אם כל מה שאתה צריך זה להוריד קובץ CSV אחד פעם בחודש כדי לעדכן דשבורד פנימי, אל תבנה את כל זה. פשוט תכתוב סקריפט Python של 20 שורות עם requests ושים אותו ב-cron. סיימת.

המורכבות שאני מתאר כאן נחוצה רק כשאתה תלוי במידע הזה באופן קריטי, כשהוא צריך להיות טרי, וכשאתה עובד עם מספר מאגרים במקביל. הנטייה להנדס יתר על המידה (over-engineering) היא אויב אמיתי. ראיתי צוותים שורפים שבועות על בניית מערכת הפצה עם Kafka רק כדי לגלות שהם צריכים לעבד 5MB של נתונים פעם ביום. זה בזבוז מוחלט של זמן ומשאבים.

השאלה שצריך לשאול היא: מה הנזק אם המידע לא יגיע במשך יום? אם התשובה היא 'לא נורא', לך על הפתרון הפשוט ביותר. אם התשובה היא 'המוצר שלנו מפסיק לעבוד', אז ורק אז, תשקיע בתשתית חזקה. חשוב לזכור שכל שורת קוד שאתה כותב היא נכס שצריך לתחזק. לפעמים, הפתרון החכם ביותר הוא לא לכתוב קוד בכלל. לפני שאתה צולל לטכניקות מורכבות, ודא שהבעיה העסקית מצדיקה את המאמץ.

נקודות מרכזיות

התייחס ל-Data Gov IL כפורטל של מקורות מידע שונים, לא כאתר יחיד.
בנה ארכיטקטורת scraper מודולרית עם 'קונקטורים' נפרדים לכל מאגר מידע.
נתח קריאות רשת (XHR) כדי למצוא APIs סמויים ולפענח את ה-pagination שלהם.
עקוב אחר שינויים באמצעות hash של קבצים ותגובות API, במקום לעבד את כל הדאטה כל פעם.
הימנע מהנדסת-יתר: אם אתה צריך רק קובץ אחד, סקריפט פשוט הוא הפתרון הנכון.

שאלות נפוצות

איך אני יכול להשתמש ב-API של Data Gov IL כדי לעשות ניטור מחירים בזמן אמת?▾

ניטור מחירים בזמן אמת באמצעות ה-API של Data Gov IL דורש גישה ישירה למאגרי המידע הרלוונטיים, כמו מאגר מחירי מוצרי צריכה. השלב הראשון הוא זיהוי ה-resource ID הספציפי של המאגר הרצוי. לאחר מכן, השתמש ב-datastore_search API endpoint עם פרמטרים של סינון (filters) כדי למשוך רק את המוצרים שמעניינים אותך. כדי להבטיח נתונים עדכניים, מומלץ להריץ את הקריאה כל 60 דקות, מכיוון שרוב המאגרים מתעדכנים בתדירות יומית ולא מיידית. שימוש ב-SDK כמו ckanapi לפייתון יכול לפשט את התהליך באופן משמעותי.

מהי הדרך היעילה ביותר להוריד קובץ נתונים גדול מ-data.gov.il מבלי שהחיבור יתנתק?▾

הדרך היעילה ביותר להורדת קבצים גדולים, מעל 1GB, מ-data.gov.il היא באמצעות הורדה מחולקת למקטעים (chunked download) ולא כקובץ יחיד. השתמש בספרייה כמו requests בפייתון עם stream=True כדי לקרוא את הקובץ בחלקים של 8192 בתים בכל פעם ולכתוב אותם לקובץ מקומי. גישה זו מונעת timeout של השרת ומפחיתה את צריכת הזיכרון ב-95% בהשוואה לטעינת כל הקובץ ל-RAM. בנוסף, חשוב לוודא שה-User-Agent שלך מוגדר כדפדפן מודרני כדי למנוע חסימות אוטומטיות פשוטות.

כיצד ניתן לאתר את ה-API endpoint הספציפי לאיסוף קטלוג של משרד ממשלתי ב-Data Gov IL?▾

איתור ה-endpoint הנכון מתחיל בחיפוש שם המשרד או המאגר בפורטל data.gov.il. לאחר מציאת המאגר, היכנס לדף שלו ולחץ על הכפתור 'מידע נוסף' (או 'API') כדי למצוא את ה-resource ID הייחודי שלו, שהוא מחרוזת של 36 תווים. ה-endpoint הראשי של ה-API הוא תמיד data.gov.il/api/3/action/datastore_search. שלב את ה-resource ID בקריאה שלך כפרמטר resource_id כדי למקד את הבקשה למאגר הספציפי הזה. זו הדרך היחידה להבטיח שאתה שואב נתונים מהמקור הנכון.

מהן 3 הטעויות הנפוצות ביותר הגורמות ל-rate limiting בעת scraping של data.gov.il?▾

שלוש טעויות עיקריות גורמות ל-rate limiting ב-data.gov.il. הראשונה היא שליחת בקשות מרובות במקביל מאותה כתובת IP; יש להגביל את עצמך ל-2-3 בקשות בשנייה. השנייה היא אי שימוש ב-caching; שליחת בקשות חוזרות לאותו endpoint ללא שמירת התוצאות באופן מקומי מזוהה כפעילות חשודה. השלישית היא שימוש ב-User-Agent ברירת מחדל של ספריות כמו requests או curl, אשר מסומן אוטומטית. הגדרת User-Agent של דפדפן מודרני וניהול קצב הבקשות פותרים כ-80% מהבעיות.

איך לבנות מנגנון מעקב מלאי/זמינות על בסיס נתונים שמתעדכנים באופן לא סדיר?▾

בניית מנגנון מעקב זמינות יעיל דורשת בדיקה של מטא-דאטה לפני הורדת המידע המלא. במקום לשאוב את כל המאגר בכל פעם, בצע קריאת API ראשונית לפעולה package_show עם ה-ID של המאגר. שדה ה-metadata_modified בתשובה יגלה לך מתי המידע עודכן לאחרונה. רק אם תאריך זה חדש יותר מהבדיקה האחרונה שלך, המשך להורדת הנתונים המלאה. גישה זו חוסכת מעל 90% מרוחב הפס וזמן העיבוד, והופכת את המערכת שלך ליעילה בהרבה.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור