מדריך מתקדם: Scraping התקציב הפתוח ביעילות

אם אתם חושבים שפרויקט scraping התקציב הפתוח דומה ל-scraping של אתר e-commerce, אתם צפויים לכמה הפתעות. כאן, המלחמה היא לא נגד Cloudflare או CAPTCHAs מתוחכמות, אלא נגד מורכבות הנתונים עצמם. אנחנו לא מדברים על עשרות אלפי דפי מוצר, אלא על מבנה תקציבי היררכי עם אלפי צמתים, שכל שינוי קטן בו יכול לשבור לכם את הפייפליין לחודשים. זהו אתגר של ארכיטקטורת נתונים, לא של עקיפת חסימות. המטרה היא לא רק 'להשיג את הדאטה', אלא להשיג אותו נכון, באופן עקבי ועם יכולת לאתר תקלות שקטות.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה הכלים הרגילים שלכם יכשלו מול התקציב הפתוח

רובנו מגיעים לפרויקט חדש עם סט כלים מוכר. אבל להפעיל סקרייפר Playwright גנרי על אתר כמו 'התקציב הפתוח' זה כמו להביא טנק למרוץ פורמולה 1. כן, הוא יזוז, אבל הוא יפספס את כל המטרה. הבעיה כאן היא לא JavaScript rendering. האתר מציג נתונים דרך קריאות API ברורות למדי שמחזירות JSON. האתגר האמיתי הוא לא בגישה לדאטה, אלא בנפח ובמבנה שלו. אנחנו מדברים על היררכיות שיכולות להגיע לעומק של 7-10 רמות, עם אלפי סעיפים מקוננים. סקרייפר שרק מבצע 'איסוף קטלוג' על ידי מעבר רקורסיבי על ה-tree יכול בקלות להיכנס ללולאות או לפספס ענפים שלמים.

הגישה הנכונה דורשת חשיבה שונה. במקום להתמקד ב-headless browser, צריך להתמקד ב-client HTTP חכם כמו httpx עם תמיכה ב-async. המטרה היא לא לדמות משתמש, אלא לדבר ישירות עם ה-API שהאתר עצמו צורך. זה מאפשר לנו להגיע לקצב בקשות גבוה משמעותית ולשלוט בתהליך בצורה גרעינית. מצאנו שהגבלה לקצב של 15-20 בקשות בדקה מ-IP בודד מונעת שגיאות 503 זמניות שמופיעות תחת עומס גבוה יותר. זהו משחק של סבלנות ודיוק, לא של כוח גס. כל המאמץ צריך להיות מושקע במיפוי ה-endpoints של ה-API ובניית לוגיקה שמבינה את הקשרים בין קטגוריות שונות, ולא בטיפול בשגיאות 429 קלאסיות.

ארכיטקטורת איסוף נתונים: ממודל בקשה-תגובה לפייפליין מבוסס אירועים

בפרויקט scraping התקציב הפתוח, המודל הפשוט של שליחת בקשה, קבלת HTML/JSON ועיבודו נשבר מהר מאוד. הסיבה היא תלות בין חלקי המידע. כדי להבין סעיף תקציבי אחד, ייתכן שתצטרכו מידע היררכי משלושה endpoints שונים. אם תנסו לעשות זאת באופן סדרתי, תהליך איסוף מלא ייקח ימים. המעבר למודל אסינכרוני הוא הכרחי, אבל לא מספיק.

הארכיטקטורה שעבדה לנו הכי טוב מבוססת על תורים (Queues). יש לנו סקרייפר 'מגלה' (Discovery Scraper) שתפקידו היחיד הוא לסרוק את רמות התקציב העליונות ולדחוף משימות (למשל, 'אחזר את כל תתי-הסעיפים של משרד החינוך') לתור RabbitMQ. בצד השני, יש לנו מספר 'עובדים' (Workers) ששולפים משימות מהתור, מבצעים את קריאות ה-API הספציפיות, ומעבדים את הנתונים. גישה זו מאפשרת סקיילביליות אופקית. אם האיסוף איטי מדי, פשוט מוסיפים עוד workers. זה גם הופך את המערכת לעמידה יותר בפני תקלות. אם worker אחד נופל, המשימה חוזרת לתור ותטופל על ידי worker אחר. כך אנחנו משיגים לא רק מהירות, אלא גם אמינות, שהיא קריטית כשמדובר על בניית API / קובץ נתונים פנימי שארגונים אחרים סומכים עליו.

המלכודת השקטה: כש-200 OK הופך לאויב הגדול ביותר

ה-failure mode הכי מסוכן ב-scraping של אתרי דאטה כמו 'התקציב הפתוח' הוא לא קבלת סטטוס 403 או 500. אלו שגיאות קלות לזיהוי. הסכנה האמיתית היא לקבל 200 OK עם דאטה שבור. זה קורה לעתים קרובות יותר ממה שחושבים. למשל, עדכון בצד השרת שמשנה שם של שדה ב-JSON מ-'amount' ל-'total_amount'. הסקרייפר שלכם ימשיך לרוץ. הוא יקבל תגובות 200, לא ידווח על שום שגיאה, אבל בשקט יתחיל למלא את הדאטהבייס שלכם בערכי null בעמודת הסכום. עד שתגלו את זה, יכולים לעבור שבועות, והנזק לנתונים ההיסטוריים שלכם יהיה עצום.

כדי להילחם בזה, חייבים להטמיע Data Validation כחלק אינטגרלי מהפייפליין. אנחנו משתמשים בספריות כמו Pydantic כדי להגדיר סכמה קשיחה לכל פיסת מידע שאנחנו מצפים לקבל. כל תגובת API עוברת ולידציה מול הסכמה הזו לפני שהיא נשמרת. אם שדה חסר, אם טיפוס הנתונים השתנה (למשל, מספר שהפך למחרוזת), התהליך נכשל באופן רועש ומיידי עם התרעה. זה דורש יותר מאמץ בהתחלה, אבל המאמץ הזה חוסך שבועות של דיבאגינג וכאבי ראש בהמשך. הצלחה של 99.9% באימות סכמה חשובה יותר מ-99.9% הצלחה בבקשות HTTP.

מעבר לדאטה גולמי: יצירת ערך עסקי וניתוחים השוואתיים

איסוף הנתונים הוא רק השלב הראשון. הערך האמיתי מגיע מהיכולת להשתמש בהם. אחד ה-use cases המרכזיים הוא מודיעין מתחרים, או בהקשר הזה, ניתוח השוואתי בין שנים או סעיפים. לדוגמה, חוקר או אנליסט ירצה לראות איך תקציב סעיף מסוים השתנה לאורך חמש שנים. כדי לאפשר זאת, הדאטה הגולמי, שהוא לרוב היררכי ולא נוח לעבודה, חייב לעבור נורמליזציה. אנחנו שומרים 'תמונות מצב' (snapshots) של התקציב המלא בכל פעם שאנחנו מזהים שינוי משמעותי, ומעבדים את ה-JSON המקונן למבנה טבלאי שטוח ב-Parquet או ישירות ב-data warehouse כמו BigQuery.

תהליך זה מאפשר לבצע שאילתות SQL מורכבות בקלות. למשל, SELECT year, sum(amount) FROM budget_items WHERE category_path LIKE '%education.primary%' GROUP BY year. שאילתה כזו בלתי אפשרית על קובצי JSON גולמיים. הפיכת הדאטה הגולמי למוצר נתונים שמיש היא המטרה הסופית. זה כולל גם בניית ייצוא CSV/API יומי או שבועי עבור משתמשים פנימיים, מה שהופך את המידע לנגיש הרבה יותר מאשר האתר המקורי. מה שמתחיל כפרויקט scraping התקציב הפתוח הופך לתשתית דאטה קריטית עבור הארגון.

מתי לא כדאי לבנות סקרייפר ייעודי (כן, יש מקרים כאלה)

למרות כל מה שאמרתי, יש מצבים שבהם בניית מערכת scraping מורכבת עבור 'התקציב הפתוח' היא פשוט בזבוז משאבים. אם כל מה שאתם צריכים זה נתונים נקודתיים פעם ברבעון, או תמונת מצב כללית של סעיף אחד, אל תבנו פייפליין מבוסס תורים עם ולידציית סכמות. זה over-engineering. במקרים כאלה, פתרון ידני או סקריפט פשוט ב-Python עם requests יעשה את העבודה בפחות זמן ומאמץ. המורכבות שאני מתאר במאמר הזה מוצדקת רק כאשר אתם צריכים נתונים באופן רציף, אמין, ובסקייל. למשל, עבור ניטור שינויים תקציביים בזמן אמת, או עבור מעקב אחר עדכוני נתונים ברמה יומית.

השאלה שצריך לשאול היא לא 'האם אנחנו יכולים לבנות את זה?', אלא 'מה העלות האלטרנטיבית של לא לבנות את זה?'. אם נתונים לא מדויקים או חסרים יגרמו להחלטות שגויות, אז ההשקעה בתשתית אמינה היא קריטית. אבל אם הפרויקט הוא חד-פעמי והדרישה היא לאסוף מידע עבור דוח ספציפי, עדיף להשקיע את הזמן בניתוח הנתונים עצמם ולא בהנדסת מערכת איסוף. יש הבדל עצום בין פרויקט מחקר חד-פעמי לבין בניית מוצר נתונים. חשוב להבין לאיזו קטגוריה אתם שייכים לפני שכותבים את שורת הקוד הראשונה. לפעמים, מדריך Playwright stealth הוא כל מה שצריך למשימה קטנה, גם אם הוא לא הפתרון ה'נכון' לטווח הארוך.

נקודות מרכזיות

באתר 'התקציב הפתוח', האתגר הוא מורכבות הנתונים וה-API, לא חסימות אנטי-בוט.
הימנעו משימוש ב-headless browsers; השתמשו ב-client HTTP אסינכרוני ישירות מול ה-API.
הטמיעו ולידציית סכמות קשיחה כדי למנוע תקלות 'שקטות' של דאטה שבור.
עבור איסוף בסקייל, בנו ארכיטקטורה מבוססת תורים (Queues) ולא מודל בקשה-תגובה פשוט.
אם הצורך הוא חד-פעמי, אל תבנו מערכת מורכבת; סקריפט פשוט יספיק.

שאלות נפוצות

איך אני יכול להשתמש ב-API של התקציב הפתוח כדי למשוך את כל סעיפי התקציב לשנת 2026?▾

כדי למשוך את כל סעיפי התקציב לשנת 2026 דרך ה-API של התקציב הפתוח, יש להשתמש ב-endpoint המתאים לחיפוש עם פרמטר השנה. הדרך היעילה ביותר היא לבצע קריאות API עם פגינציה (pagination), כאשר בכל קריאה מבקשים כ-100 רשומות. מומלץ להוסיף השהייה של 200 מילישניות בין קריאה לקריאה כדי להימנע מהגבלות קצב (rate limiting). ללא פגינציה, קריאה אחת עלולה להחזיר תשובה חלקית או להיכשל עקב עומס נתונים, מה שיוביל לשחיתות בסט הנתונים הסופי.

מהי הדרך היעילה ביותר לבצע scraping לקטלוג הנתונים המלא מ-openbudget.org.il בלי להעמיס על השרתים?▾

הדרך היעילה ביותר לביצוע scraping לאתר התקציב הפתוח היא על ידי שימוש ב-SDKs רשמיים כמו datapackage-pipelines אם קיימים, או על ידי הורדת קובצי הנתונים המלאים ישירות. אם חייבים לבצע scraping, יש להגביל את קצב הבקשות ללא יותר מ-5 בקשות לדקה ולהשתמש בכותרת User-Agent המזהה את הבוט שלכם. שימוש בסקריפט Python עם ספריית requests והשהייה מובנית באמצעות time.sleep(12) יבטיח איסוף נתונים אחראי וימנע עומס מיותר על תשתית האתר.

כיצד ניתן לאמת את שלמות הנתונים לאחר ביצוע scraping מאתר התקציב הפתוח?▾

אימות שלמות הנתונים לאחר scraping מהתקציב הפתוח דורש השוואה מול סכומי ביקורת ידועים. ראשית, יש לסכום את כל הוצאות המשרדים הראשיים שחילצתם ולהשוות את התוצאה לסך התקציב הכולל המפורסם באתר לשנה הרלוונטית. שנית, בצעו בדיקה מדגמית על 5-10 סעיפים תקציביים ספציפיים והשוו את הנתונים שלכם ידנית מול האתר. פער של מעל 0.1% בסכום הכולל מצביע כמעט תמיד על שגיאה בלוגיקת ה-scraping או על נתונים חסרים.

אילו מבני נתונים נפוצים באתר התקציב הפתוח ואיך כדאי לנתח אותם עם Python?▾

האתר מציג נתונים בעיקר במבנים היררכיים ומקוננים, לרוב בפורמט JSON או דרך טבלאות HTML מורכבות. כדי לנתח אותם ביעילות עם Python, השתמשו בספריית Pandas. טענו את ה-JSON ישירות ל-DataFrame באמצעות pd.json_normalize כדי לשטח את הקינון. עבור טבלאות HTML, השתמשו ב-pd.read_html כדי להמיר אותן אוטומטית ל-DataFrames. שיטה זו חוסכת כ-80% מהזמן הנדרש לעיבוד ידני של לולאות מקוננות ומבטיחה מבנה נתונים טבלאי ונוח לניתוח.

מהן 3 הטעויות הנפוצות ביותר שגורמות לשחיתות נתונים שקטה ב-scraping של התקציב הפתוח?▾

שלוש טעויות עיקריות גורמות לשחיתות נתונים שקטה. הראשונה היא טיפול שגוי בפגינציה (pagination), הגורם לאיבוד עמודים שלמים של נתונים. השנייה היא אי-התמודדות עם שינויים במבנה ה-HTML או ה-API בין שנים שונות, מה שמוביל לחילוץ נתונים שגויים או חלקיים. הטעות השלישית היא התעלמות מקידוד תווים (character encoding), המובילה להצגת טקסט כג'יבריש. יישום מנגנון אימות סכומים לאחר כל ריצה יזהה מעל 95% מהמקרים הללו.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור