Scraping בנק ישראל: מדריך טכני לנתונים פיננסיים

Q: מהי הדרך היעילה ביותר לניטור שינויים במחירי ריבית בנק ישראל מבלי לבצע scraping מלא כל שעה?

הדרך היעילה ביותר לניטור שינויי ריבית היא באמצעות בדיקת ה-`Last-Modified` header של עמוד הנתונים הרלוונטי באתר בנק ישראל. במקום להוריד את כל העמוד, שלח בקשת HEAD פשוטה כל 30 דקות. בקשת HEAD מחזירה רק את הכותרות (headers) ולא את גוף הדף, מה שחוסך כ-98% מתעבורת הרשת. אם ערך ה-`Last-Modified` השתנה מאז הבדיקה האחרונה, רק אז יש להפעיל את ה-scraper המלא כדי לחלץ את הנתונים המעודכנים. גישה זו מפחיתה עומס משמעותי.

Q: מהן 3 הטעויות הנפוצות ביותר הגורמות לחסימה בעת ביצוע scraping לאתר ממשלתי כבד-JavaScript כמו boi.org.il?

הטעות הראשונה היא שימוש בספריית HTTP פשוטה כמו `requests` במקום בכלי אוטומציה לדפדפן כמו Playwright, שנדרש לרנדור JavaScript. השנייה היא שליחת בקשות מהירות מדי מאותה כתובת IP, מה שמפעיל מערכות הגנה מבוססות קצב (rate limiting). הטעות השלישית היא התעלמות מ-User-Agent ו-headers אחרים, מה שחושף את הסקריפט כבוט באופן מיידי. שימוש ב-User-Agent של דפדפן עדכני והגבלת הקצב ל-1 בקשה כל 2.5 שניות פותר כ-80% מהחסימות.

אם ניסיתם פעם לעשות scraping בנק ישראל בשביל נתונים כלכליים, בטח גיליתם מהר מאוד שזה לא אתר e-commerce סטנדרטי. המידע שם – שערי חליפין, דוחות תקופתיים, נתונים מאקרו-כלכליים – הוא זהב טהור, אבל הדרך אליו רצופה בממשקי משתמש מיושנים וטעינות JavaScript אסינכרוניות. זה לא מקום ל-requests ו-BeautifulSoup. כאן צריך כלים כבדים יותר וגישה מתוחכמת. המטרה שלנו היא לא רק לחלץ טבלה. המטרה היא לבנות צינור נתונים אמין שיספק לנו API פרטי ועדכני על בסיס המידע שבנק ישראל מפרסם.

Use Cases · 5

ניטור מחירים

High

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

High

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

High

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

High

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

High

ייצוא CSV/API יומי או שבועי

למה Requests ו-BeautifulSoup פשוט לא יספיקו כאן

האינסטינקט הראשון של כל מפתח הוא לשלוח בקשת GET פשוטה ולנתח את ה-HTML. באתרים כמו של בנק ישראל, הגישה הזו נידונה לכישלון מהרגע הראשון. למה? כי רוב הנתונים המעניינים לא נמצאים ב-HTML הסטטי שהשרת מחזיר. הם נטענים דינמית באמצעות JavaScript לאחר שהדף הראשוני כבר נטען בדפדפן. כשאתה מסתכל על קוד המקור, אתה רואה <div> ריקים, placeholders, או אנימציות טעינה. הנתונים עצמם, למשל טבלאות שערי חליפין היסטוריים, מגיעים דרך קריאות XHR או Fetch שמתבצעות ברקע.

כאן בדיוק קורה ה-failure scenario הקלאסי: אתה כותב סלקטור CSS מושלם שמזהה את הטבלה ב-Chrome DevTools, אבל הסקריפט שלך מחזיר None. אתה מבלה שעות בדיבאגינג, בודק את ה-User-Agent, מוסיף headers, ובסוף מבין שהאלמנט שאתה מחפש פשוט לא היה קיים ב-HTML שהסקריפט שלך קיבל. בזבזת חצי יום על בעיה ארכיטקטונית, לא על באג בקוד.

לכן, כשניגשים למשימת איסוף קטלוג בנק ישראל, חייבים לחשוב כמו דפדפן. אנחנו צריכים כלי שיכול להריץ את ה-JavaScript, לחכות שהקריאות האסינכרוניות יסתיימו, ורק אז לתת לנו גישה ל-DOM המלא והמעודכן. כלים כמו Playwright או Puppeteer הם לא אופציה, הם דרישת בסיס. הם מאפשרים לנו לא רק לראות את התוכן הסופי, אלא גם ליירט את אותן קריאות רשת ברקע, מה שפותח לנו דלת לטכניקות מתקדמות יותר.

בניית Scraper יציב לניטור שערי חליפין יומיים

אחד ה-use cases הנפוצים ביותר הוא ניטור מחירים בנק ישראל, או ליתר דיוק, ניטור שערי החליפין היומיים. זה נשמע פשוט, אבל השטן נמצא בפרטים הקטנים. המטרה היא לבנות תהליך אוטומטי, אמין, שירוץ כל יום וימשוך את הנתונים העדכניים בלי התערבות ידנית.

התהליך עם Playwright נראה כך: מפעילים דפדפן headless, מנווטים לעמוד הרלוונטי, ומחכים. אבל לא סתם מחכים עם sleep. זו טעות של מתחילים. אנחנו משתמשים ב-page.wait_for_selector() כדי לחכות לאלמנט ספציפי בטבלה, או ב-page.wait_for_load_state('networkidle') כדי להבטיח שכל קריאות הרשת הסתיימו. זה ההבדל בין סקריפט שעובד 95% מהזמן לסקריפט שעובד 99.9% מהזמן. ה-latency כאן יכול לקפוץ ל-5-7 שניות בזמן שה-JavaScript רץ, גם אם העמוד עצמו נטען תוך פחות משנייה.

אחרי שהנתונים מופיעים, החילוץ עצמו פשוט יחסית. אנחנו מושכים את שערי חליפין ואת שמות המטבעות, ושומרים אותם למבנה נתונים נקי. חשוב לזכור שאתרים ממשלתיים לפעמים משנים את מבנה ה-HTML בלי הודעה מוקדמת. לכן, חובה להוסיף validation לוגיקה שמוודאת שהנתונים שחולצו הגיוניים (למשל, שהשער של הדולר הוא מספר חיובי בטווח סביר) ולבנות מערכת התראות שתדווח על כל שבירה. סקריפט שקט שנכשל הוא פצצת זמן. כדי להימנע מחסימות בסיסיות, גם באתרים פחות אגרסיביים, כדאי להשתמש בטכניקות התגנבות בסיסיות, כפי שמפורט ב-מדריך Playwright stealth, זה הרגל טוב שחוסך בעיות בעתיד.

האתגר האמיתי: סקייל לאיסוף דוחות ופרסומים היסטוריים

לעבור מדף בודד לאיסוף קטלוג שלם של פרסומים היסטוריים זו קפיצת מדרגה במורכבות. אנחנו מדברים על אלפי מסמכים, דוחות וסדרות נתונים שפרוסים על פני עשרות עמודים, עם פילטרים של תאריכים וקטגוריות. להריץ Playwright על כל עמוד ועמוד בתהליך כזה זה בזבוז משאבים עצום. זה איטי, צורך המון זיכרון ומעמיס על הרשת. זה פשוט לא סקיילבילי.

הגישה הנכונה כאן היא היברידית. פותחים את ה-Chrome DevTools, נכנסים לטאב 'Network', ומבצעים כמה פעולות בממשק המשתמש – מחליפים עמוד, מסננים לפי תאריך. מהר מאוד נגלה את קריאת ה-API הפנימית שה-frontend משתמש בה כדי למשוך את הנתונים מה-backend. לרוב זו תהיה בקשת POST ל-endpoint עם payload בפורמט JSON שמגדיר את מספר העמוד, הפילטרים, וכו'.

ברגע שזיהינו את ה-endpoint ואת מבנה ה-payload, אנחנו יכולים לזרוק את Playwright (כמעט) ולעבור לעבוד ישירות מול ה-API עם ספרייה אסינכרונית כמו httpx. זה משנה את המשחק לחלוטין. במקום לדמות דפדפן שלם, אנחנו שולחים בקשות HTTP קלות משקל. קצב הבקשות יכול לעלות מ-10-15 דפים בדקה עם דפדפן, למאות בקשות בדקה ישירות ל-API. כך הופכים משימה של שעות למשימה של דקות. זהו המהלך המכריע בדרך ליצירת API / קובץ נתונים בנק ישראל פרטי משלנו. כמובן שצריך לנהל את קצב הבקשות כדי לא להעמיס על השרתים שלהם; התמודדות נכונה עם rate limiting היא קריטית, וחשוב להבין איך לטפל בשגיאות 429 בצורה אלגנטית.

מודיעין עסקי על בסיס נתונים ממשלתיים

הרבה אנשים חושבים ש-scraping נועד רק למחירים ומוצרים. אבל הנתונים שבנק ישראל מפרסם הם בסיס קריטי למודיעין מתחרים בנק ישראל, או ליתר דיוק, מודיעין שוק. חברות פיננסיות, קרנות גידור, ואנליסטים משתמשים בנתונים האלה כדי לבנות מודלים כלכליים, לזהות מגמות ולחזות שינויים בשוק. הבעיה היא שהנתונים הגולמיים באתר מגיעים לרוב בפורמטים לא נוחים – קבצי PDF, דפי HTML, או קבצי Excel עם מבנה משתנה.

הערך האמיתי נוצר כשהופכים את הכאוס הזה לדאטה-סט מובנה ורציף. למשל, מעקב אחר שמות פרסומים חדשים בקטגוריות ספציפיות יכול להוות אינדיקציה מוקדמת לשינויי רגולציה. חילוץ נתונים מטבלאות בתוך דוחות PDF (באמצעות כלים כמו Tabula או Camelot) והכנסתם לבסיס נתונים מאפשר ניתוח היסטורי שלא היה אפשרי קודם. זהו תהליך של מעקב מלאי/זמינות בנק ישראל על נכס מסוג אחר – מידע. בניית תהליך ETL (Extract, Transform, Load) שמנרמל את הנתונים האלה הוא המקום שבו הנדסת נתונים פוגשת web scraping. התוצר הסופי הוא לא רק טבלה, אלא תשתית לקבלת החלטות עסקיות שמבוססת על מידע ציבורי שקשה היה לגשת אליו קודם. זה דורש השקעת מאמץ ראשונית גדולה, אבל התשואה במונחי תובנות היא אדירה.

מתי הגישה הזו לא תעבוד (או שהיא Overkill)

למרות כל מה שאמרתי, חשוב להיות פרגמטיים. לא כל בעיה דורשת פתרון מורכב עם דפדפן מלא או הנדסה לאחור של API. יש מצבים שבהם הגישה הזו היא פשוט overkill, או גרוע מזה, לא מתאימה.

אם כל מה שאתה צריך זה נתון בודד שמתעדכן פעם בחודש, כמו ריבית בנק ישראל, אין טעם לבנות מערכת ניטור אוטומטית מורכבת. סקריפט פשוט שירוץ ידנית פעם בחודש יעשה את העבודה. המורכבות של התשתית צריכה להיות בפרופורציה לתדירות ולחשיבות של הנתונים.

בנוסף, ישנם חלקים באתר בנק ישראל, בעיקר עמודים ישנים או פרסומים סטטיים, שהם פשוט HTML ו-PDF. במקרים אלה, שימוש ב-Playwright רק יאט את התהליך ויסבך אותו. בקשת GET פשוטה עם requests והעברת ה-HTML ל-BeautifulSoup או lxml תהיה יעילה פי 100. המפתח הוא לדעת לזהות את הטכנולוגיה שעומדת מאחורי הדף הספציפי שאתה צריך, ולא להחיל פתרון אחד על כל הבעיות. לפני שאתה כותב שורת קוד אחת, תבלה 15 דקות ב-DevTools. זה יחסוך לך שעות של עבודה מיותרת.

לבסוף, אם האתר מוגן על ידי מערכות Anti-Bot מתקדמות כמו Cloudflare או Akamai (מה שלא נפוץ באתרים ממשלתיים, אבל אפשרי), הגישה שתיארתי לא תספיק. כאן נכנסים לעולם אחר של ניהול טביעות אצבע של דפדפנים, פתרון אתגרי CAPTCHA, ושימוש ב-proxy pools מתוחכמים. זה נושא למאמר שלם, אבל שווה להכיר את המורכבות של עקיפת Cloudflare כדי להבין מתי הבעיה גדולה יותר.

נקודות מרכזיות

אל תשתמשו ב-requests/BeautifulSoup לאתר בנק ישראל; התחילו ישר עם Playwright לטיפול ב-JavaScript.
לסקייל גבוה, עשו הנדסה לאחור לקריאות ה-API הפנימיות של האתר ודלגו על הדפדפן.
בנו Validation והתראות. סקריפט שנכשל בשקט גרוע יותר מסקריפט שקורס בקול.
התאימו את הכלי למשימה: לא כל דף באתר דורש דפדפן מלא; לפעמים בקשת GET פשוטה מספיקה.
הערך האמיתי הוא לא בחילוץ הנתונים, אלא בהפיכתם לדאטה-סט מובנה וזמין לאורך זמן.

שאלות נפוצות

כיצד ניתן להפוך את נתוני שערי החליפין היומיים מבנק ישראל ל-API פרטי בזמן אמת?▾

כדי להפוך את נתוני השערים היומיים מ-boi.org.il ל-API, יש לבנות scraper שממפה את בקשות הרשת הספציפיות שהדפדפן מבצע כדי לקבל את הנתונים. באמצעות כלי פיתוח בדפדפן (F12), זהה את ה-endpoint שמחזיר את נתוני ה-JSON או ה-XML של השערים. לאחר מכן, כתוב סקריפט ב-Python עם ספריית requests שמבצע קריאה לאותו endpoint כל 15 דקות. את התגובה יש לשמור במסד נתונים כמו PostgreSQL ולהגיש אותה דרך API פנימי באמצעות FastAPI, מה שמאפשר גישה מהירה ועדכנית לנתונים.

מהי הדרך היעילה ביותר לניטור שינויים במחירי ריבית בנק ישראל מבלי לבצע scraping מלא כל שעה?▾

הדרך היעילה ביותר לניטור שינויי ריבית היא באמצעות בדיקת ה-Last-Modified header של עמוד הנתונים הרלוונטי באתר בנק ישראל. במקום להוריד את כל העמוד, שלח בקשת HEAD פשוטה כל 30 דקות. בקשת HEAD מחזירה רק את הכותרות (headers) ולא את גוף הדף, מה שחוסך כ-98% מתעבורת הרשת. אם ערך ה-Last-Modified השתנה מאז הבדיקה האחרונה, רק אז יש להפעיל את ה-scraper המלא כדי לחלץ את הנתונים המעודכנים. גישה זו מפחיתה עומס משמעותי.

איך ניתן לחלץ קבצי נתונים היסטוריים (כמו Excel או CSV) מאתר בנק ישראל באופן אוטומטי?▾

כדי לחלץ קבצי נתונים היסטוריים מאתר boi.org.il, השתמש בספריית Python כמו BeautifulSoup בשילוב עם requests. ראשית, יש למפות את מבנה ה-URL שמוביל לקבצים אלו; לעיתים קרובות הוא כולל פרמטרים של תאריך או שנה. לאחר זיהוי התבנית, ניתן ליצור לולאה שמשנה את הפרמטרים ב-URL כדי להוריד באופן שיטתי את כל הקבצים הנדרשים. מומלץ להוסיף השהייה של 2-3 שניות בין כל הורדה כדי למנוע חסימה עקב עומס יתר על השרת.

מהן 3 הטעויות הנפוצות ביותר הגורמות לחסימה בעת ביצוע scraping לאתר ממשלתי כבד-JavaScript כמו boi.org.il?▾

הטעות הראשונה היא שימוש בספריית HTTP פשוטה כמו requests במקום בכלי אוטומציה לדפדפן כמו Playwright, שנדרש לרנדור JavaScript. השנייה היא שליחת בקשות מהירות מדי מאותה כתובת IP, מה שמפעיל מערכות הגנה מבוססות קצב (rate limiting). הטעות השלישית היא התעלמות מ-User-Agent ו-headers אחרים, מה שחושף את הסקריפט כבוט באופן מיידי. שימוש ב-User-Agent של דפדפן עדכני והגבלת הקצב ל-1 בקשה כל 2.5 שניות פותר כ-80% מהחסימות.

איך אוכל לאסוף את כל ההודעות לעיתונות של בנק ישראל מהשנתיים האחרונות למטרות ניתוח סנטימנט?▾

איסוף הודעות לעיתונות דורש גישה דו-שלבית. ראשית, השתמש ב-Scrapy כדי לסרוק את דפי הארכיון ולחלץ את כל הקישורים להודעות מהשנתיים האחרונות. Scrapy מצטיין במעבר בין דפי קטגוריה ואיסוף קישורים. בשלב השני, עבור כל קישור שנאסף, השתמש בספריית Newspaper3k או Trafilatura כדי לחלץ את הטקסט הנקי של ההודעה עצמה, תוך סינון אלמנטים לא רלוונטיים כמו תפריטים ופרסומות. התהליך מאפשר ליצור קורפוס טקסט נקי, מוכן לניתוח סנטימנט עם מודלי NLP.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור