גישת המהנדס הבכיר ל-Scraping FundInfo

אם ניגשתם לפרויקט scraping FundInfo עם requests ו-BeautifulSoup, אתם כנראה כבר יודעים שזה לא עובד. האתר הזה הוא לא מסמך HTML סטטי, אלא אפליקציה דינמית שמחייבת גישה שונה לחלוטין. אני כאן כדי לדבר על הארכיטקטורה האמיתית שצריך לבנות כדי לחלץ נתונים מ-FundInfo בצורה אמינה ועקבית, כזו שמחזיקה מעמד גם כשהאתר משתנה. נדבר על הכלים הנכונים, על נקודות הכשל הצפויות ועל איך הופכים את הכאוס הזה לדאטה נקי ומוכן לשימוש.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

האתגר האמיתי ב-FundInfo: זה לא ה-HTML

הטעות הראשונה של רוב המפתחים היא להתייחס ל-FundInfo כאל אתר רגיל. פותחים DevTools, רואים את מבנה ה-DOM ומתחילים לכתוב סלקטורים. הבעיה היא שה-HTML הראשוני שאתה מקבל הוא לרוב מעטפת ריקה (app shell). התוכן האמיתי – הנתונים על הקרנות, הגרפים, התשואות – נטען באופן אסינכרוני דרך קריאות XHR/Fetch. לנסות לגרד את ה-HTML הסטטי זה בזבוז זמן.

זו הסיבה שחייבים להשתמש בדפדפן headless. ותשכחו מ-Selenium לפרויקטים חדשים; Playwright מנצח אותו בכל מדד רלוונטי ב-2024, במיוחד ביכולות יירוט ושינוי בקשות רשת. המשימה הראשונה, איסוף קטלוג FundInfo, מדגימה זאת היטב. אין sitemap מסודר. כדי למפות את כל הקרנות, שמוערכות במעל 5,000 דפים נפרדים, צריך לדמות אינטראקציה אנושית: לחיצה על פילטרים, גלילה אינסופית וניווט בין קטגוריות. כל פעולה כזו מפעילה קריאות API ברקע. המטרה שלנו היא לא לגרד את ה-DOM שנוצר, אלא ליירט את התגובות של קריאות ה-API האלה. הן מכילות JSON נקי, שחוסך לנו 90% מעבודת ה-parsing בהמשך.

בניית Pipeline גמיש לניטור מחירים

אחד ה-use cases המרכזיים הוא ניטור מחירים FundInfo. זה לא פרויקט חד-פעמי, אלא תהליך שרץ ברקע באופן רציף ודורש אמינות גבוהה. כאן ארכיטקטורה נכונה היא קריטית. המערכת צריכה להיות מבוססת תורים (RabbitMQ או Redis Streams יעשו את העבודה) ועובדים (workers) אסינכרוניים.

האתר רגיש מאוד לקצב הבקשות. גילינו שכל דבר מעל 15-20 בקשות בדקה מ-IP בודד מתחיל להעלות דגלים אדומים ומסתיים ב-CAPTCHA או חסימה זמנית. זה פשוט לא סקיילבילי. הפתרון הוא כמובן proxy rotation. עם מאגר פרוקסים איכותי, אפשר לפזר את העומס ולהגיע לקצבים של מעל 1,000 בקשות בדקה תוך שמירה על שיעור הצלחה של 99.5%. חשוב לזכור שניהול פרוקסים הוא לא רק החלפת IP; הוא דורש לוגיקה לטיפול בכישלונות, ניסיונות חוזרים עם backoff אקספוננציאלי, ובידוד פרוקסים "שרופים". זה תחום שלם בפני עצמו, ומידע נוסף ניתן למצוא במדריך שלנו על איך לבחור פרוקסי residential. המטרה היא לאסוף מחירים ושינויי מחיר בדיוק ובתדירות הנדרשת, בלי להפעיל את מערכות ההגנה של האתר.

נקודת הכשל שכולם נופלים בה: דעיכת Session

הנה תרחיש שראיתי קורה עשרות פעמים: ה-scraper עובד מושלם במשך 20-30 דקות, ואז פתאום מתחיל להחזיר נתונים ריקים או שגויים. אבל כשמסתכלים בלוגים, כל הבקשות מחזירות סטטוס 200 OK. מה קרה? התשובה כמעט תמיד היא session state. אתרים פיננסיים כמו FundInfo משתמשים במנגנוני session מורכבים עם טוקנים שפגים או דורשים רענון תקופתי. ברגע שה-session שלך מת, האתר עשוי להחזיר לך דף גנרי או payload ריק במקום דף שגיאה ברור כמו 401 או 403.

לדבג את זה זה סיוט אם אתה לא יודע מה לחפש. הפתרון הוא ניהול session אקטיבי. ה-scraper חייב להיות מודע ל-state שלו. לפני כל בקשה קריטית, הוא צריך לוודא שה-session עדיין תקף (למשל, על ידי בדיקת אלמנט ספציפי בדף או תגובה צפויה מ-endpoint פנימי). אם ה-session נפל, הוא צריך להפעיל תהליך התחברות מחדש או רענון טוקנים באופן אוטומטי. זה חשוב במיוחד למשימות כמו מעקב מלאי/זמינות FundInfo, שלעיתים דורשות state עקבי לאורך זמן. התמודדות עם לוגיקה כזו היא אתגר, ואפשר לקרוא עוד על טכניקות ל-scraping מאחורי לוגין כדי להבין את המורכבות.

מנתונים גולמיים למודיעין תחרותי

העבודה לא נגמרת כשיש לך את ה-HTML או ה-JSON. למעשה, זה רק ההתחלה. בשביל מודיעין מתחרים FundInfo או יצירת API / קובץ נתונים FundInfo יומי, הדאטה הגולמי הוא כמעט חסר ערך. סקрейפ יומי מלא של האתר יכול לייצר בקלות 500MB של HTML גולמי, אבל אחרי ניקוי, נורמליזציה ושמירה בפורמט יעיל כמו Parquet, אנחנו נשארים עם קובץ מובנה של 15-20MB.

השלב הזה כולל כמה משימות קריטיות: זיהוי ושימור מפתח ראשי יציב לכל קרן (כמו מספר נייר ערך), המרת שדות טקסטואליים (כמו תאריכים ומטבעות) לפורמט סטנדרטי, וטיפול בערכים חסרים. חשוב מאוד לבנות בדיקות תקינות אוטומטיות (data validation) שרצות אחרי כל סקрейפ. לדוגמה, בדיקה שסך כל הקרנות שנסרקו קרוב למספר הצפוי, או ששדות מספריים מכילים רק מספרים. בלי שכבת האיכות הזו, תמצא את עצמך עם דאטה-בייס מזוהם שאי אפשר לסמוך עליו. בסופו של דבר, המטרה היא לא רק לאסוף נתונים, אלא להבטיח שהם מדויקים ומהימנים, נושא שכיסינו לעומק במאמר על הבטחת איכות נתונים ב-scraping.

מתי לא לבנות סקרייפר מפלצתי (ולמה זה בסדר)

אחרי כל הדיבורים על ארכיטקטורה מורכבת ו-pipelines, חשוב לשמור על פרספקטיבה. לא כל משימה דורשת בניית מערכת מורכבת. זו הגישה הנגדית. אם כל מה שאתה צריך זה את מחיר הסגירה של קרן ספציפית פעם בשבוע, בניית מערך שלם עם תורים, פרוקסים ודפדפנים היא ירייה בתותח על זבוב. במקרה כזה, סקריפט Playwright פשוט של 50 שורות קוד שירוץ מ-cron job יעשה את העבודה.

המורכבות שתיארתי נכנסת לתמונה כשהדרישות הן סקייל, תדירות גבוהה ואמינות לטווח ארוך. כשאתה צריך נתונים על אלפי דפים כל שעה, 24/7, עם אחוזי הצלחה של מעל 99% – אז אין ברירה אלא להשקיע בארכיטקטורה הנכונה. ה-trade-off הוא תמיד בין זמן פיתוח ראשוני לבין עלויות התחזוקה והשבירות בהמשך. סקריפט פשוט הוא מהיר להקמה אבל ידרוש טיפול ידני כמעט כל פעם שהאתר ישנה משהו קטן. המערכת המורכבת דורשת השקעה גדולה יותר בהתחלה, אבל תוכננה לספוג שינויים ולהתאושש מכישלונות באופן אוטומטי. תבחר את הכלי הנכון למשימה הנכונה.

נקודות מרכזיות

עבור FundInfo, השתמשו ב-Playwright כדי ליירט קריאות API, אל תנסו לפרסר את ה-HTML.
האתר רגיש לקצב בקשות; חובה להשתמש ב-proxy rotation איכותי לסריקות בקנה מידה גדול.
צפו לכשלים שקטים עקב דעיכת session. בנו מנגנון לזיהוי ורענון state.
דאטה גולמי הוא רק ההתחלה; השקיעו ב-pipeline של ניקוי, נורמליזציה ובדיקות תקינות.
התאימו את מורכבות הפתרון לדרישות; לא כל משימת scraping מצדיקה ארכיטקטורה מורכבת.

שאלות נפוצות

איך לבנות API פרטי מנתוני FundInfo המתעדכנים בזמן אמת ללא גישה רשמית?▾

בניית API פרטי מנתוני FundInfo דורשת ארכיטקטורת 3 שכבות: סקריפר, מסד נתונים, ו-API endpoint. השתמשו ב-Scrapy או Playwright כדי לאסוף את הנתונים הפיננסיים כל 5 דקות, ואחסנו אותם ב-PostgreSQL או Redis עבור גישה מהירה. שכבת ה-API, שנבנתה עם FastAPI או Express.js, תחשוף את הנתונים המאוחסנים. ארכיטקטורה זו מבטיחה שה-API שלכם יישאר זמין גם אם fundinfo.co.il נופל זמנית, ומספקת latency נמוך של פחות מ-50ms לקריאות נתונים.

מהי הדרך היעילה ביותר לניטור שינויי מחירים בקרנות ספציפיות באתר FundInfo?▾

הדרך היעילה ביותר לניטור מחירים ב-FundInfo היא באמצעות סקריפט ממוקד שבודק רק את נקודות הקצה (endpoints) של הנתונים, במקום לרנדר את כל הדף. פתחו את כלי המפתחים בדפדפן, עקבו אחר בקשות הרשת מסוג XHR/Fetch בעת ניווט לקרן, וזהו את ה-API הפנימי שמחזיר את נתוני המחיר בפורמט JSON. קריאה ישירה ל-API זה כל 60 שניות תפחית את צריכת המשאבים ב-95% בהשוואה לטעינת דף מלא עם כלי כמו Puppeteer.

כיצד ניתן לנהל סשנים (sessions) בצורה נכונה בעת איסוף קטלוג מלא מ-FundInfo?▾

ניהול סשנים נכון ב-FundInfo מחייב שמירה ושימוש חוזר ב-cookies ו-headers ספציפיים בין בקשות. השתמשו בספריית requests.Session בפייתון או במקבילה בשפה שלכם כדי לשמר את ה-state באופן אוטומטי. חשוב במיוחד לשמור על ה-session_id ו-csrf-token שמתקבלים בלוגין או בביקור הראשון. החלפת User-Agent או IP באמצע סשן פעיל היא טעות נפוצה שגורמת לזיהוי מיידי כבוט וחסימת הגישה לקטלוג המלא.

מהן 3 הטכניקות המרכזיות להתמודדות עם מבנה HTML דינמי ומשתנה ב-FundInfo?▾

הטכניקה המרכזית היא שימוש בסלקטורים (selectors) יציבים שאינם תלויים במבנה ה-DOM המדויק, כמו data-testid או aria-label, במקום סלקטורי CSS או XPath שבירים. טכניקה שנייה היא לחלץ נתונים ישירות מאובייקטי JavaScript גלובליים (למשל, window.__PRELOADED_STATE__) המכילים את המידע בפורמט JSON נקי. שלישית, בנו מערכת התראות אוטומטית המופעלת כאשר אחוז השדות הריקים (null values) בחילוץ עולה על 5%, מה שמצביע על שבירת הסקריפר.

איך מבצעים גירוד נתונים לצורך מודיעין מתחרים מ-fundinfo.co.il תוך שמירה על איכות הנתונים?▾

כדי להבטיח איכות נתונים גבוהה במודיעין מתחרים מ-FundInfo, יש ליישם תהליך אימות נתונים (validation) אוטומטי לאחר כל הרצה. השתמשו בספריות כמו Pydantic או Zod כדי להגדיר סכמה קשיחה לכל רשומת נתונים (למשל, תשואה חייבת להיות מספר, שם קרן חייב להיות מחרוזת). כל רשומה שלא עומדת בסכמה נשלחת לתור נפרד לבדיקה ידנית. גישה זו מונעת 'הרעלת' מסד הנתונים שלכם במידע שגוי או חלקי, בעיה קריטית בניתוח פיננסי.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור