Scraping Funder: מדריך טכני לאיסוף נתונים פיננסיים

אם ניסיתם פעם scraping Funder עם `requests` ו-`BeautifulSoup` וקיבלתם divs ריקים, אתם לא לבד. האתר נראה פשוט על פני השטח, אבל הנתונים הקריטיים – תשואות, מנהלים, דמי ניהול – נטענים אסינכרונית אחרי שהדף הראשוני עולה. זהו אתגר קלאסי באתרי פיננסים, והוא דורש גישה שונה לחלוטין. במדריך הזה נפרק את הארכיטקטורה של Funder ונגלה איך בונים scraper יציב שמביא את הדאטה שאתם באמת צריכים, בלי ליפול במלכודות הנפוצות.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

המלכודת הראשונה: למה `requests` לא יספיק ל-Funder

הטעות הראשונה שמהנדסים עושים עם אתרים כמו Funder היא להניח שה-HTML שמגיע בבקשת GET הראשונה מכיל את כל המידע. זה פשוט לא נכון. כשאתה מבצע בקשה לכתובת של קרן נאמנות ספציפית, אתה מקבל שלד HTML. הנתונים החשובים באמת, כמו טבלאות התשואות וגרפים היסטוריים, נטענים דינמית באמצעות JavaScript שמריץ קריאות XHR ברקע. אם תריץ את ה-scraper שלך על ה-HTML הסטטי, תקבל placeholder-ים במקרה הטוב, או כלום במקרה הרע.

זהו failure mode קלאסי. אתה בונה את הלוגיקה, מריץ בדיקה מקומית, והכל נראה תקין כי אתה רואה את שם הקרן ואת הקטגוריה. אבל כשאתה מנסה לחלץ את הנתונים העסקיים הקריטיים כמו מחירים (או במקרה הזה, תשואות יומיות), אתה מגלה שהסלקטורים שלך לא מוצאים כלום. התוצאה היא קובץ CSV ריק ושעות של דיבאגינג מבוזבז. הבעיה היא לא בקוד שלך, אלא בגישה. אתרים מודרניים, במיוחד בתחום הפיננסים, מפרידים בין המעטפת לתוכן. כדי לבצע איסוף קטלוג Funder בצורה מלאה, שכוללת את כל נתוני הביצועים, חובה לעבור למודל שמדמה דפדפן אמיתי. תפסיקו לבזבז זמן על ניסיונות הנדסה לאחור של קריאות ה-API הפנימיות שלהם; הן משתנות בלי הודעה מוקדמת. צריך כלי שיודע להריץ JS.

הגישה הנכונה: אוטומציית דפדפן חכמה עם Playwright

כאן Playwright נכנס לתמונה. תשכחו מ-Selenium לפרויקטים חדשים; ב-2025, Playwright מהיר יותר, יציב יותר, וה-API שלו פשוט נקי יותר. במקום לנתח את ה-HTML, אנחנו נותנים לדפדפן headless (כמו Chromium) לעשות את העבודה. התהליך משתנה: במקום GET -> parse, אנחנו עושים goto -> wait -> parse.

הפקודה page.goto(url) היא רק ההתחלה. הקסם קורה בפקודות ההמתנה. ב-Funder, אתה לא יכול פשוט לחכות שהדף ייטען (load state). אתה צריך לחכות לאינדיקטור ספציפי שהנתונים שאתה צריך אכן הגיעו והוצגו. זה יכול להיות סלקטור CSS של טבלת התשואות (page.waitForSelector('table.fund-performance')), או אפילו המתנה לתגובה מקריאת רשת ספציפית (page.waitForResponse('**/api/fund-data/**')). גישה זו מגדילה את אמינות ה-scraper פי עשרה. במקום להוסיף sleep(5) ולקוות לטוב, אתה בונה לוגיקה דטרמיניסטית. כן, זה אומר שה-latency פר דף עולה מ-~300ms עם requests ל-2-3 שניות עם Playwright. אבל ההבדל הוא בין 0% הצלחה ל-99% הצלחה בחילוץ הנתונים. זהו Trade-off שכל מהנדס רציני חייב לקבל. אם אתם חדשים בתחום, כדאי לקרוא את ה-מדריך Playwright stealth כדי להתחיל נכון.

סקייל: איך רצים על אלפי קרנות בלי להיחסם

אחרי שבנית scraper שעובד לדף בודד, האתגר הבא הוא להריץ אותו על כל 1,300+ הקרנות באתר, ועל בסיס יומי. כאן נכנסים לתמונה ניהול פרוקסי, טיפול בחסימות, וריצה מקבילית. הרצת 1,300 בקשות מכ-IP בודד בפרק זמן קצר היא דרך בטוחה לקבל חסימה. מערכות הגנה מודרניות מזהות בקלות דפוסים כאלה.

הפתרון הוא proxy rotation. אבל לא כל פרוקסי יעבוד. פרוקסי של דאטה סנטר עלול להיחסם במהירות. מה שראינו שעובד הכי טוב עם אתרים פיננסיים הוא שימוש ב-residential proxies. הם יקרים יותר מבחינת מאמץ ניהולי, אבל הסיכוי שלהם להיחסם נמוך משמעותית. המטרה היא לגרום לתעבורה שלך להיראות כמו תעבורה של משתמשים אמיתיים, הפרוסה על פני ספקי אינטרנט שונים. בנוסף, חשוב לנהל את קצב הבקשות. במקום להפציץ את השרת, תכננו ריצה עם 5-10 workers במקביל, עם השהייה קטנה ואקראית בין בקשות. זה מאזן בין מהירות איסוף הנתונים לבין הימנעות מהפעלת מנגנוני הגנה. כשאתם נתקלים בחסימה, לרוב תקבלו שגיאת HTTP 429 או CAPTCHA. חובה לממש לוגיקת retry עם exponential backoff. עוד על כך תוכלו למצוא במדריך שלנו על טיפול בשגיאות 429.

מודיעין מתחרים וניטור מחירים: ה-Use Cases המרכזיים

אז למה בכלל עושים scraping ל-Funder? יש כמה מקרי שימוש מרכזיים. הראשון והברור ביותר הוא ניטור מחירים Funder (או תשואות, בהקשר זה). גופים פיננסיים צריכים לעקוב אחרי ביצועי קרנות מתחרות על בסיס יומי כדי להבין את מיקומם בשוק. איסוף ידני של שינויי מחיר מ-1,300 קרנות הוא בלתי אפשרי. אוטומציה מאפשרת לקבל תמונת מצב יומית של השוק כולו.

מקרה שימוש נוסף הוא מודיעין מתחרים Funder. זה מעבר למספרים היבשים. מדובר על מעקב אחרי שינויים במוצרים – קרנות חדשות שמופיעות, קרנות שנסגרות, שינויים במדיניות ההשקעה או בדמי הניהול. כל שינוי כזה הוא סיגנל. מערכת scraping טובה יכולה לזהות את השינויים האלה באופן אוטומטי ולהתריע. לבסוף, יש את הדרישה לקבל את כל המידע הזה בפורמט נגיש, כמו API / קובץ נתונים Funder. במקום שכל אנליסט ייכנס לאתר בנפרד, ה-scraper מרכז את המידע ומספק אותו בפורמט CSV או דרך API פנימי. זה הופך את המידע לזמין ושימושי לכלל הארגון, ומאפשר לבנות דשבורדים וניתוחים מורכבים על גביו.

רגע, מתי הגישה הזו לא עובדת?

למרות ש-Playwright הוא כלי חזק, יש מצבים שבהם הוא over-engineering או פשוט לא הפתרון הנכון. אם כל מה שאתם צריכים זה רשימה של שמות הקרנות והקטגוריות שלהן – מידע שזמין ב-HTML הסטטי – שימוש בדפדפן מלא הוא בזבוז משאבים. במקרה כזה, requests מהיר ויעיל בהרבה. הכלל הוא: השתמשו בכלי הפשוט ביותר שעושה את העבודה.

תרחיש נוסף שבו גישת דפדפן מלא נכשלת הוא מול הגנות אנטי-בוטים אגרסיביות באמת, כמו אלו של Cloudflare או Akamai ברמות הגבוהות ביותר. במקרים אלה, גם שימוש ב-Playwright עם stealth plugins לא תמיד מספיק. המערכות האלה מנתחות מאות פרמטרים, החל ממאפייני ה-TLS handshake ועד לתנועות העכבר (המדומות). כאן, הפתרון הוא לעיתים קרובות לא טכנולוגי בלבד. הוא דורש שילוב של פרוקסי איכותיים במיוחד (למשל, mobile proxies), שירותי פתרון CAPTCHA, וסיבוב מתמיד של טביעות אצבע של הדפדפן. המאמץ הנדרש כדי לעקוף הגנות כאלה גדל באופן אקספוננציאלי. אם אתם נתקלים בקיר כזה, חשוב להעריך מחדש את ה-trade-off. לפעמים, הדרך החכמה היא לחפש מקור מידע חלופי, אם קיים. תוכלו לקרוא עוד על המדריך לעקיפת Cloudflare כדי להבין את עומק האתגר.

נקודות מרכזיות

עבור Funder, השתמשו ב-Playwright כדי לטפל בנתונים הנשלפים דינמית. בקשות HTTP פשוטות לא יעבדו.
השתמשו בהמתנה לאירועי רשת או סלקטורים ספציפיים (`waitForSelector`) במקום `sleep` כדי להבטיח יציבות.
בסקייל גבוה, חובה להשתמש ב-residential proxies עם rotation כדי להימנע מחסימות IP.
הגישה של דפדפן מלא היא לא תמיד התשובה; עבור מידע סטטי, הישארו עם כלים פשוטים ומהירים יותר.
האתגר המרכזי ב-scraping פיננסי הוא לא רק חסימות, אלא הבנת ארכיטקטורת טעינת הנתונים של האתר.

שאלות נפוצות

מהי נקודת ה-API הראשית לקבלת נתוני קרנות נאמנות עדכניים מאתר Funder?▾

לאתר Funder אין API ציבורי מתועד; הנתונים נטענים באופן דינמי דרך קריאות XHR פנימיות. כדי לאתר את המידע, יש להשתמש בכלי פיתוח של הדפדפן (F12) תחת לשונית 'Network' ולסנן לפי XHR. לרוב, תמצאו קריאות לכתובות כמו api/v2/funds שמחזירות JSON עם הנתונים הפיננסיים. ניתוח של 3-4 קריאות כאלה יחשוף את מבנה הבקשה הנדרש, כולל פרמטרים כמו מזהה הקרן, כדי לאפשר איסוף נתונים ממוקד ויעיל ללא צורך בעיבוד HTML מלא.

איך ניתן לבצע ניטור מחירים יומי של 50 קרנות ספציפיות ב-funder.co.il?▾

ניטור מחירים יומי יעיל ב-funder.co.il דורש שילוב של סקריפט ומתזמן עבודות (cron job). הפתרון האופטימלי הוא סקריפט Python המשתמש בספריית Playwright כדי לדמות אינטראקציה אנושית ולחלץ את הנתונים לאחר טעינת ה-JavaScript. יש להגדיר את הסקריפט כך שירוץ פעם ב-24 שעות, יבקר בדפי 50 הקרנות הרצויות, יחלץ את שער הקרן והתשואה היומית, וישמור את המידע במסד נתונים כמו PostgreSQL או בקובץ CSV לצורך ניתוח מגמות היסטורי.

מהו הפורמט הטוב ביותר לייצוא קטלוג מלא של קרנות נאמנות מ-Funder?▾

הפורמט המומלץ לייצוא קטלוג קרנות מלא מ-Funder הוא קובץ JSON Lines (JSONL). בניגוד לקובץ JSON יחיד וענק שעלול לקרוס בנפחים גדולים, פורמט JSONL מאפשר כתיבה שורה-אחר-שורה, כאשר כל שורה היא אובייקט JSON תקין המייצג קרן אחת. גישה זו עמידה יותר לתקלות באמצע תהליך ה-scraping וחוסכת זיכרון משמעותית. לכל אובייקט כדאי לכלול לפחות 5 שדות מפתח: שם הקרן, מספר נייר ערך, דמי ניהול, תשואה שנתית וקטגוריה.

כיצד אוכל לעקוב אחר זמינות קרנות חדשות באתר Funder באופן אוטומטי?▾

מעקב אוטומטי אחר קרנות חדשות ב-Funder מתבצע על ידי שמירת רשימה של כל מזהי הקרנות הקיימים והשוואתה מול סריקה עדכנית. יש להריץ סקריפט יומי שסורק את כל הקטגוריות באתר ומפיק רשימה של כל מזהי הקרנות (מספרי ני"ע) הנוכחיים. לאחר מכן, משווים רשימה זו לרשימה שנשמרה מהריצה הקודמת. כל מזהה שמופיע ברשימה החדשה אך לא בישנה מייצג קרן חדשה, ויש לשלוח על כך התראה אוטומטית, למשל באמצעות שליחת אימייל עם smtplib.

מהם 3 הפרמטרים החשובים ביותר לניתוח מודיעין מתחרים בנתוני Funder?▾

לצורך מודיעין מתחרים אפקטיבי מנתוני Funder, יש להתמקד ב-3 פרמטרים מרכזיים. הראשון הוא שינויים בדמי הניהול, המצביעים על אסטרטגיה תחרותית. השני הוא היקף הנכסים המנוהלים (AUM), שגידול בו מסמן אמון משקיעים. הפרמטר השלישי והחשוב ביותר הוא סטיית התקן של הקרן, המודדת את תנודתיות התשואות ביחס לממוצע בקטגוריה. ניתוח משולב של שלושתם מספק תמונה מלאה על ביצועי המתחרים, הרבה מעבר להשוואת תשואות בלבד.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור