Scraping Bizportal: מדריך טכני לנתוני שוק הון בזמן אמת

אם ניסיתם פעם לעשות scraping Bizportal עם בקשת GET פשוטה ו-BeautifulSoup, בטח גיליתם מהר מאוד שאתם מפספסים את כל האקשן. האתר הזה הוא לא קטלוג מוצרים סטטי. הוא אורגניזם חי של נתוני שוק הון שמתעדכנים כל שנייה, מונע על ידי JavaScript, קריאות API אסינכרוניות, ואולי אפילו WebSockets. המדריך הזה לא ילמד אתכם את היסודות. הוא מיועד למי שכבר יודע לכתוב סקרייפר ומבין שהאתגר האמיתי בביזפורטל הוא לא להוריד HTML, אלא לתפוס את הדופק של השוק בזמן אמת.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה הגישה הקלאסית נידונה לכישלון בביזפורטל

בואו נשים את זה על השולחן: requests ו-BeautifulSoup לא יספיקו כאן. כשאתם מנסים לחלץ נתונים מביזפורטל, אתם לא באמת מתמודדים עם דף HTML אחד, אלא עם אפליקציית ווב מורכבת. רוב המידע החשוב – מחירים של מניות, מדדים, נתוני גרפים – נטען דינמית אחרי שהדף הראשוני נטען. שליחת בקשת GET תחזיר לכם שלד ריק מתוכן, מעין תבנית שמחכה לנתונים שיגיעו משרתי ה-API של האתר.

ראיתי צוותים מבזבזים שבועות בניסיון לעשות רינדור של הדף עם כלים כמו Selenium, רק כדי להיתקע עם בעיות ביצועים, ניהול זיכרון ו-race conditions. הבעיה היא שהם מנסים לדמות דפדפן שלם, עם כל התקורה שלו, למשימה שדורשת דיוק כירורגי. המטרה היא לא לראות את הדף, אלא ליירט את הנתונים בדרכם אל הדף. כל פרויקט איסוף קטלוג Bizportal שמתחיל בניסיון לרנדר מאות אלפי דפים של מכשירים פיננסיים עם דפדפן מלא, נתקל בקיר של משאבים ותחזוקה. זה פשוט לא סקיילבילי. אם אתם צריכים לסרוק את כל היצע המניות, תצפו לעשרות אלפי עמודים, ורינדור כל אחד מהם יארוך שעות במקרה הטוב, ויקרוס בסבירות גבוהה.

האסטרטגיה הנכונה: הנדסה הפוכה של ה-API הפנימי

הגישה שעובדת, ועובדת טוב, היא להתעלם כמעט לחלוטין מה-HTML ולהתמקד בתקשורת הרשת. פתחו את כלי המפתחים בדפדפן (F12), עברו לטאב ה-Network, ותתחילו לנווט באתר Bizportal. מהר מאוד תראו מטר של בקשות XHR/Fetch שרצות ברקע. אלו הן קריאות ה-API הפנימיות שהאפליקציה משתמשת בהן כדי למשוך את הנתונים העדכניים ביותר.

המשימה שלכם הופכת מ-parsing HTML ל-reverse engineering של ה-API הזה. אתם צריכים לזהות את ה-endpoints הרלוונטיים: איזה endpoint מחזיר מחירי מניות? איזה מחזיר חדשות? איזה מספק נתונים היסטוריים לגרפים? לרוב, תקבלו בחזרה JSON נקי ומובנה, שהוא הרבה יותר קל ומהיר לעיבוד מאשר HTML מסורבל. גישה זו מאפשרת ניטור מחירים ב-Bizportal ברזולוציה גבוהה. במקום לסרוק דף כל דקה, אפשר לפנות ל-endpoint של המחירים כל 5-10 שניות, עם latency של פחות מ-200ms לבקשה. זה משנה את כללי המשחק. המטרה היא להגיע למצב שבו אתם יכולים לייצר API / קובץ נתונים יומי או שעתי, שמכיל מידע נקי ומדויק, ישירות מהמקור שהאתר עצמו משתמש בו.

תרחיש הכישלון הקלאסי: רגישות לזמן ונתונים חלקיים

הנה סיפור אמיתי שראיתי קורה: פרויקט מודיעין מתחרים Bizportal שהיה אמור לנטר אזכורים של חברות מסוימות בכתבות בזמן אמת. הצוות בנה סקרייפר מבוסס Playwright שסרק את עמוד הבית וקטגוריות החדשות כל 5 דקות. על פניו, זה נשמע סביר. אבל הבעיה בשוק ההון היא שהזמן קריטי. ידיעה חשובה יכולה להתפרסם, להשפיע על שוק המניות, ולהידחק לתחתית העמוד תוך דקות ספורות. הסקרייפר שלהם, שהיה איטי מטבעו בגלל רינדור הדפדפן, היה מפספס באופן קבוע את הסיפורים החשובים ביותר. הוא היה מגיע לאסוף את הנתונים אחרי שהאירוע כבר קרה והכתבה כבר לא הייתה בכותרת הראשית.

הם קיבלו תמונה חלקית ומעוותת של המציאות. הכישלון נבע מהנחת יסוד שגויה: שהתוכן באתר הוא סטטי למשך 5 דקות. באתרים פיננסיים, התוכן יכול להיות בתנועה מתמדת. הפתרון הנכון היה לזהות את ה-API feed של החדשות, ולנטר אותו בתדירות גבוהה הרבה יותר, אולי כל 30 שניות. זה היה דורש פחות משאבים והיה מספק תוצאות מדויקות ואמינות פי כמה. כשאתם בונים מערכת כזו, חשוב להבין את הטכניקות לטיפול בשגיאות 429, כי קצב בקשות גבוה מזמין חסימות.

בניית התשתית: Proxies, Headers וניהול Sessions

אוקיי, אז זיהיתם את ה-API. עכשיו מתחיל המשחק האמיתי. אתרי חדשות גדולים כמו Bizportal לא אוהבים שמפציצים להם את ה-API עם אלפי בקשות מדקה לדקה מאותה כתובת IP. אתם צריכים תשתית חזקה. הדבר הראשון הוא proxy rotation. אני לא מדבר על רשימה של 10 פרוקסיז חינמיים. אתם צריכים מאגר גדול של פרוקסיז איכותיים, רצוי residential, כדי שהתעבורה שלכם תיראה אורגנית. ניהול נכון של בחירת פרוקסי residential הוא קריטי להצלחה ארוכת טווח.

בנוסף, שימו לב ל-Headers. אל תשלחו בקשות עם User-Agent של python-requests. העתיקו את ה-Headers המדויקים שהדפדפן שלכם שולח, כולל Accept, Accept-Language, Referer וכל טוקן או קוקי רלוונטי. במקרים רבים, תצטרכו לנהל session: לבצע בקשה ראשונית לדף הבית כדי לקבל קוקיז, ואז להשתמש בקוקיז האלה בבקשות ה-API הבאות. לפעמים יש צורך בפתרון מורכב יותר, כמו שימוש ב-מדריך Playwright stealth כדי לייצר טביעת אצבע דפדפן אמינה, לאסוף את הקוקיז והטוקנים הנדרשים, ורק אז לעבור למצב של שליחת בקשות ישירות ל-API. זהו תהליך היברידי יעיל שנותן את הטוב משני העולמות.

מתי דווקא לא כדאי להשתמש בגישת ה-API

למרות כל מה שאמרתי, יש מצבים שבהם הנדסה הפוכה של ה-API היא over-engineering. אם כל מה שאתם צריכים זה לאסוף את מחירי הסגירה של 50 מניות פופולריות פעם ביום, אין שום סיבה לבנות מערכת מורכבת לניטור בזמן אמת. סקרייפר פשוט מבוסס Playwright שירוץ פעם ב-24 שעות, ינווט לדפים הרלוונטיים, ימתין לטעינת הנתונים ויגרד את המידע, יעשה את העבודה בצורה מספקת. המורכבות של ניהול sessions, טיפול ב-rate limiting ופענוח ה-API פשוט לא מצדיקה את המאמץ עבור use case כזה.

תרחיש נוסף הוא כאשר מבנה ה-API משתנה בתדירות גבוהה. אם צוות הפיתוח של Bizportal עושה שינויים תכופים ב-endpoints או בפורמט התשובות, הסקרייפר שלכם ישבר כל הזמן. במצב כזה, סקרייפר ויזואלי (מבוסס דפדפן) יכול להיות יציב יותר, כי שינויים קוסמטיים ב-HTML פחות סביר שישברו אותו מאשר שינוי מבני ב-JSON. זה trade-off בין יעילות ליציבות. לכן, לפני שאתם צוללים לקוד, תשאלו את עצמכם מהי דרישת העדכניות האמיתית של הפרויקט. אם התשובה היא "פעם ביום" או "פעם בשבוע", שמרו על פשטות. זה יחסוך לכם שעות רבות של תחזוקה וכאבי ראש.

נקודות מרכזיות

עבור scraping Bizportal, העדיפו הנדסה הפוכה של ה-API הפנימי על פני רינדור דפדפן מלא.
נתונים פיננסיים רגישים לזמן; סקרייפר איטי שמפספס עדכונים הוא חסר תועלת.
השתמשו ב-proxy rotation איכותי וניהול headers מדויק כדי להימנע מחסימות.
התאימו את מורכבות הפתרון לדרישות: לאיסוף נתונים יומי, סקרייפר פשוט יותר יכול להספיק.
היעד הסופי הוא לרוב יצירת API או קובץ נתונים נקי, לא רק איסוף HTML.

שאלות נפוצות

כיצד ניתן לאסוף את כל מחירי המניות בזמן אמת מ-Bizportal ללא חסימה?▾

הדרך היעילה ביותר לאסוף נתוני מניות בזמן אמת מ-Bizportal היא על ידי זיהוי ושימוש ב-API הפנימי שלהם, ולא באמצעות סקריפטים מבוססי דפדפן. במקום להריץ כלי כמו Puppeteer, השתמשו ב-Chrome DevTools (בטאב ה-Network) כדי לזהות את בקשות ה-XHR/Fetch שמביאות את הנתונים בפורמט JSON. שיטה זו עוקפת 95% ממנגנוני ההגנה, מפחיתה את צריכת המשאבים באופן דרמטי, ומאפשרת קצב רענון של עד 5 שניות ללא סיכון גבוה לחסימה.

מהי הדרך המומלצת לביצוע ניטור מחירים יומי ב-Bizportal עבור 1,000 ניירות ערך?▾

לצורך ניטור מחירים יומי של 1,000 ניירות ערך ב-Bizportal, הפתרון היציב ביותר הוא סקריפט Python המשתמש בספריית requests כדי לפנות ישירות ל-endpoint ה-API הלא מתועד. חשוב לחקות את ה-headers המדויקים שהדפדפן שולח, במיוחד את ה-User-Agent וה-Accept. מומלץ להריץ את הסקריפט פעם אחת ביום, מחוץ לשעות המסחר, כדי למזער עומס ולהימנע מזיהוי. גישה זו מהירה פי 20 לפחות מגירוד HTML מלא.

איך אפשר להפוך את הנתונים הפיננסיים מ-bizportal.co.il לקובץ CSV מסודר?▾

כדי להפוך נתונים פיננסיים מ-Bizportal לקובץ CSV, יש לבצע תהליך דו-שלבי באמצעות סקריפט ייעודי. ראשית, יש לאסוף את המידע הגולמי בפורמט JSON מה-API של האתר. שנית, השתמשו בספריית Pandas ב-Python כדי לטעון את ה-JSON, לנרמל אותו למבנה טבלאי שטוח, ולבסוף לייצא אותו לקובץ CSV באמצעות הפונקציה df.to_csv(). תהליך זה מבטיח שהנתונים יהיו נקיים, מובנים ומוכנים לניתוח תוך פחות מ-30 שורות קוד.

מהם ה-headers החשובים ביותר שיש לזייף בעת שליחת בקשות API ל-Bizportal?▾

כדי להימנע מחסימה מיידית בעת שליחת בקשות API ל-Bizportal, ישנם 3 headers קריטיים שיש לחקות. הראשון והחשוב ביותר הוא User-Agent עדכני של דפדפן מודרני כמו Chrome 125. השני הוא X-Requested-With: XMLHttpRequest, המציין שהבקשה היא אסינכרונית, כפי שקורה באתר עצמו. השלישי הוא Referer, שצריך להכיל כתובת URL רלוונטית מתוך האתר bizportal.co.il. הזנחה של אחד מאלה תגרום לרוב לכישלון הבקשה עם שגיאת 403.

האם ניתן לבצע מעקב מלאי או זמינות של אג"ח ספציפיות ב-Bizportal באמצעות scraping?▾

כן, ניתן לעקוב אחר זמינות והיקפי מסחר של אג"ח ב-Bizportal, אך לא באמצעות גירוד HTML מסורתי. הדרך הנכונה היא לאתר את ה-API endpoint שמספק את נתוני המסחר בזמן אמת עבור מכשירים פיננסיים. לאחר זיהוי ה-endpoint, ניתן לשלוח בקשות GET תקופתיות (למשל, כל 60 שניות) עם מזהה האג"ח הספציפי ולקבל את נתוני הנפח והביקושים העדכניים בפורמט JSON. זה מאפשר בניית מערכת התראות יעילה.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור