מדריך טכני מתקדם: Scraping בזק כמו שצריך

אם ניגשתם למשימת scraping בזק עם `requests` ו-`BeautifulSoup`, אתם כנראה כבר יודעים שזה לא עובד. אתר כמו bezeq.co.il הוא לא קטלוג סטטי. הוא מערכת דינמית, עמוסת JavaScript, עם מבצעים שמשתנים לפי סגמנט לקוח ולוגיקה עסקית מורכבת שמוטמעת בצד הלקוח. המאמר הזה מיועד למי שכבר יודע את הבסיס ומחפש את ה-playbook המעשי להתמודדות עם אתר בסדר גודל כזה. נדבר על הכלים הנכונים, הארכיטקטורה שתחזיק מעמד, ואיפה רוב המהנדסים נופלים.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה בזק הוא לא עוד אתר e-commerce סטנדרטי

הטעות הראשונה היא לחשוב על בזק כעל חנות. זה לא. זו פלטפורמת שירותים עם תלות גבוהה בפרמטרים שלא קיימים בקמעונאות רגילה. למשל, בדיקת זמינות שירות בכתובת ספציפית היא לא סתם בדיקת מלאי במחסן. זו קריאת API מורכבת, לעיתים עם לוגיקה בצד הלקוח, שדורשת אינטראקציה אמיתית עם טפסים. כל ניסיון לבצע איסוף קטלוג בזק באמצעות בקשות HTTP פשוטות יחזיר לכם דפים חלקיים או שגיאות.

האתר בנוי על framework מודרני (כמו React או Angular), מה שאומר שחלק גדול מהתוכן, במיוחד נתונים קריטיים כמו מבצעים ומפרטים טכניים, נטענים אסינכרונית אחרי שה-HTML הראשוני כבר נשלח. ניתוח תעבורת הרשת בדפדפן יראה לכם שפע של קריאות XHR/Fetch ל-endpoints של API פנימי. אפשר לנסות להנדס לאחור את הקריאות האלה, אבל זה משחק שברירי. שינוי קטן ב-API מחר בבוקר, וה-scraper שלכם מת. הפתרון היציב יותר הוא שימוש ב-headless browser. תשכחו מ-Selenium, הוא איטי ומזוהה בקלות. Playwright עם תוסף stealth הוא הבחירה הנכונה היום. הוא מאפשר לדף להתנהג כמו דפדפן אמיתי, מריץ את כל ה-JavaScript, ומספק לכם את ה-DOM הסופי לעבודה.

ארכיטקטורה לניטור מחירים ומודיעין מתחרים

כשאנחנו מדברים על ניטור מחירים בזק או מודיעין מתחרים בזק, אנחנו לא מדברים על סקריפט שרץ פעם ביום. אנחנו מדברים על מערכת רציפה. הארכיטקטורה שאני ממליץ עליה מורכבת משלושה חלקים: תור משימות (כמו RabbitMQ או Redis), מאגר של workers, ומסד נתונים.

כל 'משימה' בתור היא URL ספציפי או תרחיש (למשל, 'בדוק מחיר חבילת 1Gb בכתובת X'). ה-workers, קונטיינרים של Docker שמריצים Playwright, שולפים משימות מהתור, מבצעים אותן, ומאחסנים את התוצאה הנקייה במסד הנתונים. הגישה הזו מאפשרת סקיילביליות אופקית. המערכת חלשה מדי? הוסיפו עוד workers. זה פשוט.

האתגר המרכזי הוא ניהול ה-fingerprint של הדפדפן ורוטציית ה-IP. בזק, כמו כל אתר גדול, מפעיל מערכות הגנה. אם תשלחו 500 בקשות מאותו IP תוך שעה, תיחסמו. שימוש ב-proxy איכותי הוא חובה. חשוב להבין את ההבדלים בין סוגי הפרוקסי השונים; לתרחישים מורכבים כמו אינטראקציה עם טפסים, כדאי לשקול פתרונות מתקדמים יותר. למידע נוסף על כך, קראו את המדריך המלא לבחירת פרוקסי. קצב בקשות סביר הוא סביב 5-10 בדקה פר IP, מה שמבטיח אחוז הצלחה של מעל 98% בלי למשוך תשומת לב מיותרת.

Failure Scenario קלאסי: הזנחת ה-Session State

הנה תרחיש שראיתי קורה יותר מדי פעמים בפרויקטים של scraping באתרי תקשורת: המהנדס בונה scraper שמצליח לחלץ נתונים מדף מוצר בודד. הוא מריץ אותו על 1000 מוצרים במקביל, ופתאום 70% מהבקשות נכשלות עם דפים ריקים או שגיאות לא ברורות. מה קרה?

הוא הזניח את ניהול ה-state. אתרים כמו בזק משתמשים בעוגיות וב-local storage כדי לעקוב אחר מסע המשתמש. לדוגמה, ייתכן שהמחירים או המבצעים שמוצגים לך תלויים בכך ש'ביקרת' קודם בעמוד מסוים או בחרת אפשרות סינון כלשהי. כשאתה שולח בקשה ישירה לדף המוצר הסופי בלי ההקשר הזה (כלומר, בלי ה-session state המתאים), השרת לא יודע מה להציג לך ומחזיר דף גנרי או שגיאה.

הפתרון הוא לא לגשת ישירות ל-URL הסופי. ה-scraper צריך לחקות מסע משתמש הגיוני. התחל מדף הבית, נווט לקטגוריה, לחץ על המוצר. כל worker של Playwright צריך לפעול עם BrowserContext נפרד ונקי, מה שמבטיח שכל session מבודד לחלוטין. זה מגדיל מעט את ה-latency פר בקשה (מ-~500ms ל-~1.5-2 שניות), אבל מעלה דרמטית את שיעור ההצלחה. במקום להתמודד עם טיפול בשגיאות 429 ודומותיהן, אתה פשוט נמנע מהן מלכתחילה.

מעקב מלאי וזמינות: האתגר הגיאוגרפי

אחד ה-use cases המורכבים ביותר הוא מעקב מלאי/זמינות בזק. בניגוד למלאי של מוצר פיזי, 'זמינות' של שירותי תקשורת היא תלוית מיקום. לא ניתן פשוט לבדוק אם 'אינטרנט סיבים' זמין. צריך לבדוק אם הוא זמין בכתובת ספציפית. זה מכניס מימד נוסף של מורכבות.

כדי לבצע זאת בקנה מידה, צריך רשימה של כתובות מייצגות ברחבי הארץ. ה-scraper יצטרך לבצע איטרציה על הכתובות הללו עבור כל שירות רלוונטי. זה אומר אינטראקציה עם טופס, הקלדת עיר, רחוב ומספר בית, והמתנה לתשובת ה-API. כאן, יעילות היא שם המשחק. במקום להריץ את כל תהליך ה-UI בכל פעם, אפשר להשתמש ב-Playwright כדי לבצע את התהליך פעם אחת, ללכוד את קריאת ה-API הרלוונטית (זו ששולחת את הכתובת ומקבלת תשובת זמינות), ולנסות לשחזר אותה ישירות. זה דורש יותר עבודת ניתוח מקדימה אבל יכול לקצץ את זמן הריצה ביותר מ-70%.

בסופו של דבר, המטרה היא להפיק API / קובץ נתונים בזק שמאפשר שאילתות מהירות על זמינות. למשל, קובץ CSV יומי עם עמודות: שירות, עיר, זמינות (כן/לא), תאריך בדיקה. זהו נכס נתונים בעל ערך אדיר.

מתי הגישה הזו היא Overkill

אחרי כל מה שאמרתי על Playwright וארכיטקטורות מורכבות, חשוב לשמור על פרספקטיבה. לא כל משימה דורשת פתרון כבד. אם כל מה שאתה צריך זה לחלץ פעם בחודש את רשימת הראוטרים שבזק מציעה, בלי מחירים ובלי מבצעים, כנראה שאתה לא צריך מערכת עם תור ו-workers. סקריפט Python פשוט עם requests-html (שיש לו יכולות רינדור JS בסיסיות) עשוי להספיק.

המורכבות שאני מתאר נחוצה כשאתה צריך דאטה טרי, מדויק, וברזולוציה גבוהה. למשל, ניטור שינויי מחירים שעתי, מעקב אחר מבצעים שמופיעים ונעלמים, או בניית API על בסיס הנתונים של בזק. אם מטרתך היא איסוף קטלוג בזק חד-פעמי, התחל פשוט. השקעת הזמן בבניית מערכת מורכבת לא תצדיק את עצמה. אבל אם אתה בונה מוצר נתונים או זקוק למודיעין תחרותי מתמשך, אין קיצורי דרך. ניסיון לחסוך במאמץ הפיתוח הראשוני יוביל לכאב ראש תפעולי מתמשך. המפתח הוא להבין את דרישות הפרויקט ולהתאים את רמת המורכבות של הפתרון. לפעמים, הפתרון הטוב ביותר הוא הפשוט ביותר שעובד.

נקודות מרכזיות

עבור scraping בזק, השתמש ב-Playwright עם stealth; בקשות HTTP פשוטות לא יספיקו.
אתרים דינמיים דורשים חיקוי מסע משתמש מלא, כולל ניווט, כדי לשמר את ה-session state.
בדיקת זמינות שירותים דורשת אוטומציה של טפסים עם קלט גיאוגרפי משתנה.
בחר את רמת מורכבות ה-scraper בהתאם לתדירות ודיוק הנתונים הנדרשים.
ארכיטקטורת תור-עובדים (Queue-Worker) היא חיונית ל-scraping רציף וסקיילבילי.

שאלות נפוצות

איך לבצע scraping לניטור מחירי חבילות אינטרנט באתר בזק בזמן אמת?▾

כדי לנטר מחירי חבילות אינטרנט באתר בזק, יש צורך ב-scraper מבוסס browser automation כמו Playwright, מכיוון שהמחירים נטענים דינמית. התהליך כולל ניווט לדפי החבילות הרלוונטיים, המתנה לטעינת רכיבי ה-JavaScript האחראים לתמחור, ואז חילוץ הנתונים באמצעות CSS selectors ספציפיים. מומלץ להריץ את ה-scraper כל 60 דקות כדי לתפוס שינויים, תוך שימוש ב-headless mode לשיפור ביצועים של כ-30%. שמירת הנתונים במסד נתונים מסוג time-series כמו InfluxDB תאפשר ניתוח מגמות יעיל.

מהי הדרך היעילה ביותר לחלץ את כל קטלוג המוצרים מ-bezeq.co.il לקובץ CSV?▾

הדרך היעילה ביותר לחילוץ קטלוג המוצרים המלא של בזק היא באמצעות סקריפט Python המשלב את ספריית Scrapy עם Splash או Playwright לרינדור JavaScript. בניגוד לבקשות HTTP פשוטות, גישה זו מטפלת בעמודים דינמיים וטעינת מוצרים בגלילה. התהליך כולל זיהוי תבנית ה-URL של דפי הקטגוריות, חילוץ קישורי המוצרים מכל עמוד, וביקור בכל קישור כדי לאסוף את פרטי המוצר. ייצוא הנתונים ישירות ל-CSV באמצעות ה-Feed Exporters המובנה של Scrapy חוסך כ-50% מקוד הטיפול בקבצים.

כיצד ניתן לעקוב אחר זמינות ומלאי של ציוד קצה ספציפי באתר בזק?▾

מעקב אחר זמינות ומלאי באתר בזק דורש גישה דו-שלבית המשתמשת ב-Puppeteer. ראשית, יש לנווט לדף המוצר הספציפי ולבדוק את קיומו של אלמנט המציין 'אזל מהמלאי' או את מצב כפתור ההוספה לסל. שנית, עבור מוצרים שזמינים, ניתן לנסות להוסיף כמות גדולה (למשל 999) לסל הקניות ולבדוק את הודעת השגיאה או את הכמות המעודכנת שהמערכת מאפשרת, מה שחושף את המלאי המדויק. הרצת בדיקה זו כל 4 שעות מספקת איזון טוב בין עדכניות לעומס.

אילו אתגרים ייחודיים קיימים ב-scraping של בזק לצורכי מודיעין מתחרים?▾

האתגר המרכזי ב-scraping של בזק למודיעין מתחרים הוא מבנה האתר המבוסס על רכיבים דינמיים (Components) ולא על דפים סטטיים, מה שמקשה על חילוץ נתונים עקבי. שינויים תכופים במבנה ה-DOM וב-class names דורשים תחזוקה שוטפת של ה-selectors. בנוסף, האתר מציג מבצעים והצעות המותאמים אישית על בסיס קוקיז והיסטוריית גלישה, ולכן יש לנהל sessions נקיים בכל ריצה כדי לקבל תמונת מחיר אובייקטיבית. שימוש ב-XPath במקום CSS selectors יכול להפחית את שבריריות ה-scraper בכ-25%.

איך אפשר ליצור API פרטי מנתוני בזק אם האתר לא מציע API ציבורי?▾

ניתן ליצור API פרטי על ידי בניית scraper שרץ במרווחי זמן קבועים (למשל, כל 24 שעות) ומאחסן את הנתונים במסד נתונים כמו PostgreSQL. לאחר מכן, בונים שכבת API פשוטה מעל מסד הנתונים הזה באמצעות framework כמו FastAPI ב-Python או Express.js ב-Node.js. ה-API יחשוף endpoints (לדוגמה, /api/v1/packages) שיחזירו את הנתונים המעודכנים בפורמט JSON מהמאגר המקומי, ובכך ימנע ביצוע scraping חי עבור כל בקשת API וישפר את זמן התגובה פי 100 ויותר.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור