Scraping סלקום: איך לגשת לקטלוג המלא בלי להיחסם

אם ניסיתם פעם לעשות scraping לסלקום עם סקריפט פשוט מבוסס requests, בטח גיליתם מהר מאוד שאתם מקבלים דף ריק. זה לא באג. אתרי טלקום מודרניים כמו cellcom.co.il הם יישומי צד-לקוח מורכבים שמרנדרים את התוכן דינמית. המידע האמיתי – מחירים, מפרטים, זמינות מלאי – יושב מאחורי קריאות API פנימיות. במדריך הזה לא נדבר על היסודות. נצלול ישר לאסטרטגיות שעובדות בשטח כדי לחלץ נתונים מאתרים כאלה באופן יציב וסקיילבילי, וגם איפה רוב המהנדסים נופלים.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה `requests` פשוט לא יספיק לכם בסלקום

בואו נניח את זה על השולחן: אם הגישה שלכם היא response = requests.get(url), אתם בדרך הלא נכונה עבור סלקום. האתר הוא SPA (Single Page Application), ככל הנראה מבוסס React או Vue. מה שהדפדפן שלכם מקבל בבקשה הראשונה הוא מעטפת HTML וצרור של JavaScript. כל התוכן העשיר, החל מרשימת המכשירים ועד למבצעים העדכניים, נטען אסינכרונית דרך קריאות XHR/Fetch ל-endpoints של ה-API הפנימי שלהם.

לנסות לפתור את זה עם headless browser מלא כמו Playwright זה פתרון אפשרי, אבל הוא כבד מדי לרוב המשימות. למה להריץ מנוע דפדפן שלם, לצרוך מאות מגה-בייטים של RAM ולחכות שה-DOM יתייצב, רק כדי לחלץ JSON שכבר קיים ברשת? זה כמו להשתמש בפטיש 5 קילו כדי לתקוע נעץ. זה יעבוד, אבל זה לא יעיל, במיוחד כשצריך לעשות סקייל לאלפי בקשות בשעה. הגישה החכמה היא לחקות את הדפדפן, לא להריץ אותו. אנחנו צריכים למצוא את אותן קריאות API, להבין את המבנה שלהן, ולשלוח בקשות ישירות אליהן. זה מהיר יותר, זול יותר במשאבים, והרבה יותר יציב לאורך זמן.

פיצוח ה-API הפנימי: הדרך המהירה לנתונים

הזהב האמיתי נמצא בלשונית ה-Network בכלי המפתחים של הדפדפן. פתחו אותה, סננו לפי Fetch/XHR, ותתחילו לנווט באתר של סלקום. מהר מאוד תראו את התבנית: קריאה ל-endpoint כמו /api/v2/catalog/devices שמחזירה JSON עם כל מה שאתם צריכים. זה מאפשר איסוף קטלוג סלקום מלא בלי לרנדר פיקסל אחד. כך אפשר למפות את כל קטלוג המוצרים, שמכיל מאות מכשירים ותוכניות, תוך דקות ספורות.

השלב הבא הוא לנתח את הבקשה. אילו headers נשלחים? האם יש cookie ספציפי שנדרש לאימות? לעיתים קרובות תמצאו טוקן כלשהו (למשל, x-csrf-token או Authorization: Bearer ...) שהאתר מייצר בצד הלקוח. התפקיד שלכם הוא להבין את הלוגיקה של יצירת הטוקן הזה. לפעמים הוא נמצא בתוך קובץ JS, ולפעמים הוא תוצאה של קריאת API ראשונית. ברגע שפיצחתם את זה, אתם יכולים לשכפל את הבקשות האלה ישירות מהסקריפט שלכם. עם גישה זו, אפשר להגיע לקצבים של 500-1000 דפים בדקה מ-IP בודד, לעומת 20-30 דפים בדקה עם headless browser. זו היעילות שאנחנו מחפשים.

ניטור מחירים ומלאי: מהטקטיקה לאסטרטגיה

אחרי שיש לכם גישה ישירה ל-API, ניטור מחירים סלקום הופך למשימה מוגדרת היטב. המטרה היא לאסוף מחירים ונתוני זמינות באופן עקבי כדי לזהות שינויים. השאלה היא לא איך אלא באיזו תדירות. אם תנסו לדגום כל 5 שניות, סביר להניח שתפעילו מנגנוני הגנה ותיחסמו. אם תדגמו פעם ביום, תפספסו מבצעי בזק או שינויי מלאי קריטיים.

נקודת התחלה טובה היא דגימה כל 15-30 דקות עבור מוצרים חשובים. זה מייצר איזון בין עדכניות הנתונים לבין שמירה על פרופיל נמוך. עבור קטלוג של 200 מוצרים מרכזיים, זה מסתכם בכ-400-800 בקשות לשעה – קצב סביר לחלוטין. חשוב לשמור היסטוריה של הנתונים. בלי היסטוריה, אתם רואים רק תמונת מצב. עם היסטוריה, אתם יכולים לזהות מגמות, להבין מתי סלקום מעדכנים מחירים (למשל, תמיד ביום שלישי בבוקר), ולבנות מודלים לחיזוי. זו הופכת את הנתונים הגולמיים לתובנות אסטרטגיות עבור מודיעין מתחרים סלקום.

ה-Failure Scenario: כששינוי API שובר לך את הכל

בניית scraper מבוסס API פנימי היא חרב פיפיות. הוא מהיר ויעיל, אבל גם שביר. תארו לעצמכם תרחיש: יום שני בבוקר, אתם מריצים את הסקריפט ופתאום מקבלים 100% שגיאות 401 Unauthorized. כל הדשבורדים אדומים, אין נתונים חדשים. מה קרה? צוות הפיתוח של סלקום שינה את מנגנון האימות. אולי ה-token שהשתמשתם בו דורש עכשיו פרמטר נוסף, או ש-endpoint שלם שינה את הנתיב שלו מ-/api/v2/ ל-/api/v3/. כל הלוגיקה שבניתם פשוט נשברה.

זה ה-failure mode הקלאסי של גישה זו. בניגוד ל-scraping מבוסס HTML, שבו שינוי קטן ב-CSS class עלול לשבור שדה בודד, כאן שינוי ב-endpoint אחד יכול להשבית את כל המערכת. הפתרון הוא לא להימנע מהגישה הזו, אלא לבנות סביבה מערכות הגנה. זה אומר ניטור אקטיבי של אחוזי הצלחה (ירידה פתאומית מ-99% ל-5% היא דגל אדום), התראות אוטומטיות ל-Slack או למייל, ותהליך מסודר לדיבוג מהיר. אתם צריכים להיות מוכנים לחזור לשלב הניתוח עם כלי המפתחים בכל רגע נתון. זה חלק מהתחזוקה השוטפת, לא אירוע חריג.

מתי בכל זאת כן להשתמש ב-Headless Browser?

למרות כל מה שאמרתי על היעילות של גישת ה-API, יש מצבים שבהם Playwright או כלי דומה הוא הבחירה הנכונה. התרחיש המרכזי הוא כאשר הלוגיקה בצד הלקוח מורכבת מדי לפיצוח. דמיינו תהליך שדורש אינטראקציה מורכבת: מילוי טופס רב-שלבי לבדיקת זמינות שירות בכתובת, פתרון אתגר JavaScript מתוחכם (device fingerprinting), או ניווט דרך תהליך רכישה כדי לבדוק קופונים. במקרים אלה, המאמץ הנדרש לביצוע reverse engineering של כל הלוגיקה עולה על התועלת. הזמן שתשקיעו בניסיון לחקות את כל קריאות ה-API והצפנות ה-JS יהיה אדיר.

במצב כזה, שימוש ב-headless browser עם תוספים כמו Playwright stealth הוא פרגמטי. הוא מאפשר לכם להגיע ליעד מהר יותר, גם אם זה במחיר של ביצועים וצריכת משאבים גבוהה יותר. המפתח הוא להשתמש בו באופן ממוקד. אל תעשו scraping לכל הקטלוג עם Playwright. השתמשו בגישת ה-API לאיסוף המוני, ושמרו את ה-headless browser למשימות הכירורגיות והמורכבות שבאמת דורשות אותו. זהו ניהול סיכונים הנדסי נכון: בחירת הכלי המתאים למורכבות הבעיה, ולא התעקשות על פתרון אחד לכל התרחישים.

איך לבנות API פרטי וקבצי נתונים מסודרים

איסוף הנתונים הוא רק חצי מהעבודה. השלב הבא, והחשוב לא פחות, הוא להפוך את הכאוס המובנה של ה-scraping למשאב נקי ונגיש. המטרה הסופית של רוב הפרויקטים היא לא סתם טבלה במסד נתונים, אלא API / קובץ נתונים סלקום שהצוותים הפנימיים יכולים לצרוך בקלות. בין אם זה צוות BI, מנהלי מוצר או אנליסטים.

הדרך הטובה ביותר לעשות זאת היא לבנות שכבת API פשוטה מעל מסד הנתונים שלכם. השתמשו ב-FastAPI או Express.js כדי לחשוף כמה endpoints בסיסיים: GET /products, GET /products/{id}/price-history, GET /promotions. זה מנתק את הצרכנים הפנימיים מהמורכבות של ה-scraper. הם לא צריכים לדעת איך הנתונים נאספו, רק איך לצרוך אותם. בנוסף, ספקו אפשרות לייצוא יומי או שבועי של הנתונים כקובץ CSV או JSON. זה קריטי עבור צוותים שמעדיפים לעבוד עם כלים כמו Excel או Tableau. תהליך ה-ETL (Extract, Transform, Load) שאתם בונים כאן הוא מה שהופך פרויקט scraping חד-פעמי לנכס דאטה אסטרטגי ומתמשך עבור הארגון.

נקודות מרכזיות

עבור סלקום, נתחו את ה-API הפנימי במקום להשתמש ב-headless browser לאיסוף המוני.
צפו לשינויים ב-API; בנו מנגנוני ניטור והתראה כדי לזהות שברים בזמן אמת.
השתמשו ב-Playwright רק למשימות מורכבות ספציפיות, לא לאיסוף קטלוג מלא.
הפכו את הנתונים הגולמיים ל-API פנימי נקי או לייצוא CSV כדי לספק ערך אמיתי לארגון.
איזון קצב הבקשות הוא קריטי כדי להימנע מחסימות – התחילו עם 15-30 דקות בין דגימות למוצר.

שאלות נפוצות

איך אני יכול לבנות API למחירי סלקום אם אין להם API ציבורי?▾

ניתן לבנות API פרטי למחירי סלקום על ידי ניתוח קריאות הרשת (network requests) שהאתר מבצע. השתמש בכלי מפתחים של הדפדפן (F12) כדי לזהות את ה-endpoints הספציפיים שמחזירים נתוני מוצרים ומחירים בפורמט JSON. לאחר זיהוי ה-endpoint, ניתן לשכפל את הקריאה באמצעות ספריות כמו requests בפייתון, תוך העתקת ה-headers וה-cookies הרלוונטיים. גישה זו יעילה ב-95% יותר משימוש ב-headless browser כמו Playwright, והיא צורכת משאבים מינימליים לתחזוקה שוטפת של ניטור מחירים בזמן אמת.

מהי הדרך היעילה ביותר לעקוב אחר זמינות מלאי מכשירים ב-cellcom.co.il?▾

הדרך היעילה ביותר למעקב מלאי ב-cellcom.co.il היא להתמקד בשינויים ב-DOM ולא בניתוח תמונות או טקסט מלא. הגדר סקריפט שבודק באופן ספציפי את קיומו או היעדרו של אלמנט HTML עם class כמו out-of-stock-label או שינוי בערך של כפתור הוספה לסל. שיטה זו, המכונה 'DOM diffing', דורשת פחות מ-50% מרוחב הפס בהשוואה לרינדור עמוד מלא ומאפשרת זיהוי שינויים תוך פחות מ-200 מילישניות, מה שהופך אותה לאידיאלית למעקב זמינות בזמן אמת.

איך ניתן לאסוף את כל קטלוג המוצרים מסלקום בלי להיחסם על ידי WAF?▾

כדי לאסוף את קטלוג המוצרים המלא מסלקום ולהימנע מחסימת WAF, יש לדמות התנהגות אנושית על ידי שינוי ה-User-Agent בכל 10-15 בקשות ושימוש ב-rotating residential proxies. במקום לסרוק את כל הקטגוריות ברצף, פזר את הבקשות על פני 3-4 קטגוריות במקביל עם השהיות אקראיות של 1.5 עד 4 שניות בין כל בקשה. בנוסף, חשוב לוודא שכל בקשה כוללת Referer header תקין המצביע על עמוד קודם באתר, מה שמקשה על זיהוי הסקריפט כבוט.

מהן 3 נקודות הכשל הנפוצות ביותר ב-scraping של אתרי טלקום מודרניים?▾

שלוש נקודות הכשל הנפוצות ביותר ב-scraping של אתרי טלקום הן שינויי מבנה HTML, הגנות JavaScript דינמיות, ומגבלות קצב (rate limiting). שינויים במבנה ה-HTML, אפילו שינוי קטן בשם class, יכולים לשבור לחלוטין סלקטורים של CSS או XPath. הגנות מבוססות JavaScript, כמו אלו של Cloudflare או Akamai, מזהות אוטומציה. לבסוף, שליחת בקשות מהירות מדי, למשל מעל 5 בקשות בשנייה מאותה כתובת IP, תפעיל חסימה אוטומטית ברמת השרת אצל 90% מהאתרים.

כיצד מבצעים scraping לנתוני תחרות מסלקום ומשווים אותם למתחרים באופן אוטומטי?▾

כדי לבצע scraping ולהשוות נתונים מסלקום למתחרים, יש לבנות תהליך ETL (Extract, Transform, Load) מוגדר היטב. שלב ה-Extract אוסף נתונים גולמיים כמו שם מוצר, מחיר ומפרט טכני מסלקום ומאתרים נוספים. שלב ה-Transform מנרמל את הנתונים, למשל על ידי סטנדרטיזציה של שמות דגמים (למשל, 'iPhone 15 Pro' מול 'אייפון 15 פרו'). שלב ה-Load מעלה את המידע המנורמל למסד נתונים כמו PostgreSQL, שם ניתן להריץ שאילתות השוואתיות ולייצר דוחות מודיעין מתחרים.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור