Scraping שופרסל: מדריך טכני לעקיפת חסימות בקנה מידה

אם ניסיתם פעם scraping שופרסל עם סקריפט פשוט, בטח נתקלתם בקיר. האתר הזה הוא לא יעד למתחילים. אנחנו מדברים על Single-Page Application דינמי, עם הגנות אקטיביות שמזהות בקלות user-agents גנריים ו-IPs של דאטה סנטר. המטרה כאן היא לא להראות איך לחלץ מחיר של מוצר אחד, אלא איך לבנות מערכת אמינה שמסוגלת לבצע איסוף קטלוג מלא, לעקוב אחר שינויים ולספק נתונים עקביים לאורך זמן, גם כשהאתר משתנה. בואו נדבר על מה באמת עובד.

Use Cases · 5

ניטור מחירים

High

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

High

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

High

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

High

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

High

ייצוא CSV/API יומי או שבועי

ארכיטקטורת היעד: למה requests ו-BeautifulSoup לא יספיקו

הדבר הראשון שחייבים להבין לגבי שופרסל הוא שהתוכן לא נמצא ב-HTML הראשוני. כמו רוב אתרי האיקומרס המודרניים, מדובר באפליקציית צד-לקוח (כנראה React או Vue) שמושכת נתונים דרך קריאות API פנימיות. אם תעשה curl ל-URL של קטגוריה, תקבל מעטפת HTML ריקה ושלד של JavaScript. כל המידע – שמות מוצרים, מחירים, מבצעים – נטען דינמית לאחר מכן.

זה פוסל מיד את הגישה הקלאסית. הניסיון לאתר את ה-API הפנימי ולחקות את הקריאות הוא מסלול מפתה, אבל לרוב הוא שביר מאוד. ה-endpoints האלה לא מתועדים, הם דורשים headers ספציפיים, טוקנים של session, ולפעמים חתימות שנוצרות על ידי קוד JS שעבר obfuscation. כל עדכון קטן בצד הלקוח יכול לשבור לך את כל הלוגיקה. ראיתי צוותים מבזבזים שבועות על הנדסה לאחור של API פנימי, רק כדי לגלות שהוא השתנה חודש אחרי.

הקטלוג עצמו מכיל עשרות אלפי מוצרים, עם הערכה של מעל 50,000 SKUs שונים הפרוסים על פני מאות קטגוריות ותתי-קטגוריות. לכן, הפתרון חייב להיות מסוגל לרנדר JavaScript. זה משאיר אותנו עם אופציה אחת ריאלית: שליטה בדפדפן אמיתי. כאן נכנסים כלים כמו Playwright או Puppeteer. הם לא רק מורידים HTML, הם מריצים דפדפן מלא (headless Chrome/Firefox) שמבצע את כל קריאות ה-API, מרנדר את התוכן ומאפשר לנו גישה ל-DOM הסופי – בדיוק כפי שמשתמש אנושי רואה אותו.

הסטאק הנכון: Playwright, Stealth וניהול חכם של Sessions

אז החלטנו על דפדפן headless. השלב הבא הוא לבחור את הכלי הנכון ולבנות סביבו. תפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 כמעט בכל מדד רלוונטי: מהירות, יציבות, וה-API שלו פשוט נקי ונוח יותר. הוא מגיע עם יכולות מובנות לחכות לאלמנטים, ליירט בקשות רשת ולנהל contexts של דפדפן בצורה אלגנטית.

אבל התקנה בסיסית של Playwright לא תספיק. אתרים כמו שופרסל משתמשים בסקריפטים לזיהוי בוטים (fingerprinting) שבודקים עשרות פרמטרים של הדפדפן: החל מה-User-Agent ועד למאפיינים של WebGL, פונטים מותקנים, והתנהגות של ה-JavaScript engine. אם אחת הבדיקות נכשלת, אתה מסומן. כאן נכנס לתמונה מדריך Playwright stealth. שימוש בתוספי stealth פותר כ-80% מבעיות הזיהוי הבסיסיות על ידי שינוי מאפייני הדפדפן כדי שייראה אנושי ואורגני.

ניהול sessions הוא החלק השני של המשוואה. אל תשתמשו באותו context של דפדפן ליותר מדי בקשות. כל session צריך להיראות כמו משתמש נפרד. זה אומר IP שונה, cookies נקיים, ו-fingerprint מעט שונה. תכנון נכון יאפשר לכם להריץ עשרות sessions במקביל, מה שמוריד דרמטית את זמן הריצה הכולל עבור איסוף קטלוג שופרסל מלא.

משחק הפרוקסים וה-Fingerprints: איך להישאר מתחת לרדאר

בואו נהיה ברורים: אם אתם מנסים לבצע scraping לשופרסל מ-IP של שרת בענן (AWS, GCP, Azure), אתם תיחסמו. כנראה תוך פחות מ-100 בקשות. טווחי ה-IP האלה מסומנים ומוכרים. הפתרון היחיד שעובד בקנה מידה הוא שימוש ברשת פרוקסים איכותית. ולא סתם פרוקסי, אלא פרוקסי residencial.

ההבדל הוא קריטי. פרוקסי דאטה-סנטר הוא קל לזיהוי. פרוקסי residencial מנתב את התעבורה שלכם דרך מכשירים אמיתיים של משתמשי קצה, מה שגורם לבקשות שלכם להיראות כאילו הן מגיעות מבתים רגילים. זה מקשה משמעותית על מערכות ההגנה להבדיל בין ה-scraper שלכם לבין תעבורה לגיטימית. המטרה היא לא רק להחליף IP, אלא להתאים את ה-IP למיקום הגאוגרפי הרלוונטי (ישראל, במקרה הזה) ולבצע רוטציה חכמה. רוטציה אחרי כל בקשה היא טעות; היא נראית חשודה. רוטציה כל כמה דקות או פר session היא גישה טובה יותר.

במקביל, חייבים לטפל ב-rate limiting. אל תנסו "להפציץ" את השרת. scraper טוב הוא scraper סבלני. התחילו עם קצב נמוך, נגיד בקשה כל 5-10 שניות, ונטרו את אחוזי ההצלחה. אם אתם מתחילים לקבל יותר מדי שגיאות 429 או CAPTCHAs, זה סימן להאט. מערכת טובה צריכה לשאוף ל-98%-99% הצלחה. כל דבר מתחת ל-95% אומר שמשהו בסיסי בסטאפ שלכם שבור. אם אתם נתקלים בחסימות תכופות, קראו על טיפול בשגיאות 429 לפני שאתם ממשיכים.

תרחיש כישלון קלאסי: מלכודת בחירת הסניף והמלאי

הנה טעות שראיתי אצל רבים שמנסים לעשות scraping לאתרי סופרמרקטים: הם מפתחים את כל הלוגיקה, והכל עובד נהדר על המחשב שלהם. אבל כשהם מריצים את זה על שרת, הם מקבלים נתונים חלקיים, מחירים לא נכונים, או הודעות "המוצר אינו זמין". הבעיה? הם נפלו במלכודת בחירת הסניף.

אתרים כמו שופרסל מתאימים את המידע המוצג – בעיקר מלאי לפי מוצר וזמינות – בהתבסס על הסניף או כתובת המשלוח שהמשתמש בחר. הנתונים לא אחידים לכל הארץ. אם לא תטפלו בזה אקטיבית, ה-scraper שלכם יקבל את נתוני ברירת המחדל, שלרוב אינם מייצגים. זה קריטי במיוחד עבור מעקב מלאי/זמינות שופרסל, שם המטרה היא לקבל תמונה מדויקת פר סניף.

הפתרון דורש עבודה נוספת. ראשית, צריך למפות את כל הסניפים הזמינים. לרוב ניתן למצוא אותם בקריאת API ייעודית או בדף איתור סניפים. שנית, הלוגיקה של ה-scraper חייבת לבצע איטרציה: עבור כל סניף שמעניין אתכם, צריך להתחיל session חדש, לנווט לאתר, להגדיר את הסניף הרלוונטי (בדרך כלל דרך לחיצה על כפתור והגדרת cookie או ערך ב-localStorage), ורק אז להתחיל לאסוף את נתוני המוצרים. זה מאט את התהליך, אבל זה ההבדל בין דאטה חסר ערך לדאטה מדויק ואמין שאפשר לקבל עליו החלטות עסקיות. זו דוגמה קלאסית למורכבות הנסתרת בפרויקטים של מודיעין מתחרים שופרסל.

מתי לא להשתמש בדפדפן מלא: המקרה של ה-API הציבורי (הנסתר)

אחרי כל מה שאמרתי על חשיבות השימוש בדפדפן מלא, יש יוצא מן הכלל. לפעמים, אם יש לכם מזל, תוכלו למצוא endpoints של API שהם פחות מאובטחים ואינם דורשים session מורכב. זה לא ה-API הפנימי של האפליקציה, אלא למשל API שנועד להזין את מפת האתר (sitemap.xml) או אפליקציית מובייל ישנה. זה דורש עבודת בילוש.

פתחו את כלי המפתחים בדפדפן, סננו את תעבורת הרשת (XHR/Fetch) וחפשו קריאות שנראות פשוטות יחסית. חפשו endpoints שמחזירים JSON או XML עם רשימות מוצרים או קטגוריות. לפעמים, אפשר לשחזר את הקריאות האלה עם סקריפט פשוט המבוסס requests, אולי עם header בודד של Authorization או x-api-key שניתן לחלץ מהקוד. אם מצאתם נתיב כזה, הרווחתם. קריאות API ישירות מהירות בסדר גודל יותר מרינדור דף שלם ב-Playwright. Latency יכול לרדת מ-5-10 שניות לדף לפחות מ-500 מילישניות לבקשה.

אבל כאן האזהרה: הגישה הזו שבירה יותר. היא תלויה ב-endpoint ספציפי שיכול להשתנות או להיעלם ללא הודעה מוקדמת. זו לא אסטרטגיה טובה אם אתם צריכים יציבות של 99.9%. היא מתאימה יותר לאיסוף נתונים חד-פעמי או לפרויקטים שבהם המהירות היא הגורם החשוב ביותר, ואתם מוכנים להתמודד עם תחזוקה גבוהה יותר. לרוב הפרויקטים המסחריים, כמו יצירת API / קובץ נתונים שופרסל יומי, גישת הדפדפן המלא נשארת האופציה הבטוחה והיציבה יותר לטווח הארוך, גם אם היא דורשת יותר משאבים.

נקודות מרכזיות

עבור שופרסל, השתמשו ב-Playwright עם stealth. ספריות HTTP פשוטות לא יפעלו.
פרוקסי residencial איכותי הוא חובה. IPs של דאטה-סנטר ייחסמו באופן מיידי.
טפלו במנגנון בחירת הסניפים כדי לקבל נתוני מלאי ומחירים מדויקים.
אל תבצעו בקשות בקצב מהיר מדי; שאפו לאחוז הצלחה של 98% ומעלה.
חיפוש API פנימי הוא אופציה מהירה אך שבירה; גישת הדפדפן יציבה יותר.

שאלות נפוצות

איך אני יכול לקבל נתוני מלאי וזמינות בזמן אמת מאתר שופרסל בלי API רשמי?▾

כדי לעקוב אחר מלאי וזמינות בשופרסל, יש לנטר את קריאות ה-XHR הפנימיות שהדפדפן מבצע בעת בחירת סניף או הוספה לסל. קריאות אלו, לרוב ל-endpoints כמו /api/v1/stock, מחזירות JSON נקי עם נתוני זמינות מדויקים. שיטה זו יעילה ב-95% יותר מ-parsing של HTML, שכן הנתונים ב-HTML לעיתים קרובות נמצאים ב-cache ולא משקפים את המלאי העדכני. השתמש בכלי כמו Puppeteer כדי ליירט את תעבורת הרשת ולבודד את הבקשות הרלוונטיות, במקום להסתמך רק על סלקטורים ב-DOM.

מהי הדרך היעילה ביותר לבצע ניטור מחירים יומי בשופרסל עבור 10,000 מוצרים?▾

הדרך היעילה ביותר לניטור מחירים יומי בשופרסל היא לבנות scraper ממוקד שקורא ישירות את ה-JSON המוטמע בדפי המוצר, ולא מנתח את ה-HTML. חפש תג <script type="application/ld+json"> המכיל את כל פרטי המוצר, כולל מחיר, מבצעים ומזהה ייחודי (SKU). גישה זו מקטינה את זמן העיבוד ב-70% ומפחיתה את הסיכוי לשגיאות עקב שינויי עיצוב. עבור 10,000 מוצרים, פצל את הבקשות על פני 3-4 שעות עם IP rotation כדי למנוע חסימות.

כיצד אוכל לאסוף את כל קטלוג המוצרים של שופרסל בצורה מובנית, כולל תמונות וקטגוריות?▾

איסוף קטלוג מלא משופרסל דורש גישה דו-שלבית: ראשית, בצע זחילה (crawling) על מפת האתר (sitemap.xml) או על תפריטי הניווט כדי לאסוף את כל כתובות ה-URL של הקטגוריות. שנית, עבור כל קטגוריה, השתמש בגלילה אינסופית (infinite scroll) מבוססת JavaScript כדי לחשוף את כל המוצרים ולקצור את הקישורים שלהם. רק לאחר מכן, בקר בכל דף מוצר בנפרד כדי לחלץ את הנתונים המלאים. אוטומציה של תהליך זה עם כלי כמו Playwright מבטיחה איסוף של 100% מהמוצרים.

אילו headers ספציפיים ו-cookies חיוניים כדי להימנע מחסימה מיידית ב-shufersal.co.il?▾

כדי להימנע מחסימה מיידית, חובה לחקות headers של דפדפן אמיתי, ובמיוחד שלושה מהם: User-Agent עדכני של Chrome, Accept-Language שמוגדר ל-he-IL,he;q=0.9, ו-Referer תקין שמצביע על דף קטגוריה באתר. בנוסף, חשוב לנהל cookies של סשן, במיוחד את אלו שנקבעים לאחר בחירת סניף משלוח. שליחת בקשות ללא ה-cookie ששומר את מזהה הסניף (למשל, storeId) תגרום לאתר להחזיר נתונים לא רלוונטיים או דפי שגיאה ב-80% מהמקרים.

מהן 3 הטעויות הנפוצות ביותר שגורמות ל-scrapers להיכשל ספציפית מול שופרסל?▾

הטעות הראשונה היא התעלמות מהתלות בסניף; נתונים כמו מחיר ומלאי משתנים פר סניף ויש להגדיר אותו תחילה. הטעות השנייה היא ביצוע בקשות מהירות מדי מ-IP בודד של שרת (datacenter IP), מה שמוביל לחסימה כמעט ודאית על ידי מערכות ההגנה. השלישית היא הסתמכות על סלקטורים של CSS בלבד, בעוד שחלק גדול מהמידע הדינמי נטען אסינכרונית וזמין רק דרך ניטור בקשות רשת (XHR) או עיבוד JavaScript מלא.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור