Scraping מחסני השוק: ארכיטקטורה וטקטיקות עומק

אם ניסיתם פעם scraping למחסני השוק ונתקעתם, אתם לא לבד. זה לא אתר שנופל עם סקריפט `requests` פשוט. אנחנו מדברים על קטלוג של עשרות אלפי פריטים שמתעדכן ללא הרף, API calls שדורשים סשנים מסודרים, ומערכות הגנה שלא אוהבות תנועה רובוטית. המאמר הזה לא ילמד אתכם את הבסיס. הוא מיועד למי שכבר יודע לכתוב scraper ורוצה להבין את הארכיטקטורה והטקטיקות שנדרשות כדי לחלץ נתונים מאתר סופרמרקט מודרני באופן יציב ובהיקף גדול.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה אתרי סופרמרקט הם אתגר שונה לגמרי

במבט ראשון, אתר כמו מחסני השוק נראה כמו עוד אתר e-commerce. אבל השטן נמצא בפרטים הקטנים, והפרטים האלה הם שמפילים 90% מה-scrapers החובבניים. אנחנו לא מדברים על קטלוג סטטי. ניטור מחירים במחסני השוק הוא משימה יומיומית, לפעמים אפילו שעתית. מבצעים מתחילים ונגמרים, מלאי משתנה בין סניפים, ומחירים יכולים להיות תלויי מיקום או מועדון לקוחות. זה אומר שאי אפשר פשוט לסרוק את כל כתובות ה-URL של המוצרים ולקוות לטוב.

האתגר הראשון הוא קנה המידה והדינמיות. קטלוג ממוצע יכול להכיל בין 20,000 ל-40,000 מוצרים. סריקה מלאה שלו דורשת עשרות אלפי בקשות, וצריך לעשות אותה מספיק מהר כדי שהנתונים יישארו רלוונטיים. אם סריקה מלאה לוקחת 12 שעות, המבצעים שאספתם בתחילתה כבר לא יהיו תקפים בסופה. צריך לחשוב במונחים של ארכיטקטורה שיכולה לטפל ב-50-100 בקשות במקביל, תוך ניהול קפדני של proxies ו-sessions, כדי להוריד את זמן הסריקה לשעה-שעתיים. חילוץ שדות כמו מחירים ומבצעים חייב להיות מדויק, כי טעות של אגורות בודדות יכולה להפוך את כל הדאטה לחסר משמעות.

הארכיטקטורה הנכונה: למה Playwright מנצח את requests

תפסיקו להשתמש ב-requests או HTTPX כברירת מחדל לאתרים כאלה. אני יודע, זה מהיר וקל, אבל זה פשוט לא עובד מול חזית JavaScript מודרנית. אתרים כמו מחסני השוק לא שולחים את כל המידע ב-HTML הראשוני. המחיר הסופי, זמינות במלאי, או מבצעים מיוחדים נטענים לעיתים קרובות דרך קריאות API אסינכרוניות לאחר שהדף נטען. סקריפט פשוט יקבל HTML חלקי, בלי המידע הקריטי.

כאן Playwright נכנס לתמונה. הוא מאפשר לנו לעשות אוטומציה לדפדפן אמיתי, מה שאומר שאנחנו מקבלים את האתר בדיוק כפי שמשתמש רואה אותו, כולל כל התוכן שנטען דינמית. זה פותר את בעיית ה-JavaScript. אבל היתרון האמיתי הוא היכולת ליירט בקשות רשת. במקום לנתח HTML מסורבל, אפשר להאזין לתגובות ה-API שהדפדפן מבצע, ולחלץ מהן JSON נקי. זה מהיר יותר, יציב יותר, ופחות שביר לשינויים ב-CSS. למשל, במקום לחפש div עם קלאס מסוים למחיר, אנחנו תופסים את ה-/api/v2/products/{id} endpoint ומקבלים את כל נתוני המוצר ישירות. זה משנה את כללי המשחק. למי שרוצה להתעמק, יש מדריך Playwright stealth מעולה שמראה איך להימנע מזיהוי.

ניהול פרוקסי חכם הוא חובה, לא המלצה

בואו נהיה ברורים: אי אפשר לבצע איסוף קטלוג של מחסני השוק בהיקף גדול מכתובת IP אחת. תיחסמו. השאלה היא לא אם, אלא מתי. הגישה הנאיבית היא פשוט לעשות rotate בין רשימת פרוקסים. זה לא מספיק. אתרים מודרניים לא מסתכלים רק על ה-IP, אלא על ההתנהגות הכוללת של הסשן. אם אותו משתמש (עם אותו cookie) קופץ בין IP מארצות הברית, גרמניה וישראל בתוך 30 שניות, זה דגל אדום ענק.

הגישה הנכונה היא 'sticky sessions'. כלומר, להצמיד session שלם (כולל cookies ו-headers) ל-IP אחד לפרק זמן הגיוני, למשל 10-15 דקות. זה מדמה התנהגות אנושית. בנוסף, חובה להשתמש בפרוקסים איכותיים, רצוי residential ישראליים. פרוקסי מ-data center ייחסם כמעט מיידית. המטרה היא להיראות כמו מאות משתמשים אמיתיים שונים, לא כמו רובוט אחד שמחליף מסכות. ניהול נכון של פרוטוקול זה יכול להביא את אחוזי ההצלחה מ-60% (עם חסימות תכופות) ליותר מ-98%. זה ההבדל בין פרויקט שנכשל לפרויקט שמספק נתונים אמינים. אם אתם לא בטוחים מאיפה להתחיל, כדאי לקרוא על איך לבחור פרוקסי residential כדי להבין את הניואנסים.

תרחיש הכשל הנפוץ: התעלמות מהקשר הסניף

ראיתי את זה קורה יותר מדי פעמים. מהנדס בונה scraper מושלם למחסני השוק, הוא עובד נהדר על המחשב שלו, אבל ברגע שהוא עולה לפרודקשן הנתונים שגויים. מעקב מלאי/זמינות במחסני השוק הוא דוגמה קלאסית. למה? כי הוא שכח שהאתר פועל בהקשר של סניף ספציפי. המחירים והמלאי שאתה רואה תלויים בסניף שבחרת (או שהאתר בחר עבורך על סמך מיקום גיאוגרפי).

ה-scraper שלו, שרץ על שרת בענן ללא מיקום מוגדר, קיבל נתונים מסניף ברירת המחדל, או גרוע מכך, קיבל הודעת 'בחר סניף' ולא חילץ כלום. הפתרון דורש לדמות את תהליך בחירת הסניף בתחילת כל סשן. זה אומר לבצע את קריאת ה-API הראשונית שבוחרת סניף ספציפי, לשמור את ה-cookie המתאים, ורק אז להתחיל לסרוק את המוצרים. אם המטרה היא לאסוף נתונים מכל הסניפים, צריך לבנות לוגיקה שמריצה סריקות נפרדות לכל סניף, כל אחת עם הסשן וה-cookie שלה. התעלמות מההקשר הזה היא הדרך המהירה ביותר לקבל דאטה לא רלוונטי.

מאיסוף נתונים למודיעין: בניית API וייצוא

איסוף הנתונים הוא רק חצי מהעבודה. דאטה גולמי שיושב ב-database הוא חסר ערך עד שהוא הופך לזמין ושימושי. עבור לקוחות וצוותים פנימיים, המטרה הסופית היא בדרך כלל API או קובץ נתונים של מחסני השוק שניתן לצרוך בקלות. זה יכול להיות ייצוא CSV יומי עם כל שינויי המחירים, או API endpoint שמחזיר את המחיר והזמינות הנוכחיים של מוצר לפי מק"ט.

בניית ה-API הזה דורשת מחשבה. צריך לתכנן את ה-schema של הנתונים, להבטיח שהשדות מנורמלים (למשל, יחידות מידה אחידות), ולטפל בגרסאות של מוצרים. חשוב גם לבנות מנגנוני ניטור שידווחו על איכות הנתונים. אם אחוז המוצרים ללא מחיר עולה פתאום מעל 2%, משהו כנראה נשבר ב-scraper וצריך לחקור. זה הופך את הפרויקט ממשימת scraping חד-פעמית למערכת מודיעין מתחרים אמינה. בסופו של דבר, המטרה היא לספק נתונים שאפשר לסמוך עליהם לקבלת החלטות, וזה דורש הנדסה לא פחות מורכבת מה-scraper עצמו. כשאתם נתקלים בחסימות, כדאי להבין איך לטפל בשגיאות 429 בצורה חכמה.

נקודות מרכזיות

ב-scraping למחסני השוק, השתמשו ב-Playwright כדי ליירט קריאות API במקום לנתח HTML.
ניהול פרוקסי עם sticky sessions הוא קריטי; פרוקסים רגילים מ-data centers ייחסמו מיד.
הקפידו לדמות בחירת סניף בתחילת כל סשן כדי לקבל נתוני מחיר ומלאי מדויקים.
אל תתמקדו רק באיסוף; תכננו מראש איך תהפכו את הדאטה הגולמי ל-API או דוח שימושי.
צפו לקצב שינויים גבוה בקטלוג; ארכיטקטורה מהירה היא חובה כדי שהנתונים יישארו רלוונטיים.

שאלות נפוצות

איך אני יכול לבצע ניטור מחירים יומי במחסני השוק בלי לקבל נתונים שגויים?▾

כדי להבטיח דיוק בניטור מחירים יומי במחסני השוק, יש לטפל ב-State של הסניף (branch context) בכל בקשה. האתר מציג מחירים ומבצעים שונים פר סניף, וה-scraper חייב לשלוח את ה-cookie או ה-header המתאים כדי לקבל נתונים עקביים. ללא קונטקסט סניף מוגדר, ה-API עלול להחזיר מחירים כלליים או מבצעים לא רלוונטיים, מה שמוביל לשגיאות של עד 15% במחיר הסופי. מומלץ להשתמש בסשן Playwright נפרד לכל סניף או לנהל את ה-cookies בקפידה בין בקשות.

מהי הדרך היעילה ביותר לאיסוף קטלוג מלא של מוצרים מ-mahsanei-hashuk.co.il?▾

הדרך היעילה ביותר לאיסוף קטלוג מלא היא באמצעות זחילה על עץ הקטגוריות דרך ה-API הפנימי של האתר, ולא על ידי ניתוח HTML. ראשית, יש לזהות את ה-endpoint שמחזיר את מבנה הקטגוריות, ולאחר מכן לבצע קריאות רקורסיביות לכל תת-קטגוריה כדי לקבל את רשימות המוצרים. גישה זו מהירה ב-70% לפחות מ-scraping מבוסס דפדפן ומפחיתה משמעותית את הסיכוי לחסימה. השתמשו בכלי כמו mitmproxy כדי למפות את קריאות ה-API של האפליקציה או האתר.

כיצד ניתן לעקוב אחר זמינות ומלאי של מוצרים ספציפיים במחסני השוק בזמן אמת?▾

מעקב מלאי בזמן אמת דורש התמקדות ב-API call שמתבצעת בעת הוספת מוצר לסל הקניות באתר. לרוב, התגובה מהשרת לקריאה זו מכילה מידע על המלאי הנוכחי בסניף הנבחר, כמו כמות מוגבלת או חוסר במלאי. במקום לגרד את כל דף המוצר, בודדו את הבקשה הזו (לרוב מסוג POST) והריצו אותה כל 5-10 דקות עבור המוצרים הקריטיים. שיטה זו חסכונית במשאבים ומספקת את הנתונים המדויקים ביותר על זמינות רגעית.

מהן 3 הטעויות הנפוצות שגורמות לחסימה מיידית בעת scraping של אתרי סופרמרקט ישראליים?▾

הטעות הראשונה היא שימוש ב-User-Agent גנרי של ספריית requests, מה שמוביל לזיהוי מיידי. השנייה היא שליחת בקשות בקצב קבוע ומהיר מדי, למשל בדיוק כל 500ms, במקום להשתמש בהשהיות אקראיות בין 1.2 ל-3.5 שניות. הטעות השלישית והקריטית ביותר היא התעלמות מ-headers חיוניים כמו 'x-requested-with' או טוקנים של CSRF שהאתר מצפה לקבל. שימוש ב-Playwright במקום ב-requests פותר כ-80% מהבעיות הללו באופן אוטומטי על ידי הדמיית דפדפן אמיתי.

איך אפשר ליצור קובץ נתונים יומי (CSV/JSON) מכלל המוצרים של מחסני השוק?▾

כדי ליצור קובץ נתונים יומי, יש לבנות תהליך ETL (Extract, Transform, Load) בן שלושה שלבים. שלב ה-Extract יזחל על ה-API של הקטגוריות ויאסוף את כל ה-JSONs הגולמיים של המוצרים. שלב ה-Transform ינרמל את הנתונים, ינקה שדות כמו מחיר (הסרת '₪'), ויבחר רק את העמודות הרצויות (שם, מק"ט, מחיר, קטגוריה). לבסוף, שלב ה-Load ישמור את המבנה הנקי לקובץ CSV או JSON עם חותמת תאריך. מומלץ להשתמש בספריית Pandas ב-Python עבור שלבי ה-Transform וה-Load.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור