Scraping אושר עד: ארכיטקטורה מעשית לנתוני סופרמרקט

אם אתם חושבים שפרויקט scraping אושר עד הוא עוד משימה שאפשר לפתור עם `requests` וכמה שורות BeautifulSoup, אתם צפויים לכאב ראש. המציאות של אתרי סופרמרקט מודרניים היא עולם של JavaScript דינמי, תמחור מבוסס סניף, ומנגנוני הגנה שנועדו לסנן בדיוק אתכם. בנינו ודיבגנו מערכות כאלה במשך שנים, וזה מה שלמדנו על איסוף נתונים אמין ויציב מרשתות קמעונאות כמו אושר עד. זה לא מדריך למתחילים. זה playbook למהנדסים שצריכים שהדאטה יגיע. כל יום.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

ארכיטקטורה ראשונית: למה Headless Browser הוא ברירת המחדל

הצעד הראשון בכל פרויקט הוא להבין את המטרה. אתר כמו אושר עד הוא לא בלוג סטטי. הוא יישום ווב דינמי (SPA) שמייצר את התוכן בצד הלקוח. פתיחת ה-DevTools בכרטיסיית הרשת מגלה את האמת מהר מאוד: התוכן, ובמיוחד הנתונים החשובים כמו מחירים וזמינות, לא מגיעים ב-HTML הראשוני. הם נטענים דרך קריאות API אסינכרוניות שמופעלות על ידי סקריפטים. המשמעות היא שכל ניסיון לגשת ישירות ל-URL של מוצר עם httpx יחזיר מעטפת HTML ריקה מתוכן.

לכן, נקודת הפתיחה שלנו היא לא שאלה של אם להשתמש ב-headless browser, אלא איך. תפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית — מהירות, יציבות, וה-API שלו פשוט נקי יותר. הארכיטקטורה הנכונה מתחילה עם Playwright שמנוהל על ידי תזמור (orchestration) שיודע לפזר עבודה על פני מספר workers. המטרה הראשונית היא לאסוף את כל קטלוג המוצרים, שמכיל להערכתי בין 25,000 ל-35,000 מק"טים ייחודיים. זהו הבסיס לכל פעולה בהמשך, החל מאיסוף קטלוג ועד לניטור מחירים יומי.

אתגר הסניפים והמלאי: פיצוח הלוגיקה הגיאוגרפית

אחד המכשולים הגדולים ביותר בסקרייפינג של רשתות סופרמרקטים הוא נתונים מבוססי מיקום. המחיר או המבצע שאתה רואה בתל אביב לא בהכרח זהה לזה שבאילת. אושר עד, כמו רוב הרשתות, מתאים את עצמו לסניף הנבחר. זה לא פיצ'ר, זו דרישת ליבה של המודל העסקי שלהם, וזה סיוט ל-scraper.

הפתרון הוא לא לנסות "לנחש" את ה-API. צריך לבצע הנדסה לאחור של התהליך שהדפדפן עובר. בדרך כלל, בחירת סניף מאחסנת מזהה כלשהו (store ID) ב-localStorage, ב-sessionStorage או בקוקי. ה-scraper חייב לחקות את ההתנהגות הזו. לפני כל בקשה לנתוני מוצר, צריך לוודא שה-context של הדפדפן מוגדר לסניף הנכון. זה אומר שצריך לנהל session נפרד לכל סניף, או לאתחל את ה-state לפני כל קבוצת בקשות. פרויקט מעקב מלאי/זמינות אושר עד לא יכול להתקיים בלי היכולת הזו. צריך למפות את כל מזהי הסניפים (בדרך כלל יש קריאת API ייעודית שמחזירה אותם) ולבצע איטרציה עליהם. ניסיון לאסוף נתונים בלי context של סניף יספק במקרה הטוב נתוני ברירת מחדל, ובמקרה הרע פשוט יחזיר שגיאות.

מערכת ניטור מחירים יציבה: קצב, פרוקסיז, וטיפול בשגיאות

כשיש לנו את רשימת המוצרים והבנה של לוגיקת הסניפים, אפשר להתחיל לבנות את מערך ה-ניטור מחירים אושר עד. כאן נכנסים האתגרים של סקייל. אי אפשר לשלוח 30,000 בקשות מכרטיס רשת בודד ולצפות שזה יעבוד. מערכות הגנה מזהות דפוסים כאלה תוך דקות. המפתח הוא proxy rotation חכם. אני לא מדבר על רשימה של 10 פרוקסיז חינמיים. אני מדבר על מאגר גדול של פרוקסיז מסוג residential שמאפשרים פיזור תעבורה רחב.

מבחינת קצב, כלל אצבע טוב הוא לא לעבור 30-40 בקשות לדקה מאותה כתובת IP. עם מאגר של 100 כתובות IP, אפשר להגיע לקצב מכובד בלי להפעיל אזעקות. המטרה היא להגיע לאחוזי הצלחה של 98%-99% באופן עקבי. כל מה שמתחת ל-95% מצביע על בעיה בניהול הפרוקסיז או בזיהוי טביעת האצבע של הדפדפן. בנוסף, חובה לממש לוגיקת retry עם exponential backoff. כשנתקלים בשגיאת 429 (Too Many Requests) או חסימת CAPTCHA, הדרך הנכונה היא לא לנסות שוב מיד, אלא לסמן את ה-IP כ"שרוף" זמנית, להחליף אותו, ולהכניס את הבקשה חזרה לתור עם השהייה. טיפול נכון בשגיאות 429 הוא מה שמבדיל בין scraper שמקרטע לבין מערכת דאטה אמינה.

איפה רוב ה-Scrapers נכשלים: כשלא מבינים את ה-JavaScript

זה התרחיש שראיתי קורה שוב ושוב: מהנדס מזהה קריאת API שמחזירה JSON עם נתוני מוצר. הוא חושב שמצא את מכרה הזהב. הוא בונה scraper מהיר ויעיל עם httpx שמכה ישירות ב-endpoint הזה, עוקף את הצורך בדפדפן כבד. זה עובד. במשך שלושה ימים. ביום הרביעי, כל הבקשות מתחילות להחזיר 403 Forbidden. מה קרה?

מה שקרה הוא שהאתר משתמש בטוקנים זמניים או חתימות שנוצרות על ידי JavaScript בצד הלקוח. סקריפט שרץ בדפדפן מייצר header מיוחד (למשל, x-csrf-token או חתימה מורכבת יותר) שמצורף לכל קריאת API. ה-scraper הפשוט לא מריץ את ה-JS, ולכן לא מייצר את הטוקן המעודכן, והשרת דוחה אותו. זהו failure mode קלאסי באתרים מודרניים. הניסיון לעשות הנדסה הפוכה לסקריפטים האלה הוא בדרך כלל בזבוז זמן עצום. הם עוברים שינויים, עוברים מיניפיקציה ואובפוסקציה, והתחזוקה של זה הופכת לסיוט. זו הסיבה שגישת ה-headless browser, למרות שהיא איטית יותר פר בקשה, היא יציבה ואמינה יותר לאורך זמן. היא פשוט מריצה את כל הלוגיקה שהאתר מצפה שתרוץ. אם אתם בכל זאת מתעקשים על גישה ישירה, תצטרכו להשקיע מאמץ משמעותי בהבנת טכניקות עקיפה מתקדמות.

השלב הסופי: מנתונים גולמיים ל-API שמיש

איסוף הדאטה הוא רק חצי מהעבודה. הנתונים שחולצו מאושר עד הם גולמיים, מבולגנים ולעיתים לא עקביים. השלב הבא, והחשוב לא פחות, הוא לבנות צינור עיבוד נתונים (data pipeline) שהופך את הכאוס הזה לנכס. זה מכסה את מקרי השימוש של מודיעין מתחרים אושר עד ו-API / קובץ נתונים אושר עד.

הצינור הזה צריך לבצע מספר פעולות קריטיות: ניקוי (למשל, הסרת תגיות HTML משמות מוצרים), נורמליזציה (המרת מחירים למבנה מספרי אחיד, פירוק יחידות מידה), והעשרה (שיוך מוצרים לקטגוריות פנימיות). בסופו של דבר, הלקוח הפנימי או החיצוני לא רוצה לקבל קובץ JSON של 3GB כל בוקר. הוא רוצה גישה פשוטה למידע. התוצר הסופי צריך להיות API נקי או קובץ CSV/Parquet מסודר שעולה למאגר נתונים כמו S3 או BigQuery. למשל, לספק endpoint שמקבל מק"ט ומחזיר את היסטוריית המחיר שלו בכל הסניפים בשבוע האחרון. זהו הערך האמיתי. ה-scraping הוא רק האמצעי, לא המטרה. בניית ה-pipeline הזה דורשת חשיבה על מבני נתונים, בסיסי נתונים, ואיך לתמוך בשאילתות שהמשתמשים באמת צריכים.

נקודות מרכזיות

עבור אתר דינמי כמו אושר עד, התחילו עם Playwright. אל תבזבזו זמן על `requests`.
לוגיקת סניפים היא מכשול מרכזי; בצעו הנדסה הפוכה לאופן שבו הדפדפן מנהל את ה-session.
השתמשו במאגר פרוקסיז איכותי ונטרו אחוזי הצלחה. מתחת ל-95% זה סימן לבעיה.
איסוף הנתונים הוא רק השלב הראשון. הערך האמיתי מגיע מצינור עיבוד נתונים (pipeline) יעיל.
אל תנסו לעשות הנדסה הפוכה לסקריפטים מורכבים בצד הלקוח; זה קרב אבוד בטווח הארוך.

שאלות נפוצות

איך אני יכול לקבל נתוני מחיר וזמינות מלאי מאתר אושר עד עבור סניף ספציפי?▾

כדי לקבל נתונים מסניף ספציפי של אושר עד, יש לשלוח בקשה ראשונית עם store_id מתאים ב-headers או ב-payload, לפני טעינת קטגוריות המוצרים. האתר משתמש ב-API פנימי המצריך זיהוי סניף כדי להציג מחירים ומלאי נכונים. ניתן לאתר את ה-ID של כל אחד מ-20+ הסניפים על ידי ניתוח תעבורת הרשת בדפדפן בעת בחירת סניף באופן ידני. שליחת בקשות ללא פרמטר זה תגרור קבלת נתוני ברירת מחדל או שגיאה.

מהי הדרך היעילה ביותר לבצע scraping לקטלוג המוצרים המלא של osherad.co.il?▾

הדרך היעילה ביותר לאיסוף קטלוג מלא מאתר אושר עד היא באמצעות זיהוי נקודות הקצה (endpoints) של ה-API הפנימי שלהם. במקום לעבד HTML, נתח את בקשות ה-XHR/Fetch שהדפדפן מבצע בעת ניווט בין קטגוריות. לרוב, תמצא API שמחזיר נתוני מוצרים בפורמט JSON, הכולל שם, מק"ט, תמונה ומחיר. גישה זו מהירה ב-80% יותר מ-scraping מבוסס דפדפן מלא ומפחיתה משמעותית את הסיכוי לחסימה.

כיצד ניתן לעקוב אחר שינויי מחירים יומיים ב-אושר עד באופן אוטומטי?▾

ניטור מחירים יומי ב-אושר עד דורש scraper מתוזמן שרץ כל 24 שעות ומאחסן את הנתונים במסד נתונים. השלב הקריטי הוא שמירת היסטוריית מחירים עבור כל מק"ט (SKU) בטבלה נפרדת. השתמש בכלי כמו Playwright או Puppeteer כדי לטעון את הדפים, חלץ את המחיר והמק"ט, והשווה אותו למחיר האחרון שנשמר. אם קיים הבדל של מעל 1%, שלח התראה או עדכן את הרשומה. מומלץ להריץ את התהליך בשעות הלילה כדי להימנע מעומס.

מהם האתגרים העיקריים בבניית API פרטי על בסיס נתוני אתר אושר עד?▾

האתגר המרכזי בבניית API על בסיס נתוני אושר עד הוא התמודדות עם מבנה נתונים דינמי ותלות במיקום. מבנה ה-API הפנימי של האתר יכול להשתנות ללא הודעה מוקדמת, מה שישבור את ה-scraper שלך. בנוסף, המחירים והמלאי משתנים בין סניפים, כך שה-API שלך חייב לדעת לטפל בפרמטר של סניף בכל קריאה. אתגר נוסף הוא ניהול קצב הבקשות כדי להימנע מחסימה, מה שמצריך תור עבודות (job queue) ומערכת פרוקסי חכמה.

איך מבצעים scraping לנתוני מוצרים המתעדכנים דינמית באמצעות JavaScript באתר?▾

כדי לבצע scraping לנתונים דינמיים הנטענים על ידי JavaScript, חובה להשתמש בספריית אוטומציה לדפדפן (headless browser) כמו Playwright או Selenium. כלים אלו מריצים מופע מלא של דפדפן שיודע להפעיל JavaScript, בניגוד לספריות כמו Requests או Scrapy שלא עושות זאת. לאחר טעינת הדף, השתמש בפקודת waitForSelector כדי להמתין עד שהאלמנט הספציפי (למשל, div.price) יופיע ב-DOM, ורק אז לחלץ ממנו את המידע.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור