Scraping Wolt Israel: ארכיטקטורה מעבר ל-API הפנימי

אם ניסיתם פעם לעשות scraping ב-Wolt Israel עם ספריית HTTP פשוטה, אתם כבר יודעים שזה לא עובד. האתר הוא Single-Page Application מורכב שמסתמך כמעט לחלוטין על קריאות API פנימיות שמוגנות היטב. המשימה האמיתית היא לא רק לחלץ נתונים, אלא לבנות מערכת שיודעת להתמודד עם התוכן הגיאוגרפי הדינמי, לנהל state של משתמש (גם אם אנונימי), ולעשות זאת בקנה מידה בלי להיחסם אחרי 100 בקשות. זהו לא אתגר למתחילים, אלא בעיה הנדסית שדורשת גישה מתודית.

Use Cases · 5

ניטור מחירים

High

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

High

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

High

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

High

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

High

ייצוא CSV/API יומי או שבועי

למה requests.get הוא בזבוז זמן מוחלט

בואו נשים את זה על השולחן: אם הגישה הראשונית שלכם ל-Wolt Israel היא requests.get, אתם בדרך הלא נכונה. הורדת ה-HTML הראשוני מהשרת תחזיר לכם מעטפת ריקה כמעט לחלוטין, שלד של אפליקציית React או Vue עם תג <div id="root"> ותו לא. כל התוכן — מסעדות, תפריטים, מחירים, זמינות — נטען באופן דינמי דרך עשרות קריאות XHR/Fetch לרשת ה-API הפנימית שלהם. אפשר, תיאורטית, לנסות לעשות reverse engineering לקריאות האלה. ביליתי לילות בדיבאגר של Chrome בניסיון למפות את ה-endpoints, להבין את ה-headers הנדרשים, ולפענח את ה-tokens. הבעיה היא שהמבנה הזה שביר בכוונה. ה-API משתנה, מתווספים פרמטרים חדשים, וה-authentication logic יכול להיות מורכב. כל שינוי קטן בצד הלקוח שלהם ישבור לכם את ה-scraper וישלח אתכם חזרה לשולחן השרטוט. הפתרון היציב יותר, גם אם הוא דורש יותר משאבים, הוא להשתמש בכלי שמריץ דפדפן מלא. תפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית, במיוחד בביצועים וב-API האסינכרוני שלו. הוא מאפשר לנו לעבוד עם האתר כפי שמשתמש אמיתי היה עובד, בלי לנחש את הלוגיקה הפנימית של ה-API.

ארכיטקטורת Scraper לאיסוף קטלוג וניטור מחירים

אז החלטנו על Playwright. איך נראה תהליך עבודה טיפוסי? המטרה הראשונה היא בדרך כלל איסוף קטלוג Wolt Israel מלא. זה מתחיל בניווט לעמוד הראשי, אבל כאן מגיע האתגר הראשון: התוכן תלוי מיקום. כדי לראות את המסעדות הנכונות, צריך להזין כתובת או לתת הרשאות מיקום. הפתרון הוא להשתמש ב-proxies הממוקמים באזורים הגיאוגרפיים הרלוונטיים. זה קריטי. שימוש ב-proxy מפרנקפורט כדי לגשת לתוכן של תל אביב ייתן תוצאות שגויות או חלקיות. ה-flow הנכון הוא: אתחול דפדפן עם proxy ישראלי, ניווט לאתר, הגדרת כתובת ספציפית, ורק אז התחלת הגלישה. לאחר שהגענו לרשימת המסעדות, אנחנו מתמודדים עם infinite scroll. צריך לדמות גלילה של משתמש, להמתין לטעינת אלמנטים חדשים (למשל, באמצעות page.waitForSelector על רכיב חדש ברשימה), ולאסוף את הקישורים. משם, נכנסים לכל מסעדה בנפרד ומחלצים את התפריט. כאן אפשר לחלץ שמות מוצרים/מודעות ומחירים. עבור ניטור מחירים ב-Wolt Israel, התהליך חוזר על עצמו באופן דורי, כאשר בכל ריצה אנחנו משווים את הנתונים החדשים לבסיס הנתונים הקיים ומזהים שינויים. קצב של 10-15 בקשות לדקה פר IP הוא סביר כדי לא לעורר חשד, אבל זה דורש ניהול proxy pool איכותי כדי להגיע להיקפים גדולים.

תרחיש הכשל הנפוץ: חסימות מבוססות התנהגות

באתרים כמו Wolt Israel, חסימות הן לא רק עניין של IP. הן מבוססות התנהגות. ראיתי scrapers נופלים לא כי ה-proxy שלהם נשרף, אלא כי הדפדפן האוטומטי שלהם צרח "אני בוט". תרחיש כשל קלאסי הוא ניווט מהיר מדי. משתמש אנושי לא טוען עמוד מסעדה, מחלץ את כל המידע ב-500 מילישניות, וקופץ מיד למסעדה הבאה, 24/7. המערכות שלהם מזהות את זה. הן עוקבות אחר תנועות עכבר, אירועי גלילה, וקצב האינטראקציה. אם ה-scraper שלכם פשוט מבצע קליקים וניווטים סדרתיים בלי הפסקות אקראיות ובלי לדמות התנהגות אנושית, הוא יקבל CAPTCHA או חסימה מוחלטת. כ-30% מהכישלונות בפרויקטים כאלה נובעים מ-fingerprinting של הדפדפן. כדי להתמודד עם זה, חובה להשתמש בפתרונות stealth. ספריית playwright-extra עם הפלאגין stealth היא נקודת התחלה מצוינת. היא מטפלת בהסתרת מאפיינים של דפדפן אוטומטי כמו navigator.webdriver. בלי זה, אתם פשוט מרימים דגל אדום ענק בכל בקשה. זה לא עניין של אם תיחסמו, אלא מתי. וזה בדרך כלל קורה בשעה 3 לפנות בוקר, כשהדאטה היומי צריך להיות מוכן.

מעקב מלאי ומודיעין מתחרים: מה אפשר ללמוד מהנתונים

מעבר למחירים וקטלוגים, הנתונים מ-Wolt Israel מאפשרים שני מקרי שימוש מתקדמים. הראשון הוא מעקב מלאי/זמינות Wolt Israel. על ידי סריקה תדירה של תפריטים, אפשר לזהות מתי פריטים מסוימים הופכים ל"לא זמינים זמנית". המידע הזה הוא זהב עבור מסעדות מתחרות או ספקים. אם מסעדה פופולרית נתקעת בלי חומר גלם מסוים בכל יום חמישי בערב, זו הזדמנות עסקית. המידע הזה קיים ב-DOM, לרוב כ-class שונה על פריט התפריט או כטקסט מפורש. ה-scraper צריך להיות בנוי לחפש את האינדיקטורים האלה באופן ספציפי. המקרה השני הוא מודיעין מתחרים Wolt Israel. אפשר לעקוב אחרי שינויים בתפריטים, הוספת מנות חדשות, שינויי מחירים אסטרטגיים, והשקת מבצעים. בניית דשבורד שמציג את הפעילות של 10-20 מסעדות מפתח באזור מסוים יכולה לספק תובנות אדירות. האתגר הטכני כאן הוא לא רק האיסוף, אלא גם ה-structuring של הדאטה. צריך לבנות מזהה ייחודי לכל פריט תפריט (למשל, שילוב של שם המסעדה ושם הפריט) כדי שניתן יהיה לעקוב אחריו לאורך זמן. בלי primary key יציב, ניתוח היסטורי הופך לסיוט.

מתי לא כדאי לבנות Scraper כזה בעצמך

אחרי כל מה שאמרתי, חשוב להיות ריאליים. יש מצבים שבהם בניית scraper מורכב ל-Wolt Israel היא פשוט לא ההחלטה הנכונה. אם הצורך שלכם הוא חד-פעמי, למשל, API / קובץ נתונים Wolt Israel שאתם צריכים פעם אחת בלבד, המאמץ ההנדסי הנדרש לבניית מערכת יציבה כנראה לא מצדיק את עצמו. פיתוח, בדיקה ותחזוקה של scraper כזה דורשים עשרות שעות עבודה של מהנדס מנוסה. המורכבות של ניהול proxies גיאוגרפיים, התמודדות עם CAPTCHAs, וטיפול בשינויים תכופים במבנה האתר היא משמעותית. אם אתם צוות קטן או שאין לכם מומחיות ספציפית ב-web scraping, המשאבים שלכם ינוצלו טוב יותר במקומות אחרים. בנוסף, אם אתם צריכים נתונים עם רמת אמינות של 99.9% ו-latency נמוך, מערכת שבניתם בעצמכם תתקשה לעמוד בזה בלי השקעה רצינית בתשתיות וניטור. לפעמים, הפתרון הנכון הוא לא לבנות, אלא למצוא דרך אחרת להשיג את הדאטה. זה לא כישלון, זו החלטה הנדסית נבונה שמכירה ב-trade-offs.

נקודות מרכזיות

עבור Wolt Israel, השתמשו ב-Playwright עם stealth; ספריות HTTP פשוטות לא יעבדו.
ניהול proxies עם מיקום גיאוגרפי מדויק בישראל הוא תנאי הכרחי לקבלת נתונים נכונים.
הימנעו מחסימות התנהגותיות על ידי הדמיית אינטראקציות אנושיות ושימוש ב-delays אקראיים.
האתגר הוא לא רק באיסוף הנתונים, אלא בבניית מזהים ייחודיים למעקב היסטורי אחרי פריטים.
אם הצורך בנתונים הוא חד-פעמי, המורכבות של בניית ותחזוקת scraper כנראה לא משתלמת.

שאלות נפוצות

איך לבצע ניטור מחירים ב-Wolt Israel בלי לקבל נתונים שגויים עקב מיקום גיאוגרפי?▾

כדי להבטיח דיוק בניטור מחירים ב-Wolt Israel, יש להשתמש ב-geo-targeted residential proxies ישראליים ולהגדיר קואורדינטות ספציפיות ב-header של הבקשה או בהגדרות הדפדפן. המערכת של וולט מתאימה מחירים וזמינות על סמך מיקום המשתמש, ולכן בקשות מ-IPs של שרתים או מחו"ל יקבלו נתונים לא רלוונטיים. כלים כמו Playwright מאפשרים להגדיר מיקום מדויק (geolocation) ברמת הדפדפן, מה שמבטיח שהנתונים שתקבלו ישקפו ב-99% דיוק את מה שמשתמש אמיתי רואה מאותה הכתובת.

מהי הדרך היעילה ביותר לאיסוף קטלוג מלא ממסעדה ספציפית ב-Wolt Israel?▾

הדרך היעילה ביותר לאיסוף קטלוג מלא היא באמצעות ניווט אוטומטי עם כלי כמו Puppeteer או Playwright, תוך התמקדות בטעינה הדינמית של הדף. במקום לנסות לנתח את ה-API הפנימי, יש לכתוב סקריפט שמדמה גלילה (scrolling) עד לתחתית העמוד כדי לאלץ את כל הפריטים להיטען. לאחר טעינה מלאה, ניתן לחלץ את כל המידע הנדרש מתוך ה-DOM. שיטה זו עוקפת את הצורך בהנדסה לאחור של ה-API ומפחיתה את הסיכוי לחסימה בכ-70%.

כיצד ניתן לעקוב אחר זמינות ומלאי של פריטים ספציפיים ב-Wolt Israel בזמן אמת?▾

מעקב זמינות בזמן אמת דורש סריקות תכופות וממוקדות לדפי המוצר הספציפיים, ולא סריקה של כל האתר. יש להשתמש ב-headless browser כמו Playwright כדי לטעון רק את דפי המוצר הרלוונטיים ולחפש אינדיקטורים ב-DOM המציינים חוסר במלאי, כמו "אזל המלאי" או כפתור הוספה מושבת. כדי להימנע מחסימה, חשוב לסובב בין 5-10 כתובות IP שונות ולהשאיר מרווח של 30-60 שניות בין כל בקשה לאותו מוצר בדיוק.

האם יש API ציבורי או דרך לקבל קובץ נתונים מ-Wolt Israel באופן רשמי?▾

לא, נכון לשנת 2026, Wolt Israel אינה מציעה API ציבורי או דרך רשמית לקבלת קובץ נתונים (data dump) עבור קטלוגים, מחירים או מלאי. הגישה היחידה למידע זה היא דרך האתר הציבורי wolt.com/he/isr או האפליקציה. כל פרויקט הדורש גישה לנתונים אלו חייב להסתמך על טכניקות web scraping כדי לחלץ את המידע ישירות מה-HTML שמוצג למשתמש. לכן, אוטומציית דפדפן היא הגישה המעשית היחידה למטרה זו.

מהם 3 האתגרים הטכניים העיקריים בביצוע scraping לאתר wolt.com/he/isr?▾

שלושת האתגרים המרכזיים הם התמודדות עם תוכן דינמי, חסימות מבוססות מיקום גיאוגרפי, וזיהוי התנהגות בוטים. ראשית, האתר טוען מסעדות ופריטים באופן דינמי באמצעות JavaScript, מה שמחייב שימוש ב-headless browser ולא בספריית HTTP פשוטה. שנית, התוכן מותאם למיקום המשתמש, ולכן דרושים פרוקסי'ס ישראליים כדי לקבל נתונים מדויקים. לבסוף, וולט מפעילה מנגנוני הגנה שמזהים תבניות גלישה לא אנושיות, מה שמחייב רנדומיזציה של זמנים ופעולות.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור