Scraping 2Eat: המדריך הטכני המלא לנתונים אמינים

אם ניסיתם לעשות scraping ל-2Eat עם ספריית HTTP פשוטה וקיבלתם HTML ריק, אתם לא לבד. האתר הזה הוא דוגמה קלאסית למטרה שנראית פשוטה על פני השטח, אבל מסתירה מורכבות בצד הלקוח. הפרויקט הזה דורש יותר מ-requests.get. הוא דורש הבנה של רינדור JavaScript, ניהול state, וארכיטקטורה שיודעת להתמודד עם נתונים שמשתנים כל דקה. במדריך הזה נפרק את האתגרים הספציפיים של scraping 2Eat, מהבחירה בכלים הנכונים ועד לבניית תהליך איסוף נתונים שאשכרה עובד, גם ב-3 בלילה.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה Requests פשוט לא יספיק ל-2Eat

בואו נשים את זה על השולחן: אם הגישה הראשונית שלכם ל-2Eat היא עם requests או curl, אתם בדרך לכאב ראש. האתר אולי נראה סטטי, אבל רוב התוכן החשוב — תפריטים, זמינות, מבצעים — נטען ומרנדר דינמית באמצעות JavaScript. שליחת בקשת GET פשוטה ל-URL של מסעדה תחזיר לכם שלד HTML, לא את התפריט המלא. זה הכשל הראשון והנפוץ ביותר.

כדי לבצע איסוף קטלוג 2Eat בצורה אמינה, אתם חייבים להריץ דפדפן אמיתי. תפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית, במיוחד בביצועים וב-API האסינכרוני שלו. הוא מאפשר לחכות לאלמנטים ספציפיים שמופיעים רק אחרי שה-JS סיים לרוץ, לדמות אינטראקציות משתמש כמו גלילה כדי לטעון עוד תוצאות, ולהבטיח שה-HTML שאתם מנתחים הוא מה שהמשתמש באמת רואה. ראינו שיפור של 30% בזמן הריצה הממוצע במעבר מ-Selenium ל-Playwright בפרויקטים דומים.

האתגר הוא לא רק לקבל את ה-HTML. הוא לקבל את ה-HTML הנכון. ללא רינדור מלא, אתם תפספסו שדות קריטיים כמו מבצעים שמופיעים כבאנרים דינמיים או זמינות של משלוחים שמתעדכנת בזמן אמת. הניסיון לנתח את קריאות ה-API הפנימיות של האתר הוא אפשרי, אבל שביר מאוד. הם יכולים לשנות את ה-endpoints מחר בבוקר בלי אזהרה, וה-scraper שלכם יישבר. דפדפן אמיתי, שמנוהל נכון, הוא הדרך היחידה להשיג יציבות. אם אתם חדשים בתחום, כדאי להתחיל עם מדריך Playwright stealth כדי להבין את הבסיס.

ניהול State ופרוקסי: האתגרים הנסתרים

אוקיי, אז השתכנעתם להשתמש ב-Playwright. הבעיה הבאה שתתקלו בה היא לא חסימת IP ישירה, אלא תוכן לא רלוונטי. 2Eat, כמו כל פלטפורמת משלוחים, מתאימה את עצמה למשתמש. התוכן שתראו תלוי במיקום הגיאוגרפי, בהיסטוריית החיפושים ואפילו בשעה ביום. אם תשלחו בקשות מ-IP של דאטה סנטר באירלנד, תקבלו תוצאות שלא מייצגות את השוק הישראלי. זה קריטי במיוחד למימוש use case של מודיעין מתחרים 2Eat.

הפתרון הוא proxy rotation, אבל לא סתם. אתם צריכים רשת של residential proxies ישראליים. זה לא נתון למשא ומתן. שימוש בפרוקסי מחו"ל יזהם לכם את הדאטה. הנקודה החשובה יותר היא ניהול session. אל תחליפו IP בכל בקשה. זה דפוס התנהגות חשוד שמפעיל מנגנוני הגנה. במקום זאת, השתמשו ב-sticky sessions: החזיקו את אותו ה-IP למשך סשן שלם של איסוף נתונים ממסעדה אחת או מאזור מסוים (למשל, 5-10 דקות). זה מדמה התנהגות אנושית ומפחית את הסיכוי לחסימה.

ניהול state לא נגמר ב-IP. שמרו קוקיז ו-local storage בין בקשות באותו סשן. זה עוזר לשמור על הקונטקסט שהאתר בנה סביבכם (למשל, כתובת שהזנתם למשלוח) ומבטיח שהנתונים על זמינות וזמני משלוח יהיו מדויקים. המטרה היא לא להיראות כמו 10,000 משתמשים חדשים כל שנייה, אלא כמו 100 משתמשים חוזרים שגולשים באתר בצורה הגיונית. להבנה עמוקה יותר של בחירת הרשת הנכונה, קראו את המדריך על איך לבחור פרוקסי residential.

איך לבנות Data Pipeline ל-2Eat שעומד בעומס

איסוף הנתונים הוא רק ההתחלה. השלב הבא הוא לבנות תהליך יציב שיכול לרוץ 24/7. המטרה היא לא רק להריץ את ה-scraper, אלא להפוך את הפלט שלו למוצר נתונים שמיש, כלומר לספק API / קובץ נתונים 2Eat מעודכן באופן קבוע. פרויקט כזה דורש ארכיטקטורה מבוזרת.

אל תריצו את ה-scraper מהמחשב שלכם או משרת בודד. השתמשו בתור עבודות (message queue) כמו RabbitMQ או Redis. כל משימה בתור מייצגת URL שצריך לסרוק (למשל, דף קטגוריה או דף מסעדה). בצד השני, יהיו לכם מספר workers (יכולים להיות קונטיינרים של Docker) ששולפים משימות מהתור, מריצים אינסטנס של Playwright, אוספים את הדאטה, ומאחסנים אותו בבסיס נתונים מרכזי כמו PostgreSQL או MongoDB.

הגישה הזו נותנת לכם סקיילביליות. צריכים לסרוק מהר יותר? פשוט תוסיפו עוד workers. אחד ה-workers נפל? התור שומר את המשימה והיא תטופל על ידי worker אחר. זה גם מאפשר לכם לנהל קצבי בקשות בצורה חכמה. אתם יכולים להגביל את קצב שליפת המשימות מהתור כדי לא להפציץ את 2Eat. במערכת שבנינו, אנחנו מכוונים לקצב של לא יותר מ-30-40 דפים בדקה פר IP, עם מרווחים אקראיים בין בקשות, כדי לשמור על פרופיל נמוך. זה מאפשר לנו להגיע ל-98% הצלחה באיסוף, עם latency ממוצע של 4-6 שניות לדף שעובר רינדור מלא.

Failure Scenario: מלכודת המחירים הדינמיים

הנה תרחיש שראיתי קורה יותר מפעם אחת בפרויקטים של ניטור מחירים 2Eat: ה-scraper עובד מצוין, הנתונים נאספים, אבל הם פשוט לא נכונים. הסיבה? מבצעים ושינויי מחיר שתלויים באינטראקציה של המשתמש.

דמיינו מסעדה שמציעה "מבצע 1+1 על הפיצה השנייה". ה-scraper שלכם טוען את הדף ורואה את המחיר הרגיל של פיצה אחת. הוא לא רואה את ההנחה כי היא מופעלת רק אחרי שהמשתמש מוסיף פריט שני לסל. ה-scraper שלכם, שמתוכנת רק לקרוא מידע מהתפריט, מדווח על המחיר הלא נכון. זהו כשל שקט ומסוכן, כי הוא לא מייצר שגיאה. הוא פשוט מזהם את הדאטה שלכם בשקט.

כשל נוסף הוא "דמי משלוח דינמיים". המחיר משתנה לפי הכתובת, השעה, ומזג האוויר. אם ה-scraper שלכם לא מדמה הזנת כתובת ספציפית, הוא יקבל מחיר ברירת מחדל או שלא יקבל מחיר בכלל. כדי להתמודד עם זה, ה-scraper חייב להיות מתוחכם יותר. הוא צריך לדמות תהליך הזמנה מלא: לבחור כתובת, להוסיף פריטים לסל, להגיע לדף הצ'קאאוט, ורק שם לקרוא את המחיר הסופי. זה מסבך את הלוגיקה פי עשרה, דורש ניהול סשנים קפדני ומוסיף המון נקודות כשל אפשריות. זו אחת הסיבות שבגללן טיפול בשגיאות 429 והתנהגויות בלתי צפויות של האתר הוא קריטי. אי אפשר פשוט לקוות לטוב.

מתי לא כדאי לבנות Scraper כזה לבד

למרות כל מה שכתבתי, יש מצבים שבהם בניית scraper מותאם אישית ל-2Eat היא לא הדרך הנכונה. חשוב להיות כנים לגבי זה. פרויקט כזה הוא לא משהו שעושים בסוף שבוע. הוא דורש תחזוקה מתמדת.

האתר של 2Eat ישתנה. סלקטורים של CSS יישברו, מבנה ה-HTML ישתנה, ולפעמים הם יוסיפו מנגנוני הגנה חדשים. אם אין לכם צוות הנדסי שיכול להקדיש לפחות 10-15 שעות שבועיות לתחזוקה, ניטור, ותיקון ה-scraper, הוא יהפוך מהר מאוד ללא רלוונטי. הנתונים יתחילו להיכשל, בהתחלה בקטנה ואז בקריסה מלאה. זה לא פרויקט של "שגר ושכח".

בנוסף, אם אתם צריכים נתונים היסטוריים או דורשים כיסוי של כל הקטלוג (שכולל אלפי מסעדות ועשרות אלפי פריטים) מהיום הראשון, המאמץ ההנדסי הראשוני הוא עצום. זה לא רק כתיבת הקוד, אלא בניית כל התשתית מסביב: ניהול פרוקסי, בסיסי נתונים, מערכת ניטור והתראות. אם הצורך שלכם הוא בנתונים נקודתיים או בפרויקט חד-פעמי, ייתכן שהשקעת הזמן והמשאבים בבניית מערכת כזו מאפס לא תהיה מוצדקת. במקרים כאלה, כדאי לשקול פתרונות אחרים לפני שצוללים לפיתוח של חודשים. המטרה היא לקבל תובנות מהנתונים, לא רק לבנות כלי לאיסוף שלהם.

נקודות מרכזיות

עבור 2Eat, השתמשו ב-Playwright ולא בספריות HTTP פשוטות כדי להתמודד עם רינדור בצד הלקוח.
ניהול State עם sticky residential proxies ישראליים הוא חובה לקבלת נתונים מדויקים.
בנו ארכיטקטורה מבוזרת עם תור עבודות כדי להבטיח סקיילביליות ויציבות.
היזהרו מכשלים שקטים כמו מחירים ומבצעים דינמיים שדורשים הדמיית אינטראקציה.
פרויקט scraping בסדר גודל כזה דורש תחזוקה מתמדת; זה לא פרויקט חד-פעמי.

שאלות נפוצות

איך לבצע ניטור מחירים ב-2Eat עבור 200 מסעדות בלי להתמודד עם נתונים מבוססי מיקום?▾

כדי לבצע ניטור מחירים מדויק ב-2Eat, יש לדמות בקשות מדויקות הכוללות קואורדינטות גיאוגרפיות (latitude/longitude) ספציפיות ב-headers או ב-payload של ה-API הפנימי. שליחת בקשות ללא מיקום תחזיר תוצאות ברירת מחדל לא רלוונטיות. השתמשו בכלים כמו Puppeteer כדי ליירט את קריאות ה-XHR ששולח הדפדפן, לזהות את פרמטרי המיקום, ולשכפל אותם באופן פרוגרמטי. שיטה זו מבטיחה קבלת תמחור וזמינות נכונים עבור כל כתובת יעד, ועוקפת מעל 95% מהבעיות הקשורות בנתונים תלויי מיקום באתר.

מהי הדרך היעילה ביותר לאיסוף קטלוג מלא מ-2eat.co.il כולל כל הווריאציות והתוספות?▾

הדרך היעילה ביותר לאיסוף קטלוג מלא מ-2eat.co.il היא באמצעות גישה היברידית המשלבת סריקה ראשונית של דפי הקטגוריה וסריקה עמוקה של ה-API הפנימי. תחילה, השתמשו ב-Playwright כדי לטעון דפי מסעדות ולחלץ את מזהי המנות (item IDs). לאחר מכן, השתמשו במזהים אלו כדי לשלוח בקשות ישירות ל-endpoint ה-API האחראי על פרטי המנה, שם נמצא המידע המלא על וריאציות, תוספות ומחירים. גישה זו מהירה פי 3-4 מסריקה מבוססת דפדפן בלבד ומפחיתה את הסיכוי לחסימה.

כיצד ניתן לעקוב אחר זמינות משלוחים בזמן אמת ב-2Eat עבור אזורים שונים בו-זמנית?▾

מעקב זמינות משלוחים ב-2Eat דורש ארכיטקטורה מבוזרת המשתמשת בפרוקסים הממוקמים גיאוגרפית. כל צומת (node) בסריקה צריך לדמות משתמש מכתובת IP התואמת לאזור הגיאוגרפי הנבדק, ולשלוח את הקואורדינטות המתאימות בבקשה. הפתרון היעיל ביותר הוא להריץ מספר מופעים של Headless Chrome, כל אחד עם הגדרות מיקום ו-IP שונות, ולבצע בדיקות זמינות במקביל כל 60-90 שניות. שימוש ב-datacenter proxies יספיק כאן, אין צורך ב-residential proxies יקרים יותר למשימה זו.

איך בונים API פרטי מעל 2Eat שמספק נתונים בפורמט JSON נקי?▾

בניית API פרטי מעל 2Eat מתבצעת על ידי יצירת שכבת ביניים (middleware) שמפעילה scraper בצד השרת. השתמשו ב-framework כמו Express.js ב-Node.js כדי ליצור endpoints משלכם, למשל /api/restaurant/:id. כאשר מתקבלת בקשה, השרת מריץ תהליך סריקה ממוקד באמצעות Puppeteer, מחלץ את הנתונים הנדרשים, מנקה ומעצב אותם לפורמט JSON סטנדרטי, ומחזיר אותם כתגובה. יש להוסיף שכבת caching עם Redis כדי למנוע סריקות חוזרות ונשנות ולהבטיח latency של פחות מ-500ms לבקשות חוזרות.

מהן 3 הטעויות הנפוצות ביותר שגורמות לחסימה מיידית בעת scraping של 2eat.co.il?▾

הטעות הראשונה היא שימוש בספריית requests פשוטה ללא הרצת JavaScript, מה שגורם לזיהוי מיידי כבוט. הטעות השנייה היא שליחת בקשות בקצב קבוע ומהיר מדי; יש להוסיף השהיות רנדומליות של בין 1.5 ל-4 שניות בין בקשות. הטעות השלישית והקריטית ביותר היא אי-סיבוב של User-Agents וכתובות IP. שימוש באותו פרופיל דיגיטלי ליותר מ-50 בקשות בדקה יפעיל כמעט בוודאות את מנגנוני ההגנה של האתר. הימנעות משלוש הטעויות הללו פותרת כ-80% ממקרי החסימה.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור