Scraping משלוחה: מדריך טכני למתקדמים

אם ניסיתם פעם פרויקט scraping משלוחה ונתקעתם, אתם לא לבד. על פני השטח, זה נראה כמו עוד אתר איקומרס, אבל הארכיטקטורה שלו מציבה אתגרים שרוב הספריות הפשוטות לא פותרות. אנחנו לא מדברים על אתר סטטי שאפשר לגרד עם requests ו-BeautifulSoup. מדובר ב-Single Page Application (SPA) שמסתמך בכבדות על JavaScript כדי לרנדר תוכן, וחשוב מכך, התוכן הזה תלוי לחלוטין במיקום הגיאוגרפי של המשתמש. רוב ה-scrapers נופלים כבר בשלב הזה, עוד לפני שהם מגיעים ל-rate limits.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה requests פשוט לא יעבוד כאן

בואו נשים את זה על השולחן: אם אתם מתחילים פרויקט על אתר כמו משלוחה עם requests, אתם בונים על יסודות רעועים. שליחת בקשת GET פשוטה ל-URL של מסעדה תחזיר לכם מעטפת HTML ריקה, עם תג <div id="root"> ותגי <script> שיטענו את האפליקציה. כל המידע שאתם צריכים — תפריטים, מחירים, מבצעים, זמינות — נטען דינמית דרך קריאות API (XHR/Fetch) לאחר שה-JavaScript רץ בדפדפן. לנסות לנתח את ה-HTML הראשוני זה בזבוז זמן.

הפתרון הוא לא לנסות להנדס לאחור את ה-API הפנימי שלהם. זה אולי יעבוד לשבוע, אבל בשינוי ה-endpoint הבא, כל המערכת שלכם תקרוס. הגישה היציבה יותר היא להשתמש ב-headless browser שמריץ את ה-JS בדיוק כמו משתמש אמיתי. תפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית, ממהירות ועד יציבות. עם Playwright, אתם יכולים לחכות לאלמנטים ספציפיים שיופיעו על המסך, מה שמבטיח שהנתונים כבר שם לפני שאתם מנסים לחלץ אותם. זה חיוני במיוחד עבור משימה כמו איסוף קטלוג משלוחה, שדורשת מעבר בין עשרות קטגוריות ומסעדות שכולן נטענות אסינכרונית. אם אתם לא מכירים את הכלים המודרניים, כדאי שתקראו את המדריך המלא ל-Playwright עם stealth כדי להבין את היכולות.

משחק המיקומים: הבעיה האמיתית של משלוחה

האתגר הגדול ביותר ב-scraping של משלוחה הוא לא טכני במובן של עקיפת הגנות, אלא לוגי. כל התוכן באתר — רשימת המסעדות, שעות הפעילות, המבצעים, ואפילו עצם הזמינות של מסעדה מסוימת — משתנה דרמטית בהתבסס על כתובת המשלוח. זה אומר שאי אפשר פשוט לגרד את האתר. צריך לגרד אותו מתוך הקשר של מיקום ספציפי.

כאן רוב המהנדסים עושים טעות קריטית. הם מריצים את ה-scraper שלהם מ-IP של דאטה סנטר באירלנד ומקבלים תוצאות לא רלוונטיות, או גרוע מכך, הודעת שגיאה. אתם חייבים לדמות משתמש שנמצא בכתובת פיזית בישראל. הדרך לעשות את זה נכון היא להשתמש ב-proxies, אבל לא סתם. אתם צריכים פרוקסי residential ישראלי שיאפשר לכם להגדיר מיקום ברמת העיר. לאחר מכן, באמצעות Playwright, עליכם להזין כתובת ספציפית בשדה החיפוש ולחכות שהעמוד יתעדכן. כל בקשה לאיסוף נתונים חייבת להתבצע בתוך ה-session הזה, עם ה-cookie ששומר את המיקום.

תרחיש כשל קלאסי שראיתי קורה שוב ושוב: scraper רץ על רשימת כתובות בתל אביב, ואז באמצע הריצה, אחד ה-proxies מתחלף לאחד שמזוהה בחיפה. ה-scraper לא מזהה את שינוי ההקשר, ממשיך לאסוף נתונים, ומכניס לדאטהבייס תפריטים ומחירים של מסעדות חיפאיות תחת כתובות תל אביביות. הנתונים מושחתים וחסרי ערך.

קצב, טביעות אצבע, ואיך לא להיחסם

משלוחה, כמו כל פלטפורמה מודרנית, לא אוהבת תנועה רובוטית. עם זאת, ההגנות שלהם מתוחכמות יותר מכמה כללי robots.txt. הם משתמשים במנגנונים לזיהוי טביעות אצבע של הדפדפן (fingerprinting) ובניתוח התנהגותי. אם תנסו לפתוח 500 עמודי מסעדות במקביל מאותו IP, סביר להניח שתקבלו CAPTCHA או חסימה זמנית. הגישה הנכונה היא לחקות התנהגות אנושית, אבל בקנה מידה.

קודם כל, קצב. אל תפציצו את השרתים. קצב סביר של 20-30 בקשות לדקה פר IP הוא נקודת פתיחה טובה. אם אתם צריכים קצב גבוה יותר, אל תגבירו את המהירות פר IP, אלא הוסיפו עוד IPs למאגר שלכם. שנית, טביעת אצבע. השתמשו בתוספי stealth ל-Playwright. הם דואגים להסתיר את העובדה שהדפדפן נשלט על ידי אוטומציה (למשל, על ידי הסרת המשתנה navigator.webdriver).

בנוסף, גוונו את מסלולי הגלישה. אל תלכו תמיד ישירות ל-URL של המסעדה. דמו תהליך חיפוש: נחיתה בעמוד הראשי -> הזנת כתובת -> בחירת קטגוריה -> לחיצה על מסעדה. התהליך הזה, למרות שהוא מוסיף latency של 2-3 שניות לכל session, מייצר תנועה שנראית אורגנית יותר ומוריד את סיכויי החסימה באופן משמעותי. כישלון בניהול טביעות אצבע יוביל אתכם למצב מתסכל של טיפול בשגיאות 429 ו-CAPTCHAs במקום לאסוף נתונים. אם אתם נתקלים ב-Cloudflare, יש טכניקות ספציפיות שצריך להכיר, אבל זה כבר נושא לדיון נפרד.

האתגר השקט: איסוף וניהול מבצעים משתנים

אחד ה-use cases המורכבים ביותר הוא ניטור מחירים משלוחה, ובפרט, מעקב אחר מבצעים. מבצעים באתר כמו משלוחה הם דינמיים מאוד. הם יכולים להיות תלויי שעה, תלויי מיקום, ספציפיים למשתמשים חדשים, או קשורים להזמנה מעל סכום מסוים. לחלץ את הטקסט "1+1 על כל הפיצות" זה החלק הקל. האתגר הוא להבין את ההקשר והתנאים של המבצע.

כדי לעשות זאת נכון, ה-scraper שלכם צריך להיות יותר מורכב מסתם כלי לחילוץ טקסט. הוא צריך להיות מסוגל לפרסר את הלוגיקה של המבצע. זה אומר לחפש אלמנטים נסתרים, tooltips, או אפילו קטעי JSON מוטמעים ב-HTML שמכילים את תנאי המבצע. לעיתים קרובות, המידע הזה לא מוצג ישירות למשתמש אלא מופיע רק לאחר אינטראקציה, כמו הוספת פריט לסל.

בפרויקט שעבדתי עליו, גילינו שחלק מהמבצעים הופיעו רק לאחר שהסל עבר סף מסוים. היינו צריכים לבנות לוגיקה שהוסיפה פריטים לסל באופן אוטומטי כדי לחשוף את המבצעים הנסתרים הללו. זה הוסיף כ-50% למורכבות הלוגית של ה-scraper, אבל איכות הנתונים שהתקבלה הייתה גבוהה לאין שיעור. בסופו של דבר, הנתונים האלה משמשים לטובת מודיעין מתחרים משלוחה, והבנת מבנה המבצעים היא קריטית.

מתי לא כדאי לבנות Scraper למשלוחה בעצמכם

אחרי כל מה שאמרתי, חשוב להיות ריאליים. לא תמיד בניית scraper מאפס היא ההחלטה הנכונה. ישנם תרחישים שבהם המאמץ פשוט לא מצדיק את התוצאה, במיוחד אם הצורך שלכם הוא חד-פעמי או בקנה מידה קטן. אם כל מה שאתם צריכים זה רשימה של 50 מסעדות באזור מסוים פעם בחודש, כנראה שעדיף לעשות את זה ידנית. הזמן שתשקיעו בהקמת סביבה, ניהול proxies, וטיפול בחסימות יעלה על התועלת.

נקודה נוספת היא תחזוקה. אתרים כמו משלוחה משנים את המבנה שלהם לעיתים קרובות. שינוי קטן ב-class name או במבנה ה-DOM יכול לשבור לכם את ה-scraper. אם אין לכם צוות שמסוגל להקדיש 2-3 שעות שבועיות לתחזוקה וניטור, המערכת שלכם תהפוך מהר מאוד ללא אמינה. פרויקט API / קובץ נתונים משלוחה דורש אמינות של 99.9% לפחות. אם אתם לא יכולים להתחייב לרמת התחזוקה הזו, ייתכן שפתרון מנוהל או רכישת דאטה סט מוכן יתאימו יותר ויחסכו לכם כאבי ראש משמעותיים בטווח הארוך. בניית scraper זה לא פרויקט של 'שגר ושכח'. זו התחייבות מתמשכת.

נקודות מרכזיות

ל-scraping של משלוחה, השתמשו ב-Playwright עם stealth; ספריית requests לא תספיק בגלל מבנה ה-SPA.
האתגר המרכזי הוא ניהול הקשר מבוסס מיקום; חובה להשתמש ב-proxies ישראליים ולדמות כתובות ספציפיות.
שמרו על קצב בקשות נמוך (20-30 לדקה פר IP) וגוונו את מסלולי הגלישה כדי להימנע מחסימות.
מעקב אחר מבצעים דורש לוגיקה מורכבת, כולל אינטראקציה עם סל הקניות לחשיפת הנחות נסתרות.
אם אין לכם משאבי תחזוקה שוטפים, בניית scraper פנימי עלולה להיות לא יעילה בטווח הארוך.

שאלות נפוצות

איך אני יכול לבצע scraping לכל התפריטים של מסעדה ספציפית במשלוחה ללא הגדרת כתובת?▾

כדי לבצע scraping לתפריטים במשלוחה ללא כתובת ספציפית, יש לדמות בקשה עם קואורדינטות גיאוגרפיות (latitude/longitude) במקום כתובת טקסטואלית. האתר הוא Single Page Application (SPA) שמסתמך על מיקום המשתמש כדי להציג מסעדות ותפריטים רלוונטיים. על ידי שליחת קואורדינטות של מרכז עיר גדולה, כמו 32.0853° N, 34.7818° E לתל אביב, דרך ה-API הפנימי של האתר או על ידי הגדרת מיקום ב-headless browser כמו Playwright, ניתן לקבל גישה לקטלוג רחב של מסעדות באזור הליבה הזה, ולחלץ את הנתונים הנדרשים.

מהי הדרך היעילה ביותר לניטור שינויי מחירים יומיים ב-mishloha.co.il עבור 200 מסעדות?▾

הדרך היעילה ביותר לניטור מחירים יומי היא להתמקד בבקשות API ישירות במקום רינדור מלא של הדפים. לאחר זיהוי ה-endpoint האחראי על נתוני התפריט, ניתן לשלוח בקשות ממוקדות עם ה-ID של כל מסעדה ופרמטר המיקום. גישה זו מפחיתה את צריכת המשאבים בכ-80% בהשוואה לשימוש ב-Selenium או Playwright, ומאפשרת סריקה מהירה יותר. חשוב לרענן את טוקן האימות (authentication token) כל מספר שעות ולסובב בין 5-10 כתובות IP כדי להימנע מחסימות על בסיס קצב בקשות גבוה.

כיצד אוכל לעקוב אחר זמינות משלוחים בזמן אמת ממסעדות שונות במשלוחה?▾

מעקב זמינות משלוחים בזמן אמת דורש שליחת בקשות חוזרות ל-API הפנימי של משלוחה שבודק את סטטוס המסעדה. הדרך היעילה היא לזהות את ה-endpoint הספציפי שמחזיר את הסטטוס (למשל, 'פתוח', 'סגור זמנית', 'עמוס') עבור מזהה מסעדה ומיקום נתונים. על ידי הרצת סקריפט ששולח בקשה ל-endpoint זה כל 60-90 שניות, ניתן לקבל תמונה מדויקת של זמינות. שיטה זו עדיפה על פני טעינה מחדש של כל הדף, החוסכת תעבורת רשת ומפחיתה את הסיכוי לחסימה.

מהו האתגר המרכזי באיסוף קטלוג מלא של כל המסעדות הפעילות במשלוחה?▾

האתגר המרכזי באיסוף קטלוג מלא הוא התלות הגיאוגרפית של האתר, המציג תוצאות שונות לחלוטין עבור כל כתובת. לא ניתן פשוט לעבור על עמודים, אלא יש לדמות בקשות ממאות נקודות גיאוגרפיות שונות ברחבי ישראל. הפתרון הוא יצירת רשת (grid) של קואורדינטות המכסה את המדינה, ושליחת בקשות API נפרדות עבור כל נקודה ברשת. לאחר מכן, יש לבצע תהליך של הסרת כפילויות (deduplication) על בסיס מזהה המסעדה הייחודי כדי לקבל רשימה נקייה ומלאה.

האם אני יכול ליצור API פרטי מנתוני משלוחה, ומהי הדרך הנכונה לעשות זאת?▾

כן, ניתן ליצור API פרטי על בסיס נתוני משלוחה על ידי בניית scraper שמאכלס מסד נתונים משלך. הדרך הנכונה כוללת שלושה שלבים: ראשית, פיתוח scraper יציב באמצעות כלי כמו Scrapy או Playwright לאיסוף הנתונים (תפריטים, מחירים, זמינות). שנית, אחסון הנתונים המובנים במסד נתונים כמו PostgreSQL. שלישית, בניית שכבת API (למשל, עם FastAPI או Node.js) מעל מסד הנתונים, שתחשוף את המידע בצורה נוחה לצריכה. חשוב לתכנן מנגנון עדכון אוטומטי שירוץ לפחות פעם ב-24 שעות.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור