Scraping Ontopo: מדריך טכני למתקדמים

בואו נדבר על scraping Ontopo. אם אתם חושבים לגשת לזה עם ספריית HTTP פשוטה כמו requests, כדאי שתחשבו שוב. אנחנו מדברים על פלטפורמה מודרנית, כבדה ב-JavaScript, שבה התוכן החשוב באמת — זמינות, שעות, תפריטים — נטען באופן דינמי ומתבסס על אינטראקציה של המשתמש. זה לא אתר של עמודים סטטיים. זה אתגר שמחייב גישה מתוחכמת יותר, כזו שמתחילה בדפדפן אמיתי ומסתיימת בתשתית שיודעת להתמודד עם אתר שמשתנה כל הזמן.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה Requests ו-BeautifulSoup לא יספיקו לכם כאן

אני רואה את זה קורה כל הזמן. מהנדס מנסה לגשת לאתר כמו Ontopo, מריץ בקשת GET פשוטה ומקבל בחזרה HTML ריק או שלד של אפליקציה בלי שום דאטה. למה? כי רוב האתר הוא Single-Page Application (SPA). הדפדפן טוען קובץ JavaScript גדול, והוא זה שאחראי לרנדר את הממשק ולשלוף את הנתונים מ-API פנימי.

ניסיון לעשות reverse engineering ל-API הפנימי שלהם הוא מסלול שמוביל לתסכול. ה-endpoints האלה מוגנים. הם דורשים headers ספציפיים, טוקנים של סשן (session tokens), ולפעמים גם CSRF tokens שנוצרים ומתעדכנים על ידי קוד שרץ בצד הלקוח. כל שינוי קטן ב-build של האתר יכול לשבור לך את כל הלוגיקה. זה משחק של חתול ועכבר שאתה תפסיד בו בטווח הארוך. הזמן שתשקיע בדיבוג הרשת שלהם יתבזבז ברגע שהם יעשו את ה-deploy הבא.

לכן, נקודת הפתיחה לפרויקט scraping Ontopo רציני היא דפדפן headless. תפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית — מהירות, יציבות, וה-API שלו פשוט נקי יותר. שימוש ב-Playwright עם תוספים כמו playwright-stealth הוא לא המלצה, הוא דרישת בסיס כדי לעבור את ההגנות הראשוניות ולהיראות כמו משתמש אמיתי.

בניית תהליך איסוף הקטלוג המלא

אחרי שהתמקמנו על Playwright, המשימה הראשונה היא איסוף קטלוג Ontopo המלא. מדובר על סריקה של כל המסעדות בפלטפורמה כדי לבנות בסיס נתונים ראשוני. התהליך מתחיל מעמוד החיפוש הראשי. שימו לב שהרשימה לא נטענת בבת אחת; היא משתמשת ב-infinite scroll. תצטרכו לכתוב לוגיקה שמגלגלת את העמוד למטה, ממתינה לטעינת התוכן החדש (locator.waitFor), וחוזר חלילה עד שלא מופיעות תוצאות חדשות. אל תשתמשו ב-sleep קבוע, זה לא יציב.

בסריקה הראשונית שלי זיהיתי כ-2,500 מסעדות פעילות. מכל עמוד מסעדה, המטרה היא לחלץ את הנתונים הסטטיים: שם, כתובת, קטגוריות (למשל, 'איטלקי', 'אסייתי'), שעות פתיחה, וקישור לתפריט. את המידע הזה כדאי לשמור במסד נתונים יציב. זה הבסיס שלכם. קצב סביר לאיסוף כזה, כדי לא לעורר חשד, הוא בקשה אחת כל 3-5 שניות פר IP. עם proxy rotation טוב, אפשר להקביל את התהליך ולהשלים את איסוף הקטלוג כולו תוך כמה שעות.

האתגר כאן הוא לא טכני במיוחד, אלא נוגע יותר לניקיון וסטרקטורה של הדאטה. ה-selectors של ה-CSS עלולים להיות לא יציבים. העדיפו תמיד להשתמש ב-data-attributes או סלקטורים מבוססי טקסט אם אפשר, הם נוטים להשתנות פחות מ-class names שנוצרים אוטומטית.

האתגר האמיתי: מעקב זמינות בזמן אמת

כאן הפרויקט הופך למעניין. המטרה של מעקב מלאי/זמינות Ontopo היא לדעת אילו שעות פנויות בכל מסעדה, לתאריך וגודל קבוצה ספציפיים. המידע הזה לא קיים בטעינת העמוד הראשונית. הוא נטען רק אחרי שהמשתמש בוחר תאריך בלוח השנה. זה אומר שהסקריפט שלכם צריך לדמות את האינטראקציה הזו במדויק: ללחוץ על ווידג'ט התאריכים, לבחור יום, לבחור גודל קבוצה, ורק אז לקרוא את השעות הזמינות שמופיעות.

זה תהליך איטי ועדין. כל אינטראקציה כזו מייצרת קריאת API ברקע. אם תנסו לבדוק 20 תאריכים שונים ברצף מהיר מדי מאותו סשן דפדפן, אתם תקבלו חסימה זמנית ברמת הווידג'ט. ראיתי את זה קורה: אחרי 5-6 בקשות מהירות, לוח השנה פשוט מפסיק להגיב או מחזיר הודעת שגיאה. זהו failure scenario קלאסי באתרים כאלה. הפתרון הוא לעבוד לאט יותר, או להשתמש בסשנים נפרדים (והכרחי, פרוקסי residential שונים) עבור כל קבוצת בדיקות קטנה. עם ניהול סשנים ופרוקסי נכון, ניתן להגיע לאחוזי הצלחה של 98% באיסוף נתוני זמינות.

מתי Scraping ישיר הוא לא הפתרון הנכון

אני יודע מה אתם חושבים: למה לא פשוט למצוא את קריאת ה-API שמביאה את הזמינות ולשכפל אותה? זו גישה קוסמת, במיוחד אם המטרה היא רק ניטור מחירים Ontopo (במקרה הזה, מבצעים או תפריטים מיוחדים) על 10-15 מסעדות ספציפיות. במקרה כזה, לפעמים אפשר, עם מאמץ, לבודד את הבקשה, לשכפל את ה-headers וה-cookies, ולקבל את המידע בצורה יעילה בהרבה מאשר הרצת דפדפן מלא.

אבל כאן מגיע ה'אבל' הגדול. הגישה הזו שבירה להחריד. היא תלויה לחלוטין במימוש הנוכחי של ה-API הפנימי של Ontopo. ברגע שהם ישנו פרמטר, יוסיפו header חדש לאימות, או ישנו את מבנה התשובה — כל הסקריפט שלכם קורס. זה פתרון טקטי, לא אסטרטגי. הוא לא מתאים לפרויקטים שדורשים אמינות לאורך זמן, כמו בניית API / קובץ נתונים Ontopo עבור לקוחות או מערכות פנימיות. התחזוקה הופכת לסיוט, ואתם תמצאו את עצמכם רודפים אחרי הזנב של צוות הפיתוח של Ontopo. גישת הדפדפן המלא, למרות שהיא דורשת יותר משאבים, מבודדת אתכם מרוב השינויים האלה. כל עוד האתר עובד למשתמש אנושי, הסקרייפר שלכם ימשיך לעבוד. אם אתם בכל זאת הולכים על גישת ה-API, תהיו מוכנים לטפל בהרבה שגיאות בלתי צפויות, כולל שגיאות 429 ו-rate limiting.

מודיעין מתחרים והפקת נתונים בקנה מידה גדול

אז אספנו את כל הדאטה. מה עכשיו? כאן נכנס לתמונה השימוש במידע עבור מודיעין מתחרים Ontopo. עם קטלוג מלא ונתוני זמינות היסטוריים, אפשר להתחיל לזהות מגמות. למשל, אפשר לנתח באילו שכונות הכי קשה למצוא מקום בסוף שבוע, או אילו מסעדות מציעות הכי הרבה מבצעים כדי למלא מקומות. אפשר לעקוב אחרי שינויים במוצרים (במקרה הזה, שינויים בתפריט או הוספת מנות חדשות) כדי לראות איך מסעדות מתאימות את עצמן לעונות השנה.

האתגר הטכני כאן עובר מאיסוף לעיבוד ואחסון. אנחנו מדברים על דאטה-סט שיכול להגיע בקלות לעשרות ג'יגה-בייטים אחרי כמה חודשי איסוף, במיוחד אם שומרים snapshots של זמינות. תכנון סכמת הנתונים מראש הוא קריטי. איך תאחסנו את המידע כך שיהיה קל לתשאל אותו? האם תשתמשו ב-PostgreSQL עם PostGIS לניתוחים גיאוגרפיים? או אולי מסד נתונים NoSQL כמו MongoDB שמתאים יותר למבנים דינמיים? התשובה תלויה בשאלות העסקיות שאתם רוצים לענות עליהן. השלב הסופי הוא בדרך כלל ייצוא CSV/API יומי או שבועי של התובנות האלה, כדי שמערכות אחרות יוכלו לצרוך אותן.

נקודות מרכזיות

ל-scraping Ontopo השתמשו ב-Playwright עם stealth; ספריית requests לא תעבוד.
זמינות היא דינמית ודורשת הדמיית אינטראקציה עם לוח השנה, אחרת תקבלו חסימה.
הימנעו מ-reverse engineering של ה-API הפנימי לפרויקטים ארוכי טווח; זה לא יציב.
איסוף קטלוג מלא דורש טיפול ב-infinite scroll והמתנה מבוססת-locator, לא sleep.
תכננו מראש את סכמת הנתונים לאחסון, במיוחד עבור מעקב זמינות היסטורי.

שאלות נפוצות

איך אני יכול לעקוב אחר זמינות שולחנות במסעדות ספציפיות ב-Ontopo בזמן אמת?▾

הדרך היעילה ביותר למעקב זמינות ב-Ontopo היא באמצעות סקריפט מבוסס דפדפן כמו Playwright, המריץ בדיקה כל 60-90 שניות. ניסיון להשתמש בבקשות HTTP ישירות ייכשל בגלל הגנות JavaScript דינמיות. הסקריפט צריך לנווט לדף המסעדה, לבחור תאריך ושעה, ולנתח את רכיב ה-DOM המציג את הזמינות. כדי למנוע חסימה, חיוני להשתמש ב-residential proxies ולשנות את ה-user-agent בין בקשות, מה שמדמה התנהגות של 3-4 משתמשים שונים ולא בוט יחיד.

מהי הדרך היציבה ביותר לאסוף את כל קטלוג המסעדות מ-ontopo.co.il כולל תפריטים?▾

השיטה היציבה ביותר לאיסוף קטלוג מלא מ-Ontopo היא גישה דו-שלבית המשלבת זחילה (crawling) וגירוד (scraping). בשלב הראשון, השתמש ב-Scrapy כדי לזחול במהירות דרך עמודי הקטגוריות והערים ולאסוף את כתובות ה-URL של כל המסעדות. בשלב השני, העבר את רשימת ה-URL ל-Puppeteer כדי לטעון כל דף בנפרד, לחלץ את פרטי התפריט הדינמיים, ולשמור את הנתונים. גישה זו מונעת 95% מהבעיות הנגרמות מ-JavaScript כבד ומשיגה יציבות גבוהה יותר.

כיצד ניתן לנטר שינויי מחירים בתפריטים של 50 מסעדות מתחרות ב-Ontopo?▾

לניטור מחירים יעיל ב-Ontopo, יש להגדיר scraper מבוסס-דפדפן שירוץ פעם ב-24 שעות וישמור 'תמונת מצב' של התפריטים כקובץ JSON. בכל ריצה, הסקריפט ישווה את המחירים החדשים מול הקובץ של אתמול וידווח רק על פריטים שמחירם השתנה ביותר מ-1%. שימוש בכלי כמו Playwright מאפשר לחלץ בקלות את שם הפריט והמחיר גם כשהם נטענים אסינכרונית. חשוב להתמקד ב-selectors יציבים כמו data-attributes כדי שה-scraper לא יישבר אחרי עדכוני עיצוב קטנים.

מהן 3 הטעויות הנפוצות ביותר הגורמות לחסימה בעת גירוד ontopo.co.il?▾

הטעות הראשונה היא שליחת בקשות בקצב קבוע; יש להוסיף השהייה אקראית של 1.5 עד 4 שניות בין בקשות. הטעות השנייה היא שימוש ב-datacenter proxies, אשר מזוהים וחוסמים באופן מיידי על ידי כ-80% מהאתרים המודרניים, כולל Ontopo. השלישית היא הזנחת ה-headers, ובמיוחד ה-User-Agent וה-Referer. שליחת אותו header בכל בקשה היא דגל אדום ברור למערכות זיהוי בוטים. הקפדה על שלושת אלו תמנע את רוב החסימות הפשוטות.

האם ניתן לבנות API פרטי מעל Ontopo, ומהם האתגרים הטכניים העיקריים?▾

כן, ניתן לבנות API פרטי, אך האתגר המרכזי הוא לא ה-scraping עצמו אלא שמירה על עדכניות ואמינות הנתונים. בניית ה-API דורשת תשתית שתריץ scrapers באופן קבוע (לפחות פעם ב-12 שעות) ותעדכן מסד נתונים, למשל PostgreSQL. האתגר השני הוא ניהול שגיאות ושינויים במבנה האתר; יש צורך במערכת ניטור שתתריע על כ-20% מהריצות שנכשלות עקב שינויים ב-HTML או הגנות חדשות, ותאפשר תיקון מהיר של ה-scraper.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור