Scraping איזי: מדריך טכני עמוק לדאטה מקומי

נתחיל מהסוף: scraping איזי הוא לא פרויקט למתחילים. אם אתם חושבים להריץ סקריפט פשוט עם `requests`, אתם הולכים להיתקע מהר מאוד. האתר הוא מבוך של תוכן שנטען דינמית, קטגוריות מקוננות, ומידע גיאוגרפי שדורש ניווט אקטיבי. בניגוד לאתרי איקומרס עם מבנה צפוי, כאן אנחנו מתמודדים עם גרף נתונים. המטרה שלנו היא לא רק לחלץ דף, אלא למפות מערכות יחסים בין עסקים, שירותים ומיקומים. זה דורש גישה אחרת לגמרי, גם בארכיטקטורה וגם בביצוע.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה איזי הוא לא אתר איקומרס סטנדרטי

רובנו רגילים לגרד אתרי מסחר אלקטרוני. יש קטגוריה, רשימת מוצרים, ודף מוצר. המבנה ליניארי וקל למיפוי. איזי שובר את המודל הזה. זהו אינדקס מקומי, מה שאומר שהישות המרכזית היא 'עסק' או 'שירות', לא 'מוצר'. לכל עסק יש מיקום, שעות פתיחה, ביקורות, ורשימת שירותים. כל אלה יכולים להיות מקוננים בעשרות קטגוריות ותתי-קטגוריות.

האתגר הראשון הוא הגילוי (Discovery). איך מוצאים את כל העסקים בתל אביב שמתקנים מזגנים? זה לא URL אחד עם פגינציה פשוטה. התוצאות נטענות דינמית, לעיתים קרובות תוך כדי גלילה או אינטראקציה עם מפה. ניסיון להשתמש בספרייה כמו requests יחזיר לכם מעטפת HTML ריקה מתוכן. כאן, שימוש ב-Headless Browser כמו Playwright הוא לא המלצה, הוא דרישת בסיס. צריך לבצע אינטראקציות אמיתיות – ללחוץ על כפתורים, לגלול, ולחכות לאירועי רשת ספציפיים כדי לוודא שהדאטה שאתם צריכים אכן נטען ל-DOM.

האתגר השני הוא קנה המידה. אנחנו מדברים על מאות אלפי דפי עסקים. אם ה-scraper שלכם לא בנוי ל-concurrency גבוה, פרויקט איסוף קטלוג איזי מלא ייקח שבועות, לא שעות. תכנון נכון של תורים, טיפול בשגיאות, וניהול sessions הופכים להיות קריטיים הרבה יותר מאשר יכולת הפארסינג שלכם.

הסטאק הטכני הנכון להתמודדות עם האתגר

תשכחו מ-Selenium לפרויקטים חדשים. ב-2025, Playwright מנצח בכל פרמטר רלוונטי, במיוחד במהירות וביכולות ניטור הרשת. היכולת שלו להמתין לתגובות API ספציפיות (route interception) היא מה שהופך אותו לכלי המושלם עבור איזי. במקום לנחש מתי הדף 'סיים להיטען', אתם יכולים פשוט לחכות ל-API call שמביא את רשימת העסקים, ולחלץ את ה-JSON ישירות מהתגובה. זה חוסך 90% מהזמן והופך את התהליך לאמין פי עשרה.

הארכיטקטורה צריכה להיראות כך: רכיב Discovery מבוסס Playwright שמנווט בקטגוריות ומחלץ URLs של דפי עסקים. ה-URLs האלה נכנסים לתור מרכזי (RabbitMQ או Redis יעשו את העבודה). משם, worker pool ניגש לכל URL. כאן יש לכם בחירה: אם דפי העסק עצמם דורשים JavaScript, תצטרכו להמשיך עם Playwright. אם הם סטטיים יחסית, תוכלו לעבור ל-HTTP client אסינכרוני ומהיר יותר כמו httpx כדי לחסוך במשאבים.

אל תחשבו אפילו להתחיל פרויקט scraping איזי בלי אסטרטגיית פרוקסי חזקה. טווח ה-IP שלכם ייחסם אחרי כמה מאות בקשות. תצטרכו rotation של פרוקסי איכותיים. אני ממליץ להתחיל עם residential proxies כדי לחקות משתמש אמיתי ככל האפשר. תוכלו לקרוא עוד על איך לבחור פרוקסי residential במדריך שלנו. תכננו מראש מנגנון retry עם exponential backoff. שיעור הצלחה של 98% נשמע גבוה, אבל על 200,000 דפים זה אומר 4,000 כשלונות שתצטרכו לטפל בהם.

ממודיעין מתחרים ועד בניית API פרטי

עם דאטה מאיזי, האפשרויות הן רחבות. מודיעין מתחרים איזי הוא אחד השימושים הנפוצים ביותר. חברות עוקבות אחרי פתיחת עסקים חדשים בקטגוריה מסוימת, שינויים בשעות הפעילות, או קפיצה חדה בכמות הביקורות (חיוביות או שליליות) של מתחרה. זהו דאטה שמאפשר להגיב לשוק בזמן אמת.

ניטור מחירים איזי הוא מקרה שימוש מורכב יותר, כי המחירים לא תמיד מוצגים במבנה קבוע. לעיתים קרובות הם מופיעים בטקסט חופשי או בתמונות של תפריטים. זה דורש לא רק scraping, אלא גם שכבת עיבוד נוספת, אולי אפילו OCR, כדי לחלץ את המידע ולהפוך אותו למובנה. אבל התוצאה היא תמונה מדויקת של תמחור שירותים בשוק מסוים.

מעבר לכך, חברות רבות משתמשות בדאטה הזה כדי ליצור API / קובץ נתונים איזי לשימוש פנימי. במקום שהצוותים שלהם יחפשו מידע ידנית, הם מקבלים גישה למאגר נתונים מעודכן של כל העסקים הרלוונטיים, כולל שמות מוצרים/מודעות ומפרטים של שירותים. זה יכול לשמש בסיס למערכות CRM, כלי ניתוח שוק, או אפילו להעשיר מוצרים קיימים במידע מקומי. המפתח הוא לספק את הדאטה הזה באופן עקבי, למשל בייצוא CSV יומי או דרך API פנימי.

תרחיש הכשל הנפוץ: מלכודת הדאטה הלא-אחיד

הנה תרחיש שראיתי קורה יותר מדי פעמים בפרויקטים של scraping מול איזי. המהנדס בונה scraper מושלם לקטגוריה אחת, נניח 'מסעדות'. הוא ממפה את כל השדות: שם, כתובת, טלפון, תפריט, ביקורות. הכל עובד, הסקריפט יציב, ומשיג 99% הצלחה. ואז, הוא מריץ את אותו scraper על קטגוריית 'עורכי דין'.

כאן הכל מתפרק. השדות שונים. במקום 'תפריט', יש 'תחומי התמחות'. במקום 'שעות פתיחה', יש 'שעות קבלת קהל'. מבנה ה-HTML שונה לחלוטין בין התבניות של סוגי העסקים השונים. הסלקטורים של ה-CSS שבניתם בקפידה פשוט לא מוצאים כלום. שיעור החילוץ (extraction rate) צונח ל-30%. זהו לא כשל ברמת הרשת, אלא כשל לוגי.

זו הטעות הקלאסית: להניח שהמבנה אחיד. באינדקס בסדר גודל כזה, יש עשרות תבניות דף שונות. הפתרון הוא לא לכתוב scraper אחד, אלא לבנות framework. צריך מנגנון שמזהה את סוג העסק (לפי breadcrumbs, קטגוריה, או אפילו קלאסים ב-body) ובוחר את לוגיקת הפארסינג המתאימה. זה דורש יותר עבודה מראש, אבל זו הדרך היחידה להגיע לכיסוי נתונים גבוה ואמין. כל ניסיון לבנות סלקטור 'אחד שמתאים לכולם' נידון לכישלון ויגרום לתחזוקה אינסופית.

מתי לא כדאי לבצע Scraping לאיזי

למרות כל מה שאמרתי, יש מצבים שבהם בניית scraper ייעודי לאיזי היא פשוט לא הגישה הנכונה. אם אתם צריכים דאטה נקודתי וחד-פעמי על 20-30 עסקים, אל תבזבזו שבוע על פיתוח. המאמץ פשוט לא מצדיק את התוצאה. עדיף כבר לאסוף את הנתונים ידנית. פיתוח ותחזוקה של scraper יציב דורשים השקעת זמן משמעותית, וזה לא כלכלי עבור צרכים קטנים.

תרחיש נוסף הוא כאשר אתם צריכים עדכונים בזמן אמת, ברמת השנייה. המבנה של איזי לא מיועד לכך. ניסיון לדגום דפים כל כמה שניות יגרום לחסימה מיידית, לא משנה כמה הפרוקסי שלכם טובים. קצב סביר לריענון דפים הוא בין פעם בכמה שעות לפעם ביום, תלוי בחשיבות הדף. אם המודל העסקי שלכם תלוי במידע שמשתנה כל דקה, scraping קלאסי הוא לא הפתרון. במקרה כזה, צריך לחפש מקורות מידע אחרים או לבדוק אם קיים API רשמי (לרוב לא).

לבסוף, אם אין לכם את הידע הטכני לנהל headless browsers, פרוקסי, וטיפול בשגיאות רשת מורכבות, עדיף לא להתחיל. פרויקט scraping איזי הוא לא מקום טוב ללמוד את היסודות. הכישלון כמעט מובטח והתסכול יהיה גדול. התחילו עם אתרים פשוטים יותר, וכשתרגישו שאתם שולטים בטיפול בשגיאות 429 וניהול sessions, אז תחזרו לאתגר הזה.

נקודות מרכזיות

איזי הוא אינדקס דינמי, לא אתר איקומרס. השתמשו ב-Playwright, לא ב-requests.
האתגר המרכזי הוא לא החסימה, אלא המבנה הלא-אחיד של דפי העסקים בין קטגוריות שונות.
תכננו ארכיטקטורה מבוססת תורים (Queues) כדי להתמודד עם מאות אלפי דפים.
אסטרטגיית פרוקסי חזקה עם rotation היא חובה, לא אופציה.
עבור צרכי דאטה קטנים וחד-פעמיים, המאמץ ההנדסי של בניית scraper לא משתלם.

שאלות נפוצות

מהי הגישה היעילה ביותר לניטור מחירים יומי של 5,000 עסקים מתחרים באיזי?▾

הגישה היעילה ביותר לניטור מחירים באיזי היא שימוש ב-Change Detection Scraper במקום סקראפר מלא. במקום לגרד את כל הדף כל יום, בנה מנגנון ששומר hash של אלמנט המחיר (למשל, div.price-value). ב-run היומי, אתה רק מוריד את ה-HTML ומשווה את ה-hash החדש לישן. רק אם ה-hash שונה, אתה מפעיל את הלוגיקה המלאה של ה-parsing. גישה זו חוסכת כ-80% ממשאבי העיבוד ומפחיתה משמעותית את טביעת הרגל שלך, מה שמקטין את הסיכוי לחסימה.

איך אני יכול להפוך את המידע הלא-מובנה של איזי לקובץ נתונים סטנדרטי (JSON/CSV)?▾

כדי להפוך את הדאטה הלא-מובנה של איזי לקובץ נתונים סטנדרטי, יש לבנות מפת נתונים (Data Map) ספציפית לכל סוג עמוד. השתמש ב-CSS selectors או XPath כדי למפות כל שדה רצוי (שם, כתובת, טלפון, שעות פתיחה) למפתח קבוע באובייקט JSON. עבור שדות מורכבים כמו שעות פתיחה, תצטרך לכתוב פונקציית parsing ייעודית שתהפוך את הטקסט החופשי למבנה נתונים מסודר. כלים כמו BeautifulSoup ב-Python או Cheerio ב-Node.js מצטיינים במשימות מיפוי כאלה ומאפשרים ייצוא ישיר ל-CSV.

מהן 3 הטעויות הנפוצות ביותר שגורמות לחסימה ב-scraping של easy.co.il?▾

שלוש הטעויות הנפוצות שגורמות לחסימה באיזי הן שימוש ב-IPs של דאטה סנטר, שליחת בקשות בקצב קבוע, והזנחת ה-User-Agent. מערכות הגנה מודרניות מזהות רצף בקשות מאותו IP של דאטה סנטר תוך שניות. בנוסף, שליחת בקשות כל 2.0 שניות בדיוק היא דפוס רובוטי ברור. חובה להשתמש ב-Residential Proxies ולרנדם את ההשהיה בין בקשות (למשל, בין 1.5 ל-4.2 שניות). לבסוף, שלח תמיד User-Agent של דפדפן אמיתי ומעודכן, כמו הגרסה האחרונה של Chrome.

כיצד ניתן לאסוף קטלוג שלם של סוג עסק מסוים באיזי בלי להיתקע בלולאות pagination?▾

כדי לאסוף קטלוג שלם מאיזי ביעילות, יש לנטוש את הגישה של לחיצה על כפתור 'הבא' ולהשתמש בטכניקת URL parameter manipulation. רוב מערכות ה-pagination של איזי משתמשות בפרמטר בעמודה, כמו &page=2. זהה את הפרמטר הזה ובנה לולאה שפשוט מגדילה את מספרו בכל בקשה עד לקבלת תגובת 404 או דף ללא תוצאות. שיטה זו מהירה ב-50% מחיקוי אינטראקציית משתמש מלאה עם כלים כמו Selenium ומפחיתה משמעותית את נקודות הכשל.

איך מבצעים מעקב זמינות שירותים כמעט בזמן אמת באיזי בלי להעמיס על השרתים?▾

מעקב זמינות יעיל באיזי דורש שליחת בקשות HEAD במקום בקשות GET מלאות. בקשת HEAD מבקשת רק את ה-headers של התגובה ולא את כל גוף ה-HTML, מה שמקטין את צריכת רוחב הפס בכ-95%. בדוק את ה-status code של התגובה ואת ה-header Last-Modified. אם הסטטוס הוא 200 והתאריך לא השתנה מהבדיקה הקודמת, אין צורך לבצע GET מלא. גישה זו מאפשרת לבדוק מאות עמודים בדקה בלי להפעיל מנגנוני הגנה מבוססי עומס.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור