Scraping מדלן: מדריך טכני מתקדם לאיסוף דאטה

בואו נשים את זה על השולחן: scraping מדלן זה לא עוד פרויקט e-commerce. אתה לא עובר פה על רשימה סטטית עם כפתור 'הבא'. לב האתר הוא מפה אינטראקטיבית שטוענת נתונים דינמית דרך קריאות API פנימיות. אם האינסטינקט הראשון שלך הוא להשתמש ב-requests ו-BeautifulSoup, אתה תתקע בקיר תוך דקות. גישה מוצלחת דורשת חשיבה אחרת, כזו שמאמצת אוטומציית דפדפן ומבינה איך להנדס לאחור את הלוגיקה של צד הלקוח. זה לא עניין של למצוא את סלקטור ה-CSS הנכון; זה עניין של להבין את זרימת הנתונים.

Use Cases · 5

ניטור מחירים

High

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

High

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

High

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

High

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

High

ייצוא CSV/API יומי או שבועי

למה רוב ה-Scrapers נכשלים במדלן כבר בדף הראשון

הטעות הקלאסית היא להתייחס למדלן כאל אתר תוכן רגיל. המפתח פותח את כלי המפתחים, רואה HTML, ומתחיל לכתוב סלקטורים. אבל ה-HTML הראשוני כמעט ריק. כל המידע על הנכסים, המחירים והזמינות נטען אסינכרונית בתגובה לאינטראקציות של המשתמש עם המפה. כשאתה מזיז את המפה, הדפדפן שולח בקשת fetch עם קואורדינטות גיאוגרפיות ומקבל בחזרה JSON עם רשימת נכסים באזור הנראה. הניסיון לעשות scrape ל-HTML ייתן לך רק את שלד האפליקציה, לא את הנתונים.

הגישה הנכונה מתחילה בלשונית ה-Network. שם תגלה את קריאות ה-API האמיתיות שהאתר מבצע. תראה בקשות ל-endpoints כמו v2/search או דומיו, שמחזירות את כל המידע הגולמי שאתה צריך. זהו השלב הראשון והקריטי ביותר: להבין שמקור האמת הוא ה-API הפנימי, לא ה-DOM. אם אתה מנסה לדמות תנועות עכבר וקליקים כדי לעורר את טעינת הנתונים, אתה בוחר בדרך הקשה והשבירה. במקום זאת, המטרה היא ללמוד את מבנה הבקשות האלה ולשחזר אותן ישירות. זה דורש ניתוח של ה-headers, ה-payload, וה-cookies שנשלחים בכל בקשה. זה המקום שבו הניסיון משחק תפקיד. לדעת לזהות את ה-token הרלוונטי או את ה-header שגורם לבקשה להצליח הוא 90% מהעבודה.

בניית תהליך איסוף קטלוג מלא: מ-API ועד לדאטה מובנה

אחרי שזיהית את ה-endpoint המרכזי, השלב הבא הוא לבנות תהליך שיטתי של איסוף קטלוג מדלן המלא. זה לא פשוט כמו לשלוח בקשה אחת. כדי לכסות את כל הארץ, צריך לחלק את המפה לרשת (grid) של ריבועים קטנים ולשלוח בקשה נפרדת עבור כל תא ברשת. כאן נכנסת האופטימיזציה. שליחת בקשות סדרתית תיקח ימים. הפתרון הוא עבודה אסינכרונית מאסיבית.

עם כלים כמו asyncio בפייתון, אפשר להריץ מאות בקשות במקביל. אבל זהירות, כאן מדלן יתחיל להילחם בחזרה. שליחת 500 בקשות בשנייה מאותה כתובת IP תפעיל מיד rate limiting ותקבל שטף של שגיאות 429 (Too Many Requests). לכן, ניהול פרוקסי חכם הוא לא אופציה, הוא חובה. צריך מאגר גדול של כתובות IP, עם לוגיקת רוטציה חכמה שמחליפה IP כל מספר בקשות או כשמתחילה להופיע שגיאה. ה-latency הממוצע לבקשה מוצלחת, כולל רוטציית פרוקסי, צריך לעמוד על כ-800ms. המטרה היא להגיע לקצב יציב של 20-30 בקשות בשנייה עם אחוז הצלחה של 98% ומעלה. כך, סריקה מלאה של עשרות אלפי הנכסים הפעילים יכולה להסתיים תוך שעות בודדות, ולא ימים. בסוף התהליך הזה, יהיה לך קובץ JSON גולמי ענק. השלב האחרון הוא נרמול וניקוי הנתונים, והפיכתם לטבלה שטוחה עם שדות ברורים כמו מחירים, מפרטים וכתובת מלאה – מוכן לניתוח או ליצירת API / קובץ נתונים מדלן לשימוש פנימי.

תרחיש הכישלון הנפוץ: התעלמות משינויים ב-API הפנימי

בנית scraper מושלם. הוא רץ במשך חודשיים כמו שעון, אוסף נתונים בדיוק של 99.9%. ואז, בוקר אחד, הוא מתחיל להחזיר 0 תוצאות. כל הבקשות נכשלות עם שגיאת 401 או 403. מה קרה? רוב הסיכויים שמדלן שינו משהו במנגנון האימות של ה-API הפנימי שלהם. זהו תרחיש הכישלון הכי כואב, כי הוא לא הדרגתי – הוא פתאומי ומוחלט.

זה יכול להיות שינוי קטן, כמו הוספת header חדש שנוצר על ידי JavaScript בצד הלקוח, או שינוי באופן שבו ה-session token מחושב. ה-scraper שלך, שמבוסס על בקשות requests ישירות, לא מריץ את ה-JS הזה ולכן שולח בקשה "חשודה" שנחסמת מיד. הדיבאג פה מתסכל. אתה צריך לפתוח שוב את הדפדפן, להשוות בקשה תקינה מהדפדפן לבקשה הכושלת מהסקריפט שלך, ולחפש את ההבדל. זה יכול להיות header בודד כמו x-csrf-token או x-request-id שפתאום הפך לחובה. לפעמים הפתרון הוא לחזור צעד אחורה ולהשתמש בכלי כמו Playwright כדי לטעון את הדף, לתת ל-JS לרוץ, ולאסוף את ה-headers המעודכנים לפני ששולחים את הבקשות הישירות. ניטור קבוע הוא המפתח. צריך לבנות מערכת התרעות שתצפצף ברגע שאחוז השגיאות עובר סף מסוים (נניח 5%), כדי לתפוס את הבעיה הזו בשעה הראשונה, ולא אחרי יום שלם של נתונים אבודים.

מתי לא להשתמש בבקשות ישירות ל-API

אני חסיד גדול של התחברות ישירה ל-API פנימי. זה מהיר, יעיל וצורך פחות משאבים. אבל יש מצבים שבהם הגישה הזו פשוט לא עובדת, או שהמאמץ הנדרש כדי לתחזק אותה גבוה מדי. אם מדלן, לדוגמה, יטמיעו מנגנון הגנה מתוחכם כמו זה של Cloudflare או Akamai, הנדסת ה-API לאחור הופכת לסיוט. המנגנונים האלה משתמשים בטביעות אצבע של הדפדפן (fingerprinting) ובאתגרי JavaScript כדי לוודא שהבקשה מגיעה ממשתמש אנושי אמיתי בדפדפן אמיתי. ניסיון לזייף את כל זה בסקריפט requests פשוט הוא כמעט בלתי אפשרי ודורש מומחיות נדירה.

במצב כזה, אין ברירה אלא לחזור להשתמש ב-Headless Browser מלא, כמו Playwright. כן, זה איטי יותר פי 10. כן, זה צורך הרבה יותר זיכרון ומעבד. אבל זה עובד. שימוש בספרייה כמו playwright-stealth יכול לעזור להסוות את העובדה שזה דפדפן אוטומטי. במקום לנסות ליירט את קריאות ה-API, אתה פשוט נותן לדף להיטען במלואו, מבצע את האינטראקציות הנדרשות (כמו הזזת המפה), ומגרד את הנתונים ישירות מה-DOM אחרי שהם הופיעו על המסך. זה פחות אלגנטי, אבל הרבה יותר עמיד בפני שינויים תכופים במנגנוני ההגנה. זה trade-off קלאסי בין ביצועים לעמידות. עבור מעקב מלאי/זמינות מדלן שדורש ריצה כל שעה, אולי המהירות של API ישיר קריטית. אבל עבור סריקה יומית, האמינות של Playwright עשויה להיות שווה את תוספת הזמן והמשאבים.

Use Cases מתקדמים: מניטור מחירים ועד מודיעין מתחרים

ברגע שיש לך צינור נתונים יציב ממדלן, האפשרויות נפתחות. המקרה הברור ביותר הוא ניטור מחירים מדלן. על ידי הרצת ה-scraper מדי יום, אפשר לזהות בקלות נכסים חדשים שעלו, נכסים שהוסרו, וכמובן, שינויי מחיר. בניית היסטוריית מחירים לנכס בודד או לשכונה שלמה הופכת למשימה טריוויאלית. זהו מידע קריטי עבור כל מי שעוסק בתחום.

אבל אפשר ללכת רחוק יותר. עבור סוכנויות נדל"ן, איסוף הנתונים יכול לשמש לטובת מודיעין מתחרים מדלן. ניתן לנתח אילו סוכנויות מעלות הכי הרבה נכסים באזור מסוים, מהו זמן המדף הממוצע של הנכסים שלהן, ובאילו טווחי מחיר הן מתמחות. זה מאפשר קבלת החלטות מבוססת נתונים במקום תחושות בטן. למשל, אפשר לעקוב אחרי שינויים בנפח המודעות של מתחרה ספציפי כדי להעריך את מצבו העסקי. הנתונים האלה, שנאספים באופן עקבי, יכולים להפוך לנכס אסטרטגי. בסופו של דבר, המטרה של פרויקט scraping כזה היא לא רק לאסוף נתונים, אלא להפוך אותם לתובנות מעשיות שנותנות יתרון בשוק. הכל מתחיל ב-scraper יציב ואמין שיודע להתמודד עם המורכבות של אתר דינמי כמו מדלן.

נקודות מרכזיות

במדלן, מקור האמת הוא ה-API הפנימי שנטען דינמית, לא ה-HTML הראשוני.
חובה להשתמש ב-proxy rotation אגרסיבי ובתכנות אסינכרוני כדי לאסוף נתונים בקנה מידה גדול.
ה-scraper חייב להיות תחת ניטור מתמיד כדי לזהות שינויים ב-API שעלולים לשבור אותו באופן פתאומי.
כאשר יש הגנות JavaScript מתקדמות, עדיף להשתמש ב-Playwright על פני בקשות ישירות, למרות פגיעה בביצועים.
הנתונים שנאספים מאפשרים יישומים מתקדמים כמו ניטור מחירים היסטורי וניתוח מודיעין מתחרים.

שאלות נפוצות

איך אוכל לקבל קובץ נתונים מעודכן ממדלן עם כל הנכסים המוצעים למכירה?▾

הדרך היעילה ביותר לייצר קובץ נתונים מעודכן ממדלן היא על ידי הנדסה הפוכה (reverse engineering) של ה-API הפנימי שלהם, ולא באמצעות סקריפינג של ה-HTML. גישה זו מאפשרת שליפת נתונים מובנים בפורמט JSON ישירות מה-endpoints שמאכלסים את המפה והרשימות. באמצעות כלים כמו Charles Proxy או DevTools של הדפדפן, ניתן לזהות את הבקשות הרלוונטיות, לשכפל את ה-headers שלהן, ולבנות סקריפט שמבצע איטרציה על אזורים גיאוגרפיים שונים. תהליך זה מהיר בכ-80% יותר מסקריפינג מסורתי ומונע התמודדות עם שינויי עיצוב.

מהי הדרך הטובה ביותר לניטור מחירי דירות באזור ספציפי במדלן לאורך זמן?▾

השיטה היעילה ביותר לניטור מחירים במדלן היא בניית scraper ממוקד שרץ כל 24 שעות ומבודד רק את שדות המחיר, הכתובת ומזהה הנכס (asset ID). במקום לסרוק את כל האתר, הגדר את הסקריפט כך שיבקש נתונים רק עבור פוליגון גיאוגרפי ספציפי דרך ה-API הפנימי. שמור את הנתונים במסד נתונים סדרתי (time-series) כמו InfluxDB או PostgreSQL עם TimescaleDB. ארכיטקטורה זו מאפשרת זיהוי מגמות מחיר, איתור נכסים חדשים והסרת נכסים שנמכרו ביעילות של מעל 95%.

כיצד ניתן לאסוף את כל התמונות והתוכניות של נכסים מ-madlan.co.il באופן אוטומטי?▾

איסוף מדיה מ-madlan.co.il דורש תהליך דו-שלבי: ראשית, יש להשתמש ב-scraper כדי לחלץ את כתובות ה-URL של התמונות והתוכניות מתוך תגובת ה-JSON של ה-API הפנימי עבור כל נכס. שנית, יש להריץ תהליך אסינכרוני נפרד (למשל, עם aiohttp ב-Python) שמוריד את קבצי המדיה במקביל מעשרות כתובות URL בו-זמנית. חשוב להגדיר User-Agent מתאים ולכבד את קובץ ה-robots.txt של האתר כדי למנוע חסימות. גישה זו יכולה להוריד אלפי תמונות בשעה.

מהם האתגרים המרכזיים בביצוע scraping לנתוני 'סביבת הנכס' ממדלן?▾

האתגר המרכזי ב-scraping של נתוני 'סביבת הנכס' במדלן הוא שהמידע הזה מגיע ממספר רב של endpoints שונים ב-API ואינו חלק מאובייקט הנכס הראשי. כדי לקבל תמונה מלאה, יש צורך לבצע קריאות API נפרדות עבור דירוגי בתי ספר, קווי תחבורה ציבורית, רמות זיהום אוויר וגינות ציבוריות. איסוף המידע דורש תזמור (orchestration) של לפחות 4-5 בקשות שונות לכל נכס ומיפוי הנתונים חזרה למזהה הנכס המקורי, מה שמסבך משמעותית את הלוגיקה של ה-scraper.

איך מבצעים scraping של נכסים במדלן המוצגים רק ברמות זום גבוהות במפה?▾

כדי לחלץ נכסים שמופיעים רק בזום גבוה במפת מדלן, יש לדמות את התנהגות המשתמש על ידי שליחת בקשות API עם פרמטר zoom level הולך וגדל. ה-API של מדלן מחזיר נתונים שונים בהתבסס על רמת הזום וגבולות המפה הנראית (bounding box). הפתרון הוא לחלק את האזור הגיאוגרפי הרצוי לרשת (grid) של ריבועים קטנים, ולבצע קריאת API נפרדת עבור כל ריבוע ברמת זום גבוהה, למשל 18 ומעלה. טכניקה זו מבטיחה איסוף של 100% מהנכסים.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור