Scraping מידרג: המדריך הטכני המלא למהנדסים

אם ניגשתם לפרויקט scraping מידרג עם `requests` ו-`BeautifulSoup` וקיבלתם בחזרה div ריק, הגעתם למקום הנכון. מידרג, כמו רוב הפלטפורמות המודרניות, הוא לא מסמך HTML סטטי. הוא אפליקציית צד-לקוח מורכבת שמרנדרת נתונים דינמית. הגישה הקלאסית פשוט לא עובדת כאן. במדריך הזה לא נדבר על היסודות; נצלול ישר לאסטרטגיות, לכלי העבודה, ול-failure modes שפוגשים כשמנסים לחלץ נתונים בקנה מידה מפלטפורמה כזאת. נדבר על ארכיטקטורה, קצב בקשות, ואיך בונים תהליך יציב לאורך זמן.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה ה-Scraper הסטנדרטי שלך יישבר על מידרג בדקה הראשונה

הטעות הראשונה שרוב המהנדסים עושים היא להתייחס למידרג כאל אתר של פעם. הם שולחים בקשת GET פשוטה ומצפים לקבל HTML מלא עם כל המידע על בעלי המקצוע. זה לא קורה. מה שחוזר זה שלד HTML וצרור של קבצי JavaScript. התוכן האמיתי – רשימות בעלי המקצוע, הדירוגים, חוות הדעת – נטען מאוחר יותר דרך קריאות API אסינכרוניות שהדפדפן מריץ.

זו הסיבה שכל ניסיון להשתמש בספריות כמו requests או HTTPX לבדן נידון לכישלון. אתה פשוט לא מבצע את שלב הרצת ה-JavaScript. הפתרון היחיד שעובד באופן עקבי הוא שימוש ב-Headless Browser. ותהיו ברורים: אם אתם מתחילים פרויקט כזה ב-2025, תשתמשו ב-Playwright. הוא מהיר יותר, יציב יותר וה-API שלו נקי משמעותית מזה של Selenium. היכולת שלו ליירט בקשות רשת ולטפל באירועים ברמת הדפדפן נותנת לך שליטה כירורגית שחיונית לפרויקטים כאלה.

המעבר הזה מחשיבה מבוססת-בקשות לחשיבה מבוססת-אוטומציית-דפדפן הוא קריטי. אתה לא "מבקש" דף, אתה "מפעיל" דפדפן שמנווט לדף, ממתין לטעינת הרכיבים הדינמיים, ורק אז מחלץ את המידע מה-DOM העדכני. כל גישה אחרת היא בזבוז זמן ומאמץ.

ארכיטקטורת ה-Crawler: מאיסוף קטלוג ועד לפרטי בעל המקצוע

בניית scraper למידרג היא תהליך דו-שלבי. אל תנסו לעשות הכל בבת אחת. השלב הראשון הוא איסוף קטלוג מידרג – המטרה היא לייצר רשימה מלאה של כל כתובות ה-URL של פרופילי בעלי המקצוע. זה אומר לעבור על כל הקטגוריות והתת-קטגוריות, לנווט בין כל עמודי התוצאות, ולחלץ רק את הקישורים לפרופילים. בשלב זה, אתה לא מתעניין בפרטים של כל איש מקצוע, רק בכתובת שלו. התוצר של השלב הזה הוא תור (queue) של עשרות אלפי כתובות URL, שאותו אפשר לשמור במסד נתונים או במערכת תורים כמו RabbitMQ.

השלב השני הוא ה-worker. זהו תהליך נפרד שלוקח URL מהתור, מנווט אליו עם Playwright, ומחלץ את כל השדות הנדרשים: שמות מוצרים/מודעות, קטגוריות, דירוגים, מספר חוות דעת, אזורי שירות, וכל פרט רלוונטי אחר. הפרדת המשימות הזאת קריטית. היא מאפשרת לנהל כישלונות בצורה מבודדת – אם חילוץ של פרופיל אחד נכשל, הוא לא עוצר את כל תהליך איסוף הקישורים. בנוסף, זה מאפשר סקלביליות. אפשר להריץ worker אחד לאיסוף הקישורים (שהוא פחות אינטנסיבי) ועשרות workers במקביל לחילוץ הנתונים מהפרופילים. זה המודל היחיד שעובד כשצריך לעבד קטלוג של מעל 50,000 דפים ביעילות.

איך לא להיחסם: ניהול Proxies, קצב וטביעת אצבע

בואו נדבר על הנושא האמיתי: חסימות. מידרג, כמו כל אתר בסדר גודל כזה, לא אוהב שמגרדים אותו בקצב תעשייתי. אם תשלח 500 בקשות בדקה מאותה כתובת IP, אתה תקבל CAPTCHA או שגיאת 429 מהר מאוד. הפתרון הוא לא רק להשתמש ב-proxy, אלא לנהל אותו נכון. שימוש ב-proxy בודד רק משנה את ה-IP שממנו תיחסם. אתה צריך מאגר גדול של כתובות IP איכותיות. איך לבחור פרוקסי residential זו נקודת התחלה טובה, כי פרוקסי של דאטה סנטר נשרפים מהר מאוד באתרים כאלה.

מעבר ל-IP, צריך לנהל את קצב הבקשות. אל תריץ 20 workers במקביל ללא הגבלה. הטמע מנגנון rate limiting גלובלי שיבטיח שאתה לא עובר, למשל, 60-80 בקשות לדקה מכלל המערכת. חשוב גם לנהל את טביעת האצבע של הדפדפן. שימוש ב-Playwright עם תוספים כמו ה-stealth plugin עוזר להסוות את העובדה שהדפדפן מופעל על ידי אוטומציה. זה כולל זיוף של מאפיינים כמו navigator.webdriver, שינוי user-agent, והתאמת רזולוציית המסך. המטרה היא להיראות כמו תנועה של משתמשים אמיתיים, שמפוזרת על פני מאות כתובות IP ומתנהלת בקצב סביר. בלי זה, אחוזי ההצלחה שלך יצנחו מתחת ל-70% תוך שעות.

תרחיש הכישלון הקלאסי באתר כמו מידרג

הנה תרחיש שראיתי קורה שוב ושוב בפרויקטים של scraping באתרים דמויי-מידרג. ה-scraper עובד נהדר במשך שבועיים. הנתונים זורמים, הלקוח מרוצה. ואז, ביום בהיר אחד, 95% מהבקשות מתחילות להיכשל עם דפים ריקים או דפי שגיאה. מה קרה? המפתחים בצד של מידרג שינו את ה-selector של רכיב מרכזי. למשל, הכרטיסייה שמכילה את חוות הדעת הייתה div.reviews-container ועכשיו היא div.user-feedback-section. ה-scraper שלך, שמחפש את ה-selector הישן, לא מוצא כלום, מחזיר null, והתהליך נכשל בשקט, או גרוע מכך – ממלא את הדאטהבייס שלך בערכים ריקים.

זו לא בעיה של חסימה, אלא בעיית תחזוקה. אתרים חיים ונושמים, וה-DOM שלהם משתנה. הפתרון הוא לא לקוות שזה לא יקרה, אלא לבנות מערכת לניטור בריאות ה-scraper. זה אומר להגדיר בדיקות קבלה (acceptance tests) על הנתונים שאתה מחלץ. למשל, ודא שלפחות 90% מהפרופילים שחולצו מכילים שם, דירוג, ולפחות חוות דעת אחת. אם האחוז הזה יורד פתאום מתחת לסף מסוים, המערכת צריכה לשלוח התראה מיידית. בלי מנגנון כזה, אתה יכול לאסוף זבל במשך ימים בלי לדעת. טיפול בשגיאות נפוצות ב-web scraping הוא לא אופציה, הוא חובה.

מתי הגישה הזו היא Overkill (ומתי היא חובה)

למרות כל מה שאמרתי, שימוש ב-Playwright עם מאגר פרוקסים וניהול טביעת אצבע הוא לא תמיד התשובה. אם כל מה שאתה צריך זה לבצע מעקב מלאי/זמינות מידרג עבור רשימה קטנה של 20 בעלי מקצוע פעם ביום, הקמת תשתית כזו היא מורכבות מיותרת. במקרה כזה, סקריפט פשוט יותר, שאולי אפילו רץ מקומית, יכול להספיק. סביר להניח שלא תיחסם אם תשלח 20 בקשות במשך דקה אחת פעם ב-24 שעות. המורכבות שאנחנו מתארים כאן נחוצה עבור תרחישים בקנה מידה גדול.

איפה הקו עובר? כשהמטרה היא מודיעין מתחרים מידרג על פני קטגוריה שלמה, או כשרוצים לבנות API / קובץ נתונים מידרג שמתעדכן באופן שוטף, אין דרך אחרת. אם אתה צריך לסרוק אלפי דפים ביום כדי לעקוב אחר שינויים, לנטר דירוגים חדשים, או לזהות בעלי מקצוע חדשים שנכנסו לפלטפורמה, אתה חייב את התשתית המלאה. זה המצב שבו השקעת הזמן בבניית מערכת רובסטית עם ניהול proxies, תורים, וניטור, מחזירה את עצמה. ניסיון לחסוך פה יוביל למערכת לא יציבה שתדרוש תחזוקה ידנית מתמדת. לכן, לפני שאתה כותב שורת קוד אחת, תגדיר במדויק את קנה המידה והתדירות של המשימה.

נקודות מרכזיות

עבור אתר דינמי כמו מידרג, השתמשו ב-Playwright; ספריות HTTP פשוטות לא יעבדו.
פצלו את העבודה: תהליך אחד לאיסוף קישורים ותהליכים נפרדים לחילוץ נתונים מכל קישור.
ניהול proxies חכם וקצב בקשות מבוקר הם קריטיים למניעת חסימות בקנה מידה גדול.
בנו מנגנוני ניטור ובדיקה אוטומטיים כדי לזהות שברים ב-scraper כשה-HTML של האתר משתנה.
התאימו את מורכבות הפתרון לקנה המידה; לא כל משימת scraping דורשת תשתית מלאה.

שאלות נפוצות

איך לבצע scraping לדירוגים וביקורות של אנשי מקצוע במידרג מבלי להפעיל מנגנוני הגנה?▾

הדרך היעילה ביותר לביצוע scraping לדירוגים במידרג היא באמצעות headless browser כמו Playwright עם stealth plugin, המדמה התנהגות אנושית ומקשה על הזיהוי. חשוב לדמות אינטראקציות משתמש כמו גלילה איטית וקליקים אקראיים, ולא רק שליפת ה-HTML. בנוסף, יש להגדיר user-agent ו-headers התואמים לדפדפן אמיתי ולסובב אותם כל 10-15 בקשות. שימוש ב-requests פשוטים יזוהה תוך דקות בגלל טעינת התוכן הדינמית באתר. גישה זו מפחיתה את סיכויי החסימה ב-80% לפחות.

מהי הדרך היעילה ביותר לניטור מחירים של שירותים ספציפיים באתר midrag.co.il בזמן אמת?▾

ניטור מחירים יעיל במידרג דורש גישה היברידית: סריקה ראשונית מלאה לאיסוף הנתונים, ואחריה סריקות ממוקדות כל 60 דקות רק על השירותים הרלוונטיים. במקום לסרוק את כל האתר שוב ושוב, השתמשו ב-API הפנימי של האתר (ניתן לאיתור ב-Network tab) כדי למשוך עדכונים. גישה זו מפחיתה את טביעת הרגל שלכם ב-95% ומקטינה את הסיכוי לחסימה. אם ה-API מוגן, השתמשו ב-Puppeteer כדי להריץ סקריפטים ממוקדים על דפים ספציפיים במקום לסרוק את כל הקטלוג מחדש.

כיצד ניתן לבנות API פרטי מעל מידרג לאיסוף נתוני מתחרים, ומהם הקשיים הטכניים?▾

בניית API פרטי מעל מידרג כרוכה בהקמת שרת מתווך (לדוגמה, עם FastAPI) שמקבל בקשות, מריץ סקריפט scraping, ומחזיר JSON נקי. האתגר המרכזי הוא ניהול מצב (state), מכיוון שמידרג משתמש בטוקנים ובסשנים כדי לאמת משתמשים. יש לנהל cookies ו-session storage לכל בקשה. אתגר נוסף הוא ה-rate limiting; ה-API שלכם חייב לכלול מנגנון תור (queue) כמו Redis כדי למנוע שליחת בקשות מהירות מדי לאתר המקור, ולשמור על קצב של לא יותר מבקשה אחת כל 3-5 שניות.

מהן 3 הטעויות הנפוצות ביותר שגורמות לחסימה מיידית בעת איסוף קטלוג ממידרג?▾

הטעות הראשונה היא שימוש ב-IP בודד מ-datacenter, שיזוהה מיד; יש להשתמש ב-residential proxies מסתובבים. הטעות השנייה היא שליחת בקשות בקצב קבוע ומהיר מדי, מה שמהווה דפוס רובוטי ברור. חובה להוסיף השהיות אקראיות (jitter) של 1.5 עד 4 שניות בין בקשות. הטעות השלישית היא התעלמות מ-JavaScript; ניסיון לחלץ נתונים מ-HTML סטטי ייכשל כי 70% מהתוכן נטען דינמית. חובה להשתמש בכלי שיכול לרנדר את הדף במלואו, כמו Selenium או Playwright.

איך אפשר לעקוב אחר זמינות של אנשי מקצוע באזורים ספציפיים באתר מידרג בצורה אוטומטית?▾

מעקב זמינות אוטומטי דורש סקריפט שמדמה את תהליך החיפוש של משתמש אנושי. השתמשו ב-Playwright כדי לנווט לעמוד החיפוש, להזין את התחום והאזור הרצויים, וללחוץ על כפתור החיפוש. לאחר קבלת התוצאות, יש לחלץ את המידע על זמינות, שלרוב מופיע כאלמנט UI ספציפי. חשוב לטפל ב-lazy loading על ידי גלילה מדומה לתחתית העמוד כדי להבטיח שכל התוצאות נטענו. מומלץ להריץ את הסקריפט כל 4-6 שעות כדי לקבל תמונה מדויקת מבלי להעמיס על שרתי האתר.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור