Scraping מגה ספורט: המדריך הטכני המלא למהנדסים

אם ניסיתם פעם לעשות scraping למגה ספורט עם סקריפט פשוט מבוסס requests, בטח גיליתם מהר מאוד שזה לא עובד. האתר, כמו רוב אתרי האיקומרס המודרניים, לא מגיש HTML נקי וסטטי. הוא דורש הרצת JavaScript כדי להציג מחירים, זמינות, ואפילו את רשימת המוצרים עצמה. זה המחסום הראשון, והוא מסנן את רוב הניסיונות החובבניים. במדריך הזה נדבר טכניקה. נצלול לארכיטקטורה, נבחר את הכלים הנכונים, ונדון באסטרטגיות שעובדות ב-2025 לאיסוף דאטה אמין מהאתר הזה.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה Requests לא מספיק ו-Playwright הוא התשובה

נתחיל מהבסיס. הנתונים הקריטיים באתר מגה ספורט, כמו מחירים ומבצעים, נטענים דינמית. שליחת בקשת GET פשוטה ל-URL של מוצר תחזיר לרוב HTML חלקי, מעין שלד של הדף בלי המידע שאתם באמת צריכים. זה קורה כי קריאות API פנימיות רצות ברקע אחרי טעינת הדף הראשונית ומאכלסות את התוכן. כאן נכנס לתמונה headless browser כמו Playwright. אל תתפתו להשתמש ב-Selenium, הוא איטי יותר והרבה יותר קל לזיהוי. עם Playwright, אנחנו מדמים דפדפן אמיתי שמריץ את כל ה-JavaScript הנדרש. זה פותר 90% מהבעיות הראשוניות. השילוב של Playwright עם תוסף ה-stealth שלו הוא קריטי. הוא מסתיר את העובדה שמדובר באוטומציה, מטפל בפרמטרים כמו navigator.webdriver, ומקשה משמעותית על מערכות הגנה בסיסיות לזהות את ה-scraper שלנו. זה לא פתרון קסם, אבל זה ה-baseline ההכרחי לכל פרויקט רציני של scraping מגה ספורט. בלי זה, אתם פשוט שורפים כתובות IP וזמן יקר.

איסוף קטלוג וניטור מחירים: ארכיטקטורת הסקרייפר

אחרי שבחרנו כלים, בואו נדבר על המבנה. המטרה הראשונה היא בדרך כלל איסוף קטלוג מגה ספורט מלא. מדובר על קטלוג עם עשרות אלפי מוצרים, אז יעילות היא שם המשחק. האסטרטגיה הנכונה היא דו-שלבית: השלב הראשון הוא Crawler שמטרתו היחידה היא לגלות URL-ים של מוצרים. הוא מתחיל מדפי הקטגוריות הראשיים, מנווט בין עמודי הפגניציה, ואוסף את כל הקישורים למוצרים. את הקישורים האלה הוא זורק לתור (Queue) מבוסס Redis או RabbitMQ. בשלב השני, יש לנו Worker-ים (או כמה מהם) ששולפים משימות מהתור. כל Worker מקבל URL של מוצר, פותח אותו עם Playwright, מחלץ את הנתונים הנדרשים (שם, מק"ט, תיאור, תמונות, מחיר), ומאחסן אותם בדאטהבייס. ההפרדה הזו קריטית. היא מאפשרת סקיילביליות, טיפול בשגיאות ברמת המשימה הבודדת, ומבטיחה שאם Worker אחד נופל, כל המערכת לא קורסת. לניטור מחירים מגה ספורט יומיומי, אנחנו פשוט מריצים את ה-Worker-ים על כלל ה-URL-ים שגילינו, בלי צורך להריץ את ה-Crawler בכל פעם (אלא אם נוספו מוצרים חדשים).

מעקב מלאי וזמינות: האתגר האמיתי בזמן אמת

כאן הדברים מסתבכים. מעקב מלאי/זמינות מגה ספורט דורש גישה שונה לחלוטין. בעוד שמחירים ופרטי מוצר משתנים אולי פעם ביום, המלאי יכול להשתנות כל דקה. להריץ Playwright על 20,000 מוצרים כל 5 דקות זה לא ישים, זה יקר מדי במשאבים ויפעיל כל מנגנון הגנה אפשרי. הפתרון הוא הנדסה לאחור. צריך לפתוח את כלי המפתחים בדפדפן, לסנן את תעבורת הרשת (XHR/Fetch), ולזהות את קריאות ה-API הספציפיות שאחראיות על בדיקת זמינות בסניפים או מלאי כללי. לרוב תמצאו נקודת קצה (endpoint) שמקבלת מזהה מוצר (SKU) ומחזירה JSON עם נתוני המלאי. זו קריאת ה-API שאתם רוצים לחקות. אתם עדיין צריכים לנהל Session ו-Cookies, ואולי גם טוקנים שונים, אבל קריאת API ישירה היא קלה ומהירה פי 1000 מהרצת דפדפן מלא. זה מאפשר לבדוק מאות מוצרים בשנייה. הצלחה של 99% בגישה הזו תלויה לחלוטין באיכות הנדסת הפרוקסי שלכם; בלי רוטציה נכונה של IP, תחסמו תוך דקות.

תרחיש הכישלון הנפוץ ביותר באתרים כמו מגה ספורט

בואו נדבר על איפה זה נשבר. התרחיש שראיתי הכי הרבה בפרויקטים של scraping באתרי ספורט וקמעונאות הוא לא חסימת IP ישירה, אלא "חסימה שקטה". ה-scraper רץ, הוא מקבל סטטוס 200, לא נזרקות שגיאות, אבל הנתונים שהוא מחזיר שגויים. למשל, המחיר שמופיע הוא מחיר ברירת מחדל, או שהזמינות תמיד מראה "אזל מהמלאי", גם כשזה לא נכון. זה קורה כי מערכות הגנה מתוחכמות מזהות את האוטומציה ומגישות לה דף שנראה תקין אבל מכיל מידע מטעה. זה מסוכן כי הסקריפט שלכם ידווח על הצלחה, והדאטהבייס יתמלא בזבל. איך מתמודדים? ולידציה. תמיד. לכל שדה שאתם מחלצים, תגדירו חוקים. האם המחיר הוא מספר חיובי בטווח סביר? האם שם המוצר מכיל יותר מ-5 תווים? אם 20% מהמוצרים פתאום מופיעים כ"לא זמינים", זה דגל אדום. כדאי להטמיע מערכת התראות אוטומטית שבודקת אנומליות כאלה ועוצרת את הריצה עד לבדיקה ידנית.

ממודיעין מתחרים ועד ליצירת API פרטי

אז מה עושים עם כל הדאטה הזה? מעבר למקרים הברורים, יש שני שימושים מתקדמים. הראשון הוא מודיעין מתחרים מגה ספורט. על ידי איסוף קטלוג מלא, כולל מבצעים ושינויי מחיר לאורך זמן, אפשר לזהות תבניות: מתי מתחילות מכירות סוף עונה, אילו מותגים מקבלים את ההנחות הגדולות ביותר, ואיך התמחור משתנה בתגובה למתחרים. המידע הזה הוא בעל ערך אסטרטגי עצום. השימוש השני הוא יצירת API / קובץ נתונים מגה ספורט לשימוש פנימי. אם אתם צריכים את נתוני המוצרים של מגה ספורט זמינים לאפליקציה פנימית או למערכת אחרת, אין דרך טובה יותר מאשר לבנות scraper שמייצא את המידע ל-JSON או CSV באופן קבוע. זה הופך אתר שאין לו API ציבורי למקור נתונים מובנה שאפשר לעבוד איתו. האתגר כאן הוא לא רק באיסוף הראשוני, אלא בתחזוקה. אתרים משנים את המבנה שלהם. סלקטור שהיה נכון אתמול יכול להישבר מחר. לכן, כל פרויקט כזה דורש ניטור מתמיד. אם אתם מתמודדים עם אתר המוגן על ידי Cloudflare, כדאי לקרוא על טכניקות מתקדמות לעקיפה.

נקודות מרכזיות

השתמשו ב-Playwright עם stealth; ספריות HTTP פשוטות כמו requests לא יעבדו על מגה ספורט.
הפרידו בין Crawler (מגלה URL-ים) ל-Worker-ים (מעבדי דפים) לארכיטקטורה סקיילבילית.
למעקב מלאי בזמן אמת, בצעו הנדסה לאחור לקריאות ה-API הפנימיות של האתר.
הטמיעו ולידציה אגרסיבית לנתונים כדי להימנע מ"חסימות שקטות" שמזרימות מידע שגוי.
תכננו לתחזוקה מתמדת; סלקטורים ומבנה האתר ישתנו ללא הודעה מוקדמת.

שאלות נפוצות

איך אני יכול לבנות API למחירי נעליים ממגה ספורט שמתעדכן כל 15 דקות?▾

כדי לבנות API יעיל למחירי נעליים ממגה ספורט, השתמש ב-Playwright על שרת שמריץ cron job כל 15 דקות. המשימה צריכה לאסוף רק את ה-SKU, המחיר, והמבצע מדפי המוצר הרלוונטיים, ולהימנע מאיסוף תמונות או תיאורים כדי לשמור על מהירות. את הנתונים יש לשמור במסד נתונים כמו PostgreSQL או Redis, ומעליו לחשוף endpoint פשוט באמצעות FastAPI. ארכיטקטורה זו מבטיחה latency נמוך של פחות מ-200ms לתגובת ה-API ומאפשרת ניטור מחירים בזמן אמת בלי להעמיס על המערכת.

מהי הדרך היעילה ביותר לעקוב אחר זמינות ומלאי של מידות ספציפיות באתר mega-sport.co.il?▾

הדרך היעילה ביותר למעקב מלאי ב-mega-sport.co.il היא להתמקד בבקשות ה-XHR הפנימיות שהאתר שולח לבדיקת זמינות מידות. במקום לרנדר את כל הדף עם Playwright, השתמש בכלי כמו Puppeteer כדי ליירט את קריאות ה-API האלו. לרוב, קריאה אחת מחזירה JSON עם כל המידות הזמינות למוצר ספציפי. גישה זו מפחיתה את צריכת המשאבים ב-70% בהשוואה לרינדור מלא ומאפשרת סריקה מהירה וממוקדת יותר של עשרות אלפי מוצרים בשעה.

כיצד ניתן לאסוף את כל קטלוג המוצרים של מגה ספורט, כולל תמונות ברזולוציה גבוהה?▾

איסוף קטלוג מלא ממגה ספורט דורש גישה דו-שלבית. ראשית, השתמש בספריית Scrapy ב-Python כדי לסרוק את דפי הקטגוריות ולאסוף את כל כתובות ה-URL של המוצרים, מה שמייצר רשימה של עשרות אלפי קישורים. בשלב השני, העבר את הרשימה הזו לתור משימות (כמו RabbitMQ) המנוהל על ידי workers של Playwright. כל worker יבקר בדף מוצר, יחלץ את הנתונים הנדרשים ויוריד את התמונה הראשית ברזולוציה הגבוהה ביותר הזמינה, תוך שמירה על קצב של כ-500 מוצרים לדקה.

מהם 3 הפרמטרים הקריטיים ב-header שחובה לזייף כדי להימנע מחסימה מיידית?▾

כדי להימנע מחסימה מיידית, חובה לזייף 3 פרמטרים ב-header של כל בקשה. הראשון והחשוב ביותר הוא ה-User-Agent; השתמש תמיד ב-User-Agent עדכני של דפדפן אמיתי כמו Chrome 125. השני הוא Accept-Language, הגדר אותו ל-he-IL,he;q=0.9. השלישי הוא Referer, ודא שהוא תמיד מצביע על דף קטגוריה או דף הבית של האתר עצמו. הזנחה של אחד משלושת אלו תסמן את התעבורה שלך כחשודה ותוביל לחסימה ב-95% מהמקרים.

איך אני מבצע scraping ממוקד עבור מודיעין מתחרים רק על מותגים ספציפיים במגה ספורט?▾

למודיעין מתחרים ממוקד, התחל בבניית רשימת כתובות URL של דפי המותג הרצויים במגה ספורט. במקום לסרוק את כל האתר, ה-scraper שלך צריך לבקר רק בכתובות אלו. השתמש בסלקטורי CSS מדויקים כדי לחלץ רק את שם המוצר, המחיר וכל תגית הנחה. לדוגמה, סלקטור כמו div.product-card span.price יכול להיות יעיל. הפעל את הסקריפט פעם ב-24 שעות כדי לזהות שינויי מחירים ומבצעים חדשים, ושלח התראה אוטומטית על כל שינוי שמתגלה.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור