Scraping H&M Israel: מדריך טכני לעומק למפתחים

במבט ראשון, ביצוע scraping H&M Israel נראה כמו עוד פרויקט e-commerce סטנדרטי. האתר נקי, הניווט ברור, והמבנה נראה צפוי. אבל זה בדיוק המקום שבו רוב המהנדסים עושים טעות. הם מניחים ש-requests ו-BeautifulSoup יספיקו, ומגלים מאוחר מדי שהם מפספסים 80% מהנתונים הקריטיים. האמת היא שמתחת לממשק המשתמש הפשוט מסתתרת ארכיטקטורה מבוססת JavaScript ו-API פנימי שמצריכה גישה מתוחכמת יותר. אם המטרה היא לאסוף דאטה אמין ומלא, צריך לחשוב כמו דפדפן, לא כמו סקריפט פשוט.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה גישת ה-Scraping הקלאסית נידונה לכישלון כאן

נתחיל מהסוף: אם אתה מנסה לשלוח בקשת GET פשוטה לדף קטגוריה ב-H&M Israel ולנתח את ה-HTML, אתה תקבל שלד ריק. רוב תוכן העמוד, כולל רשימת המוצרים, המחירים והתמונות, נטען באופן דינמי באמצעות JavaScript לאחר טעינת העמוד הראשונית. זהו الگו נפוץ באתרי SPA (Single Page Application) מודרניים, והוא פוסל על הסף כל כלי שלא מסוגל לרנדר JS.

בדיקה מהירה ב-DevTools תחת تب Network חושפת את האמת. בזמן הגלילה או המעבר בין עמודים בקטגוריה, הדפדפן לא טוען דפי HTML חדשים. במקום זאת, הוא שולח בקשות XHR (XMLHttpRequest) לאנדפוינטים של API פנימי שמחזירים את נתוני המוצרים בפורמט JSON. זהו מכרה זהב. הנדסה הפוכה של הבקשות הללו היא הדרך היעילה ביותר לביצוע איסוף קטלוג H&M Israel בקנה מידה גדול. היא חוסכת את התקורה של רינדור דף שלם, ומאפשרת לך לגשת לנתונים הגולמיים ישירות. עם זאת, זה לא טריוויאלי. בקשות אלו לרוב דורשות הדרים (headers) ספציפיים, טוקנים של סשן או עוגיות כדי שהשרת יזהה אותן כלגיטימיות. ניסיון לשלוח את הבקשה בלי ההקשר הנכון יחזיר שגיאת 401 או 403. לכן, השלב הראשון הוא לא כתיבת קוד, אלא הבנה עמוקה של תעבורת הרשת של האתר.

האתגר האמיתי: זמינות מלאי ווריאציות של מוצרים

כאן רוב ה-scrapers נופלים, גם אלה שמצליחים לחלץ את רשימת המוצרים הראשונית. באתר אופנה כמו H&M Israel, מוצר הוא לא ישות אחת. חולצה מגיעה ב-5 מידות ו-3 צבעים, מה שאומר 15 וריאציות (SKUs) שונות. המידע החשוב באמת עבור מעקב מלאי/זמינות H&M Israel הוא לא אם המוצר קיים, אלא אם מידה M בצבע כחול נמצאת במלאי. המידע הזה כמעט אף פעם לא נמצא בטעינת העמוד הראשית.

לרוב, נתוני המלאי נטענים רק כאשר המשתמש מבצע אינטראקציה – לחיצה על צבע או בחירת מידה. אינטראקציה זו מפעילה בקשת API נוספת, ייעודית לווריאציה הספציפית, שמחזירה את מצב הזמינות שלה. זהו תרחיש כשל קלאסי: ה-scraper שלך מדווח שהמוצר זמין, אבל בפועל כל המידות הפופולריות אזלו. כדי לפתור זאת, יש שתי גישות עיקריות. הראשונה היא להשתמש ב-headless browser כמו Playwright כדי לבצע סימולציה של לחיצות על כל מידה וצבע וליירט את בקשות ה-API. זה אמין אבל איטי. הגישה השנייה, המועדפת לפרויקטים גדולים, היא לבצע הנדסה הפוכה של אותן בקשות API ולשחזר אותן ישירות בקוד שלך, מה שדורש הבנה של הלוגיקה בצד הלקוח. המדריך שלנו בנושא טיפול בשגיאות 429 ו-Rate Limiting יכול לעזור לך להימנע מחסימות כשאתה מתחיל לבצע את הבקשות המרובות האלה.

בניית תשתית לניטור מחירים ומודיעין מתחרים

אחרי שפיצחנו את איסוף המוצרים והמלאי, השלב הבא הוא לבנות תהליך אמין שירוץ לאורך זמן. המטרה כאן היא לא רק איסוף חד-פעמי, אלא יצירת סט נתונים היסטורי. זה קריטי עבור מקרי שימוש כמו ניטור מחירים H&M Israel ומודיעין מתחרים H&M Israel. אנחנו רוצים לדעת מתי מחיר ירד, מתי מוצר חדש נוסף לקטגוריה מסוימת, או מתי פריט חזר למלאי. זה דורש תזמון קבוע של ה-scraper (למשל, כל 4 שעות) והשוואה של התוצאות החדשות לדאטהסט הקיים.

האתגר הגדול בקנה מידה כזה הוא ניהול פרוקסי. הרצת scraper על קטלוג של 20,000 מוצרים, כל אחד עם מספר וריאציות, יכולה לייצר עשרות אלפי בקשות בריצה אחת. ביצוע כמות כזו של בקשות מ-IP בודד הוא דרך בטוחה להיחסם תוך דקות. לכן, שימוש ב-proxy rotation איכותי הוא חובה, לא המלצה. המפתח הוא לא רק להחליף IP, אלא להשתמש ב-IPs שמתאימים לגיאוגרפיה של האתר (ישראל, במקרה הזה) ולוודא שהם 'נקיים'. ניהול סשנים על פני פרוקסי שונים הוא אתגר נוסף; צריך לשמר עוגיות והדרים רלוונטיים כדי שהאתר ימשיך 'לחשוב' שמדובר באותו משתמש. זה המקום שבו איך לבחור פרוקסי residential הופך לקריאה חיונית, כי הבחירה הנכונה יכולה לקבוע את ההבדל בין 99% הצלחה ל-30%.

מתי גישת ה-API היא לא הפתרון הנכון

אני בדרך כלל תומך נלהב בגישת ה-API-first. היא מהירה יותר, יעילה יותר ומחזירה נתונים מובנים. אבל יש מקרים שבהם היא לא מספיקה, או אפילו מטעה. למשל, כשאתר מבצע בדיקות A/B או מציג מבצעים מותנים שמופעלים על ידי לוגיקה בצד הלקוח. ייתכן שה-API יחזיר מחיר בסיס, אבל סקריפט שרץ בדפדפן מוסיף הנחה של 20% בקופה או מציג באנר 'קנה 2 קבל 1' שמשפיע על ההחלטה. אם אתה מסתמך רק על ה-API, אתה תפספס את המידע הזה.

תרחיש נוסף הוא כאשר ה-API מוגן במנגנונים מתוחכמים כמו טביעת אצבע של הדפדפן (fingerprinting). במקרים אלה, שחזור הבקשה באופן ידני הופך למורכב מאוד ודורש פיצוח של קוד JavaScript שעבר אובפוסקציה. כאן, שימוש ב-headless browser הופך לא רק לאופציה, אלא לדרך היחידה כמעט. כלים כמו Playwright, במיוחד עם תוספים כמו מדריך Playwright stealth, יכולים לעקוף רבים מהמנגנונים האלה כי הם מריצים דפדפן אמיתי. ה-trade-off הוא כמובן ביצועים וצריכת משאבים. ריצה של 1000 בקשות API במקביל היא פשוטה. ריצה של 1000 מופעי דפדפן במקביל דורשת תשתית רצינית. לכן, הבחירה בין הגישות תלויה במטרה: לניטור מחירים בסיסי, API זה מספיק. לניתוח מבצעים מורכבים, ייתכן שתצטרך דפדפן מלא.

הפיכת הנתונים ל-API או קובץ נתונים שמיש

איסוף הנתונים הוא רק חצי מהעבודה. דאטה גולמי שיושב במסד נתונים הוא חסר תועלת אם לא ניתן לגשת אליו בקלות. השלב האחרון והחשוב לא פחות הוא הפיכת המידע הגולמי למוצר נתונים. עבור רוב הלקוחות או הצוותים הפנימיים, זה אומר לספק API / קובץ נתונים H&M Israel בצורה נקייה ומתועדת. זה יכול להיות אנדפוינט API שמחזיר את כל המוצרים בקטגוריה מסוימת, או ייצוא יומי של קובץ CSV עם כל שינויי המחיר והמלאי מה-24 השעות האחרונות.

האתגר הטכני כאן הוא ניקוי וסטנדרטיזציה של הנתונים. שמות מוצרים יכולים להכיל תווים מיותרים, מחירים יכולים להופיע בפורמטים שונים, וקטגוריות יכולות להיות מקוננות. בניית שכבת טרנספורמציה (ETL) חזקה היא קריטית. חשוב גם לתכנן את מבנה הנתונים כך שיהיה קל לשאילתות. למשל, במקום לשמור את כל וריאציות המידה והצבע באותו שדה JSON, עדיף לנרמל אותן לטבלה נפרדת עם מפתח זר למוצר האב. זה מאפשר שאילתות מהירות ויעילות כמו "הצג לי את כל החולצות השחורות במידה L שנמצאות במלאי". בסופו של דבר, איכות ה-scraper נמדדת לא בכמות הדפים שהוא יכול לאסוף, אלא באיכות ובשימושיות של הנתונים שהוא מספק.

נקודות מרכזיות

אל תשתמש ב-requests ו-BeautifulSoup עבור H&M Israel; האתר דורש רינדור JavaScript.
המידע הקריטי על מלאי וזמינות נמצא בבקשות API שמופעלות על ידי אינטראקציית משתמש.
הנדסה הפוכה של ה-API הפנימי היא הגישה המהירה ביותר, אך דורשת ניהול סשנים והדרים.
לסקיילינג, proxy rotation גיאוגרפי (ישראל) הוא חובה כדי להימנע מחסימות מהירות.
לניתוח מבצעים מורכבים, ייתכן שתצטרך headless browser כמו Playwright ולא להסתמך רק על ה-API.

שאלות נפוצות

איך אני יכול לעשות scraping לכל קטלוג המוצרים של H&M Israel אם אין להם API ציבורי?▾

ניתן לאסוף את כל קטלוג המוצרים של H&M Israel על ידי הנדסה הפוכה (reverse engineering) של ה-API הפנימי שלהם, המשמש את האתר עצמו. התחילו בניטור קריאות הרשת בכלי הפיתוח של הדפדפן (למשל, בלשונית 'Network') בזמן ניווט בין קטגוריות. חפשו בקשות מסוג XHR או Fetch שמחזירות JSON עם נתוני מוצרים. שיטה זו יעילה ב-95% יותר מ-scraping מלא של HTML, מפחיתה את תעבורת הרשת ומקטינה משמעותית את הסיכוי לחסימה. גישה זו דורשת ניתוח ראשוני של ה-endpoints והפרמטרים הנדרשים.

מהי הדרך היעילה ביותר לניטור שינויי מחירים וזמינות מלאי ב-H&M Israel בזמן אמת?▾

הדרך היעילה ביותר לניטור מחירים ומלאי ב-H&M Israel היא באמצעות סקריפט ממוקד שקורא ישירות ל-API הפנימי של המוצר, במקום לטעון את כל דף ה-HTML. לאחר זיהוי קוד המוצר (product code), ניתן לבצע קריאת API ספציפית לקבלת נתוני מלאי ומידות. גישה זו מפחיתה את ה-latency בכ-80% בהשוואה לשימוש בדפדפן headless כמו Playwright. לתדירות גבוהה, מומלץ להריץ את הבדיקה כל 15-30 דקות ולהשתמש ב-proxy pool קטן כדי למנוע חסימות IP.

כיצד ניתן לאסוף את כל תמונות המוצרים ברזולוציה גבוהה מהאתר hm.com/il?▾

איסוף תמונות ברזולוציה גבוהה מ-hm.com/il מתבצע ביעילות דרך ניתוח ה-JSON שמתקבל מה-API הפנימי שלהם, ולא על ידי חילוץ תגיות <img> מה-HTML. אובייקט המוצר ב-JSON מכיל בדרך כלל מערך של נכסים (assets) או תמונות, כולל כתובות URL לתמונות בפורמטים ורזולוציות שונות. על ידי שינוי פרמטרים בכתובת ה-URL של התמונה, כמו width או quality, ניתן לקבל את הגרסה המקורית והאיכותית ביותר, לעיתים קרובות ברזולוציה של מעל 2000x2000 פיקסלים.

האם יש צורך בדפדפן headless כמו Puppeteer כדי לעשות scraping ל-H&M Israel, או שניתן להסתפק ב-requests?▾

עבור 90% ממקרי השימוש, כולל איסוף נתוני מוצרים, מחירים ומלאי, אין צורך בדפדפן headless. ניתן להסתפק בספריית HTTP פשוטה כמו requests בפייתון לאחר ניתוח ה-API הפנימי של האתר. שימוש ב-headless browser (כמו Puppeteer או Playwright) נדרש רק במקרים נדירים בהם יש צורך באינטראקציה מורכבת עם JavaScript בצד הלקוח, כמו התמודדות עם אתגרי CAPTCHA מתקדמים או לוגיקה שאינה חשופה ב-API. התחילו תמיד עם גישת ה-API, היא מהירה ויציבה יותר.

מהי הסיבה המרכזית לחסימות IP מ-hm.com/il ואיך ניתן להימנע ממנה ביעילות?▾

הסיבה המרכזית לחסימות IP מ-hm.com/il היא ביצוע מספר רב של בקשות מהירות מדי מכתובת IP בודדת, מה שמפעיל את מנגנוני ה-rate limiting שלהם. כדי להימנע מכך, יש ליישם 3 טכניקות: ראשית, השתמשו ב-rotating residential proxies כדי לפזר את הבקשות על פני מאגר של לפחות 20-30 כתובות IP שונות. שנית, הגבילו את קצב הבקשות לקריאה אחת כל 2-4 שניות בממוצע. שלישית, ודאו שכל בקשה כוללת User-Agent תקין ועדכני המדמה דפדפן מודרני.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור