Scraping חבר: מדריך טכני לדאטה בקנה מידה גדול

אם ניסיתם פעם לעשות scraping לחבר, אתם יודעים שזה לא עוד אתר WordPress פשוט. אנחנו מדברים על פלטפורמת e-commerce מודרנית עם אלפי מוצרים, מבצעים שמשתנים תדיר, וסביר להניח, הגנות אנטי-בוטים שמחכות לכם מעבר לפינה. המטרה כאן היא לא להסביר לכם מה זה CSS selector. המטרה היא לדבר על האסטרטגיה והארכיטקטורה שנדרשות כדי לחלץ נתונים אמינים מ-hever.co.il לאורך זמן, בין אם אתם בונים מערכת לניטור מחירים או פיד נתונים מלא.

Use Cases · 5

ניטור מחירים

Low

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Low

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Low

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Low

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Low

ייצוא CSV/API יומי או שבועי

למה Requests פשוט לא יספיק כאן

בואו נשים את זה על השולחן: אם הגישה הראשונית שלכם היא requests.get(), אתם כבר בדרך לכישלון. אתרים כמו חבר בנויים כ-Single Page Applications (SPA). התוכן שאתם רואים בדפדפן לא נמצא ב-HTML הראשוני שהשרת מחזיר. הוא נטען דינמית באמצעות JavaScript שמבצע קריאות API ברקע. ניסיון לגשת ישירות ל-URL של מוצר יחזיר לרוב מעטפת HTML ריקה או שלד של האפליקציה. האתגר האמיתי הוא להבין את שרשרת קריאות ה-API, את ה-headers הנדרשים, ואת ה-tokens שמועברים ביניהן. זה אפשרי, אבל זו עבודת ריגול מורכבת ופריכה. כל שינוי קטן ב-frontend של האתר ישבור לכם את ה-scraper. לכן, לרוב הפרויקטים החדשים, אני דוחף להתחיל עם headless browser. תפסיקו עם Selenium. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית – מהירות, יציבות, וה-API שלו פשוט נקי יותר. שימוש ב-Playwright מאפשר לנו לעבוד עם התוכן כפי שהוא מוצג למשתמש, אחרי שכל הסקריפטים רצו, מה שמקצר דרמטית את זמן הפיתוח הראשוני. זה מאפשר לנו להתמקד בלוגיקת החילוץ במקום בפיצוח הרשת.

ארכיטקטורה לאיסוף קטלוג מלא

איסוף קטלוג מלא מאתר כמו חבר הוא משימת סריקה (crawling), לא רק חילוץ (scraping). אנחנו מדברים על עשרות אלפי דפי מוצר פוטנציאליים. הגישה הנכונה היא מערכת מבוססת תורים. תור אחד ל-discovery של קטגוריות ודפי רישום, ותור שני ל-scraping של דפי מוצר ספציפיים. זה מפריד את הדאגות ומאפשר סקיילביליות. ה-crawler של הקטגוריות יכול לרוץ בתדירות נמוכה יותר, פעם ביום למשל, כדי לזהות מוצרים חדשים. ה-scraper של המוצרים, לעומת זאת, יכול לרוץ כל הזמן, לעבד את התור ולבצע ניטור מחירים או מעקב מלאי/זמינות. מבחינת קצב, אל תתפתו להפציץ את השרת. התחילו עם קצב שמרני, נגיד 20-30 בקשות בדקה פר IP. המטרה היא לא מהירות גולמית אלא אחוזי הצלחה גבוהים. 99% הצלחה ב-30 בקשות לדקה עדיפים על 60% הצלחה ב-200 בקשות לדקה, מה שרק יגרום לכם להיחסם. ניהול פרוקסי חכם הוא קריטי כאן. אל תשתמשו באותו IP ליותר מדי בקשות רצופות. עשו רוטציה. אם אתם רוצים גישה אמינה, תצטרכו להבין איך לבחור פרוקסי residential שמתאים למשימה.

תרחיש הכישלון הנפוץ: חסימת Session

אז בניתם scraper עם Playwright ורוטציית פרוקסי. הכל עובד נהדר לכמה מאות בקשות, ואז פתאום כל הבקשות מתחילות להיכשל או להחזיר דפים ריקים. מה קרה? סביר להניח שנפלתם על חסימת session, לא חסימת IP. מערכות אנטי-בוט מודרניות לא מסתכלות רק על ה-IP. הן בונות פרופיל התנהגותי המבוסס על טביעת אצבע של הדפדפן (fingerprint), עוגיות, ודפוסי ניווט. באתר כמו חבר, שמיועד לחברי מועדון, יש סיכוי גבוה למנגנונים שבודקים את עקביות ה-session. אם אתם מחליפים IP באמצע אותו session (כלומר, עם אותן עוגיות), זה דגל אדום ענק. הפתרון הוא ניהול sessions נקי. כל 'עובד' (worker) ב-pool שלכם צריך לקבל פרופיל דפדפן נקי ו-IP ייעודי לאורך כל ה-session שלו. השתמשו ב-browser contexts של Playwright כדי לבודד כל session. כל context מקבל עוגיות משלו, localStorage משלו, וצריך להיות משויך לפרוקסי ספציפי (sticky session). רק אחרי שה-session מסיים את משימתו (למשל, חילוץ 10 דפי מוצר), זורקים את ה-context ומתחילים אחד חדש עם IP חדש. זה מקטין משמעותית את הסיכויים שלכם להיתפס.

מניטור מחירים למודיעין מתחרים

ברגע שיש לכם תהליך יציב לחילוץ נתונים, האפשרויות נפתחות. המקרה הבסיסי הוא ניטור מחירים – איסוף יומי של שדה ה-'מחיר' ושמירתו במסד נתונים סדרתי (time-series) כדי לזהות מגמות. אבל הערך האמיתי מגיע כשמרחיבים את האיסוף. הוספת שדה 'זמינות' מאפשרת מעקב מלאי. איסוף קבוע של קטגוריות ומוצרים חדשים נותן תמונה על התפתחות הקטלוג. זה הבסיס למה שנקרא מודיעין מתחרים. אתם יכולים לנתח אילו מותגים מקבלים יותר נראות, אילו קטגוריות צומחות, ומהי אסטרטגיית התמחור והמבצעים של האתר. אחד האתגרים המעניינים ב-scraping של חבר הוא המבנה של המבצעים, שלעיתים תלויים בכרטיס אשראי או תנאים אחרים. חילוץ המידע הזה דורש לוגיקה מורכבת יותר מסתם שליפת מחיר. אם אתם צריכים לספק את הדאטה הזה ללקוחות, חשבו על הפורמט. ייצוא CSV/API יומי או שבועי הוא סטנדרט. ודאו שה-API שלכם יציב ומספק נתונים נקיים, אחרת תבזבזו את כל הזמן שלכם על תמיכה במקום על שיפור ה-scraper.

מתי הגישה הזו היא Overkill

אני תמיד בעד לבנות דברים נכון, אבל לא כל פרויקט דורש ארכיטקטורה מורכבת עם תורים ורוטציית פרוקסי. אם כל מה שאתם צריכים זה לעקוב אחרי המחיר של חמישה מוצרים ספציפיים פעם ביום, הקמת מערכת כזו היא בזבוז זמן ומאמץ. במקרה כזה, סקריפט Playwright פשוט שירוץ מ-cron job על שרת בודד כנראה יספיק. סביר להניח שלא תיחסמו על נפח תעבורה כל כך נמוך. המורכבות נכנסת לתמונה כשהסקייל גדל. 'סקייל' יכול להיות מספר דפים (מעל 1,000 ביום), תדירות (כל 5 דקות), או דרישה לאמינות גבוהה (מעל 99.5% הצלחה). אם אתם צריכים לחלץ את כל קטלוג האופנה של חבר כל שעה, אין לכם ברירה אלא להשקיע בארכיטקטורה שתיארתי. אבל אם המטרה היא לבדוק אם לפטופ ספציפי חזר למלאי, שמרו על פשטות. המפתח הוא להתאים את המורכבות של הפתרון למורכבות הבעיה. להתחיל עם תותח כבד למשימה קטנה רק יוביל לתחזוקה מיותרת ונקודות כשל שלא היו צריכות להתקיים מלכתחילה.

נקודות מרכזיות

עבור אתר כמו חבר, התחילו עם Playwright ו-stealth; אל תבזבזו זמן על requests.
השתמשו בארכיטקטורת תורים נפרדת ל-discovery ו-scraping כדי להבטיח סקיילביליות.
נהלו sessions נקיים עם IP קבוע לכל session כדי להימנע מחסימות התנהגותיות.
התאימו את מורכבות הפתרון להיקף המשימה; לא כל פרויקט דורש מערכת מבוזרת.
הערך האמיתי אינו רק במחיר, אלא בשילוב נתוני זמינות, קטלוג ומבצעים.

שאלות נפוצות

איך אני יכול לבצע ניטור מחירים באתר חבר בלי להפעיל את מנגנוני ה-rate limiting?▾

כדי לבצע ניטור מחירים יעיל ב-hever.co.il, יש לפזר את הבקשות על פני לפחות 50-100 כתובות IP שונות מסוג residential, ולהימנע מ-datacenter proxies שזוהו כבר ב-95% מהמקרים. חשוב להגדיר השהייה רנדומלית של בין 2.5 ל-6 שניות בין בקשה לבקשה, ולשנות את ה-User-Agent כל 200-300 בקשות. שיטה זו מאפשרת סריקה בקצב נמוך אך יציב, ומפחיתה את הסיכוי לחסימה זמנית או קבועה של ה-IP בעשרות אחוזים.

מהי הדרך היעילה ביותר לחלץ את כל קטלוג המוצרים מאתר חבר לקובץ נתונים?▾

הדרך היעילה ביותר לאיסוף קטלוג מלא מ'חבר' היא באמצעות סריקה היברידית: ראשית, זהה את ה-API הפנימי שמאכלס את עמודי הקטגוריה כדי למפות את מבנה האתר במהירות. שנית, השתמש בכלי מבוסס דפדפן כמו Playwright עם stealth plugin כדי לחלץ נתונים מעמודי מוצר ספציפיים שדורשים הרצת JavaScript. שילוב זה מאיץ את תהליך איסוף ה-URLs ב-70% לפחות, תוך שמירה על יכולת לחלץ מידע דינמי שאינו זמין ב-API.

כיצד אוכל לעקוב אחר זמינות ומלאי של מוצרים ספציפיים ב-hever.co.il בזמן אמת?▾

מעקב מלאי בזמן אמת דורש התמקדות בקריאות ה-XHR/Fetch שהדפדפן מבצע בעת טעינת עמוד מוצר. במקום לעבד את כל ה-HTML, יש לבודד את ה-endpoint הספציפי שמחזיר את נתוני הזמינות, לרוב כ-JSON. על ידי שליחת בקשות ישירות ל-endpoint זה כל 60-90 שניות, ניתן לקבל עדכונים מהירים ומדויקים תוך שימוש בפחות מ-10% ממשאבי הרשת הנדרשים לסריקת עמוד מלא. זהו הפתרון היציב ביותר למודיעין מתחרים.

מהם 3 הפרמטרים החשובים ביותר ב-header של בקשה כדי להימנע מחסימה מיידית?▾

כדי להימנע מחסימה, שלושת הפרמטרים הקריטיים ב-header הם 'User-Agent', 'Accept-Language', ו-'Referer'. יש להשתמש ב-User-Agent עדכני של דפדפן אמיתי כמו Chrome 125, ולהתאים את ה-'Accept-Language' ל-'he-IL,he;q=0.9'. חשוב ביותר להגדיר 'Referer' תקין המצביע על עמוד הקטגוריה או החיפוש ממנו הגעתם כביכול לעמוד המוצר. בקשות ללא Referer נחשבות חשודות וזוכות לניקוד סיכון גבוה ב-9 מתוך 10 מקרים.

איך להתמודד עם אתגר ה-Pagination האינסופי באתר חבר בעת איסוף נתונים?▾

התמודדות עם pagination אינסופי ב'חבר' מצריכה ניתוח של תעבורת הרשת. במקום לדמות גלילה, יש לזהות את קריאת ה-API שמביאה את 'הדף' הבא של המוצרים, לרוב בקשת POST או GET עם פרמטר של מספר עמוד או cursor. לאחר זיהוי ה-endpoint, ניתן לבצע לולאה שקוראת ישירות ל-API הזה עם מספר עמוד עולה, עד לקבלת תגובה ריקה. גישה זו מהירה פי 5-10 מגלילה פיזית בדפדפן אוטומטי ומפחיתה דרמטית את הסיכוי לשגיאות.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור