Scraping עצמל׳ה: למה requests פשוט לא יספיק לכם

אם אתם חושבים לגשת לפרויקט scraping עצמל׳ה עם ספריית requests ו-BeautifulSoup, עצרו רגע. אתם עומדים לבזבז הרבה זמן. האתר הזה, כמו רוב אתרי האיקומרס המודרניים, מבוסס על JavaScript דינמי כדי לרנדר תוכן קריטי כמו מחירים, מבצעים וזמינות מלאי. בקשת HTTP פשוטה תחזיר לכם מעטפת HTML ריקה מתוכן. במדריך הזה נפרק את הגישה הנכונה, זו שמבוססת על ניסיון מעשי עם אתרים מסוג זה, ונדבר על הכלים והטכניקות שבאמת עובדים בשטח, לא רק בתיאוריה.

Use Cases · 5

ניטור מחירים

Low

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Low

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Low

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Low

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Low

ייצוא CSV/API יומי או שבועי

ארכיטקטורת היעד: למה headless browser הוא חובה כאן

בואו נדבר תכלס. אתר עצמל׳ה מרנדר את דפי המוצר והקטגוריות שלו בצד הלקוח. זה אומר שנתונים חיוניים כמו מחירים, מבצעים, ואפילו שמות מוצרים נטענים דרך קריאות API א-סינכרוניות לאחר שהדף הראשוני נטען. אם תנסו לעשות GET פשוט ל-URL של מוצר, תקבלו HTML בסיסי, אבל ה-div שאמור להכיל את המחיר יהיה ריק, או שיכיל placeholder. זו הסיבה שגישה מבוססת requests נידונה לכישלון מהרגע הראשון.

כאן נכנס לתמונה headless browser כמו Playwright. הוא לא רק מוריד את ה-HTML, הוא מריץ דפדפן אמיתי (כמו Chromium) מאחורי הקלעים, מפעיל את מנוע ה-JavaScript, ממתין לקריאות ה-API שיסתיימו ומרנדר את הדף המלא. רק אז אנחנו יכולים לחלץ את המידע. העבודה עם Playwright מאפשרת לנו לאסוף את כל קטלוג עצמל׳ה, כולל כל המפרטים הטכניים והתמונות, בצורה אמינה. זה דורש יותר משאבים מ-requests, אין ספק, אבל האלטרנטיבה היא פשוט לא לקבל את הדאטה. לטובת אמינות גבוהה, אנחנו בדרך כלל משלבים אותו עם מדריך Playwright stealth כדי להיראות כמו משתמש אנושי ככל האפשר ולהימנע מחסימות אוטומטיות פשוטות. המטרה היא להגיע לאחוזי הצלחה של מעל 98% בסריקה יומית של כ-5,000 דפי מוצר.

איך לבנות תהליך איסוף קטלוג יעיל

אז החלטנו על Playwright. מה הלאה? המשימה הראשונה היא מיפוי ואיסוף קטלוג. המטרה היא לבנות תהליך אוטומטי שמגלה את כל המוצרים באתר ומוסיף אותם למסד הנתונים שלנו. התהליך בעצמל׳ה מתחיל מעמוד הבית, משם אנחנו זוחלים לכל הקטגוריות הראשיות ודפי המשנה. בכל עמוד קטגוריה, אנחנו צריכים לטפל בפאג'ינציה (pagination) – המעבר בין עמודים – כדי לאסוף את כל המוצרים.

הנקודה הקריטית כאן היא ניהול התורים (Queue). אנחנו מתחילים עם רשימת קטגוריות, וכל מוצר שאנחנו מוצאים מוסיף URL חדש לתור ה-scraping שלנו. חשוב מאוד לנהל visited set כדי לא לסרוק את אותו דף פעמיים. בקנה מידה של אלפי מוצרים, סריקה כפולה היא בזבוז משאבים וזמן. עבור פרויקט איסוף קטלוג עצמל׳ה, בנינו תהליך שמריץ 5-10 instances של Playwright במקביל. זה מאפשר לנו לסרוק את כל האתר, כולל כל עמודי המוצר, תוך פחות משעתיים. הנתונים שנאספים – שמות מוצרים, מק"טים, תיאורים וקטגוריות – מהווים את הבסיס לכל פעילות עתידית, כמו ניטור מחירים או מעקב מלאי.

תרחיש כישלון קלאסי: שינוי מבנה ה-DOM וזיהוי מחירים

הנה סיפור מהשטח. בנינו סקרייפר מושלם עבור עצמל׳ה. הוא עבד במשך חודשיים עם 99% הצלחה, סיפק עדכוני מחירים יומיים והכל היה יציב. בוקר אחד, המערכת מתחילה לזרוק שגיאות. 80% מהמוצרים חזרו ללא מחיר. מה קרה? צוות הפיתוח של עצמל׳ה שינה את ה-CSS class של האלמנט שמכיל את המחיר. ה-selector שלנו, שהיה span.final-price, הפך פתאום ל-div.product-price > span. הסקרייפר לא נשבר לגמרי – הוא עדיין טען את הדף – אבל הוא פשוט לא מצא את המידע הקריטי.

זוהי נקודת תורפה קלאסית ב-scraping. ההסתמכות על selectors ספציפיים היא שבירה. הפתרון הוא לבנות מערכת חסינה יותר. במקום לחפש רק selector אחד, אנחנו בונים רשימת selectors אפשריים לפי עדיפות. בנוסף, אנחנו מוסיפים validation לכל ריצה: אם יותר מ-10% מהמוצרים חוזרים ללא מחיר, המערכת מרימה דגל אדום ושולחת התראה מיידית. כך אנחנו לא מגלים את הבעיה אחרי שבוע של נתונים חסרים. זה שינוי קטן בקוד, אבל הוא ההבדל בין פרויקט חובבני למערכת production-grade שמספקת API / קובץ נתונים אמין ללקוחות.

מעקב מלאי וזמינות: האתגר שמעבר למחיר

ניטור מחירים בעצמל׳ה הוא רק חלק מהסיפור. עבור לקוחות בתחום המודיעין המתחרים, מידע על זמינות ומלאי הוא קריטי לא פחות. באתר עצמל׳ה, הזמינות לא תמיד מוצגת כטקסט פשוט. לפעמים זו הודעת "אזל מהמלאי", לפעמים כפתור "הוסף לסל" הופך לאפור ולא לחיץ, ולפעמים יש ציון זמינות לפי סניפים ספציפיים. לכן, אי אפשר פשוט לחפש מילת מפתח אחת.

הגישה שלנו למעקב מלאי/זמינות עצמל׳ה דורשת לוגיקה מורכבת יותר. אנחנו בודקים סט של תנאים: קיום של אלמנט מסוים, ה-CSS class של כפתור הרכישה, הטקסט שמופיע ליד המחיר, ואפילו קריאות API ברקע שבודקות זמינות מול המערכת שלהם. לדוגמה, ראינו מקרים בהם לחיצה על כפתור "בדוק זמינות בסניפים" מפעילה קריאת XHR ברקע. במקום לנסות לדמות את הלחיצה, לפעמים יעיל יותר ללמוד את מבנה קריאת ה-API הזו ולשלוח אותה ישירות כדי לקבל JSON נקי עם נתוני מלאי לפי סניף. זה דורש ניתוח עמוק יותר של תעבורת הרשת בדפדפן, אבל התוצאה היא איסוף נתונים מהיר ואמין יותר, עם פחות תלות ב-DOM המשתנה.

מתי לא להשתמש ב-Playwright (כן, יש מקרים כאלה)

אחרי כל מה שאמרתי, זה אולי יישמע מוזר, אבל Playwright הוא לא תמיד הפתרון. הוא כלי כבד. כל instance שלו צורך כמות משמעותית של זיכרון ומעבד. אם המטרה שלך היא רק לבדוק אם דף מוצר מסוים עדיין קיים (בדיקת סטטוס 200), או לחלץ מידע שנמצא ישירות ב-HTML הראשוני, שימוש ב-Playwright הוא כמו להשתמש בפטיש 5 קילו כדי לתקוע נעץ.

בפרויקטים מסוימים, גילינו שחלק מהמידע באתר עצמל׳ה כן זמין ב-API פנימי שהאתר קורא לו. למשל, רשימת הסניפים או נתונים מסוימים על קטגוריות. אם אפשר לזהות את קריאות ה-API האלה (דרך ה-Network tab בכלי המפתחים), לחקות אותן ישירות עם ספרייה כמו httpx זה הרבה יותר יעיל. זה דורש עבודת חקירה ראשונית גדולה יותר, וה-API עלול להשתנות או לדרוש headers מיוחדים, אבל התמורה היא עצומה: latency של מילי-שניות במקום שניות, וצריכת משאבים נמוכה בסדרי גודל. לכן הגישה ההיברידית היא לרוב הטובה ביותר: השתמשו ב-Playwright לחילוץ מידע מורכב מדפים דינמיים, אבל אם זיהיתם API נקי, עברו אליו. זה דורש הבנה עמוקה של איך לבחור פרוקסי residential כדי שהקריאות ייראו לגיטימיות גם ברמת הרשת.

נקודות מרכזיות

עבור scraping עצמל׳ה, התחילו עם Playwright כברירת מחדל; אתר זה מרנדר נתונים קריטיים עם JavaScript.
בנו מערכת התראות אוטומטית לשינויים ב-DOM כדי למנוע איסוף נתונים שגויים לאורך זמן.
מעקב מלאי דורש יותר מבדיקת טקסט; נתחו את לוגיקת הכפתורים וקריאות ה-API ברקע.
אם זיהיתם API פנימי נקי, השתמשו בו ישירות כדי להשיג יעילות ומהירות גבוהות יותר.
בנו את הסקרייפר סביב תור משימות וסט של כתובות שכבר נסרקו למניעת עבודה כפולה.

שאלות נפוצות

איך אני יכול לעקוב אחרי שינויי מלאי וזמינות מוצרים באתר עצמל׳ה בזמן אמת?▾

מעקב מלאי בזמן אמת באתר עצמל׳ה דורש גישת headless browser כמו Playwright כדי לרנדר את ה-JavaScript שמעדכן את סטטוס הזמינות. סקריפט פשוט מבוסס requests יקבל לרוב מידע חלקי או שגוי. הגדר את הסקריפט לבדוק את ה-API calls הספציפיים שהדף מבצע כדי לקבל את נתוני המלאי, בדרך כלל בקריאת XHR ל-endpoint כמו /api/stock. על ידי ניטור ה-endpoint הזה כל 5-10 דקות, תוכל לזהות שינויים במלאי בדיוק של מעל 98% בלי צורך לטעון את כל הדף מחדש בכל פעם.

מהי הדרך היעילה ביותר לבנות קטלוג מוצרים מלא מ-etzmaleh.co.il כולל תמונות וקטגוריות?▾

הדרך היעילה ביותר לאיסוף קטלוג מלא מעצמל׳ה היא גישה דו-שלבית: ראשית, השתמש ב-Playwright כדי לסרוק את דפי הקטגוריות ולאסוף את כל כתובות ה-URL של המוצרים. שנית, הפעל scraper מקבילי (concurrent) על רשימת הכתובות כדי לאסוף את נתוני המוצר עצמם. במקום להוריד תמונות, חלץ את כתובות ה-URL שלהן מה-DOM, בדרך כלל מתוך תג <img> עם srcset. גישה זו יכולה לקצר את זמן הריצה הכולל ביותר מ-70% בהשוואה לסריקה סדרתית של כל דף ודף.

כיצד אוכל להפוך את נתוני המחירים שאני אוסף מעצמל׳ה ל-API פרטי לשימוש פנימי?▾

כדי להפוך את נתוני המחירים של עצמל׳ה ל-API, ראשית בנה scraper יציב עם Playwright ששומר את הנתונים (שם מוצר, מק"ט, מחיר) במסד נתונים כמו PostgreSQL. לאחר מכן, בנה שכבת API פשוטה מעל מסד הנתונים באמצעות FastAPI או Express.js. צור endpoint אחד, למשל /products/{sku}, שמחזיר אובייקט JSON עם המידע העדכני ביותר עבור אותו מק"ט. הקפד להוסיף מנגנון caching כמו Redis כדי להפחית את העומס על מסד הנתונים ולהבטיח זמני תגובה של פחות מ-50ms.

אילו סלקטורים (selectors) הם הכי יציבים ל-scraping של מחירים באתר עצמל׳ה ב-2025?▾

הסלקטורים היציבים ביותר לחילוץ מחירים מעצמל׳ה הם אלו המבוססים על data attributes, ולא על שמות קלאסים שמשתנים לעיתים קרובות. חפש אלמנטים עם תכונות כמו [data-testid="product-price"] או [data-product-id]. אם אלו לא קיימים, השתמש בשילוב של סלקטור מבני, למשל איתור ה-div הראשי של המוצר ואז חיפוש אלמנט <span> שמכיל את הסמל '₪'. שיטה זו שורדת כ-90% מהשינויים הקוסמטיים באתר, בניגוד לסלקטורים מבוססי class שנשברים לעיתים קרובות.

מהן 3 הטעויות הנפוצות ביותר שגורמות לחסימה בעת ניסיון scraping מ-etzmaleh.co.il?▾

הטעות הראשונה היא שימוש בספריית requests פשוטה, שאינה מריצה JavaScript ולכן נחסמת מיד על ידי הגנות האתר. הטעות השנייה היא שליחת בקשות מהירות מדי מאותה כתובת IP; יש לשמור על מרווחים אקראיים של 2-5 שניות בין בקשות ולהשתמש ב-proxy איכותי. הטעות השלישית היא התעלמות מ-headers ו-user-agent, מה שגורם לזיהוי מיידי כבוט. שימוש ב-Playwright עם user-agent עדכני של Chrome פותר 2 מתוך 3 הבעיות הללו באופן מובנה.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור