מדריך Scraping לחשמל נטו: מעבר ל-API הנסתר

אם ניסיתם לעשות scraping לחשמל נטו עם cURL או requests, בטח שמתם לב שחצי מהדאטה חסר. זה לא באג, זו המציאות באתרי e-commerce מודרניים. הדף שאתם מקבלים הוא שלד HTML, והמידע החשוב – מחירים, זמינות, מבצעים – נטען דינמית באמצעות JavaScript. המשימה שלנו היא לא רק להביא את ה-HTML, אלא לרנדר את הדף כמו דפדפן אמיתי, לתפוס את קריאות ה-API הפנימיות, ולהוציא משם את הזהב. במדריך הזה נדבר על הכלים והטקטיקות שבאמת עובדים על אתרים כמו חשמל נטו, ואיפה רוב המהנדסים נופלים.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה Playwright הוא הבחירה הנכונה כאן

תשכחו מ-Requests ו-BeautifulSoup לפרויקט הזה. אתם תבזבזו שבועות על הנדסה הפוכה של קריאות API פנימיות שמשתנות כל רבעון. אתר כמו חשמל נטו דורש רינדור מלא של JavaScript כדי לקבל נתונים מדויקים, במיוחד עבור מחירים וזמינות. כאן Playwright נכנס לתמונה. הוא לא רק מרנדר את הדף, הוא נותן לנו שליטה מלאה על הרשת. אנחנו יכולים ליירט בקשות XHR, לחכות לאלמנטים ספציפיים שיופיעו, ולהריץ קוד בתוך הקונטקסט של הדף.

הגישה הנכונה היא לא לגרד את ה-HTML המרונדר, שעלול להיות שביר. במקום זה, אנחנו משתמשים ב-Playwright ככלי לניטור רשת. מריצים את הדפדפן, מנווטים לעמוד מוצר, ומקשיבים לבקשות ה-API שהדף עצמו שולח כדי לקבל את המידע הדינמי. לרוב תמצאו קריאה ל-endpoint כמו /api/v2/products/{id}/stock שמחזירה JSON נקי עם כל מה שאתם צריכים. זה יציב פי 10 מכל סלקטור CSS. פרויקט איסוף קטלוג חשמל נטו מלא, המכסה כ-15,000 מוצרים, יכול לרוץ כך עם אחוזי הצלחה של 99%+, לעומת 80-85% בגירוד HTML ישיר שיישבר בכל שינוי עיצוב קטן. אם אתם רוצים שה-scraper שלכם יחזיק מעמד יותר מחודש, זו הדרך היחידה. השתמשו ב-מדריך Playwright stealth כדי להבטיח שהדפדפן האוטומטי שלכם לא נראה כמו בוט.

בניית מפת האתר: מציאת כל המוצרים

לפני שאתם מתחילים לחלץ נתונים, אתם צריכים רשימה של כל כתובות ה-URL של המוצרים. לחשמל נטו אין מפת אתר ציבורית מסודרת שתעזור לכם. לכן, השלב הראשון הוא לבנות אחת בעצמכם. מתחילים מדף הבית, מוצאים את כל הקישורים לקטגוריות הראשיות, ומשם יורדים רקורסיבית לתתי-קטגוריות ודפי מוצר. השתמשו בתור (Queue) כדי לנהל את הכתובות שצריך לבקר בהן, ו-Set כדי למנוע כפילויות. התהליך הזה, שנקרא crawling, צריך לרוץ פעם ביום כדי לזהות קטגוריות חדשות או מוצרים שנוספו. אל תרוצו מהר מדי. קצב של 2-3 בקשות בשנייה עם IP בודד הוא סביר כדי לא להפעיל מנגנוני הגנה בסיסיים. אם אתם צריכים מהירות גבוהה יותר, תצטרכו להשתמש ב-proxy rotation. תהליך ה-crawl הראשוני על כל האתר יכול לקחת כמה שעות, אבל הוא מייצר את הבסיס לכל פעולות ה-scraping שיבואו אחריו. התוצר הסופי הוא רשימה של אלפי כתובות URL, המפתח לביצוע מודיעין מתחרים חשמל נטו בצורה שיטתית.

תרחיש הכשל הנפוץ: מלאי וזמינות דינמיים

ראיתי את זה קורה עשרות פעמים. ה-scraper עובד מושלם על מוצר אחד, אבל כשמריצים אותו על כל הקטלוג, 30% מהנתונים על זמינות חוזרים שגויים. הבעיה? אתם גורדים את המידע לפני שהוא נטען. באתר חשמל נטו, פרטי זמינות ומלאי לפי מוצר נטענים לעיתים קרובות אחרי שהדף הראשי כבר הוצג. המשתמש רואה "טוען..." לשנייה, ואז המידע מופיע. ה-scraper שלכם, אם הוא לא מתוכנת נכון, תופס את ה-HTML במצב הביניים הזה. הפתרון הוא לא להוסיף sleep(5). זה בזבוז משאבים ועדיין לא מבטיח כלום. הפתרון הנכון ב-Playwright הוא להגדיר המתנה מבוססת תנאי. לדוגמה: page.waitForSelector('div.stock-status:not(:has-text("טוען"))', { timeout: 15000 }). הפקודה הזו אומרת לדפדפן לחכות עד 15 שניות עד שהאלמנט שמכיל את סטטוס המלאי יופיע וגם לא יכיל את הטקסט "טוען". זה הופך את ה-scraper שלכם לעמיד בפני שינויים במהירות התגובה של השרת ומבטיח שהנתונים שאתם אוספים אמינים. זה קריטי עבור מעקב מלאי/זמינות חשמל נטו, שם דיוק הוא הכל.

ניהול Proxies וחתימות דפדפן

אחרי שעברתם את משוכת ה-JavaScript, תתקלו בבעיה הבאה: חסימות IP. הרצת אלפי בקשות מכתובת IP בודדת של שרת היא דגל אדום ענק. אתם חייבים להשתמש בשירות פרוקסי. אבל לא כל פרוקסי מתאים. פרוקסי של דאטה סנטר ייחסם במהירות. אתם צריכים איך לבחור פרוקסי residential איכותי, שיאפשר לכם לבצע רוטציה בין אלפי כתובות IP של משתמשים אמיתיים. אבל גם זה לא מספיק. אתרים מתוחכמים בודקים את חתימת הדפדפן שלכם (fingerprint). הם בודקים פרטים כמו רזולוציית מסך, פונטים מותקנים, ותוספים. שימוש ב-Playwright עם פרופיל דפדפן סטנדרטי עלול לחשוף אתכם. לכן, חשוב להשתמש בספריות כמו playwright-extra עם תוסף ה-stealth שלו, שמטשטש את מאפייני הבוט ומקשה על הזיהוי. אם אתם נתקלים בהרבה שגיאות 403 או דפי CAPTCHA, סביר להניח שזו הבעיה, לא ה-IP שלכם. התמודדות נכונה עם המדריך לעקיפת Cloudflare יכולה להיות ההבדל בין פרויקט מוצלח לכישלון.

מתי לא כדאי לבנות Scraper מותאם אישית

למרות כל מה שאמרתי, יש מצבים שבהם בניית scraper מאפס עבור חשמל נטו היא לא ההחלטה הנכונה. אם הצורך שלכם הוא חד-פעמי, למשל, חילוץ נתונים לצורך אנליזה אקדמית, המאמץ הנדרש לתחזוקת המערכת לאורך זמן פשוט לא משתלם. Scrapers נשברים. עיצוב האתר משתנה, סלקטורים מפסיקים לעבוד, מנגנוני הגנה מתעדכנים. אם אין לכם צוות שמסוגל להקדיש 2-4 שעות שבועיות לתחזוקה, ניטור ותיקונים, הפרויקט שלכם יפסיק לעבוד תוך חודשיים. בנוסף, אם אתם צריכים דאטה היסטורי, scraper ייתן לכם רק תמונת מצב מהרגע שהפעלתם אותו. הוא לא יכול לחזור אחורה בזמן. במקרים כאלה, או אם אתם צריכים API / קובץ נתונים חשמל נטו יציב ומנוהל בלי כאב הראש של התחזוקה, כדאי לשקול פתרונות אחרים. בניית scraper פנימי היא התחייבות טכנית משמעותית, לא פרויקט צדדי שאפשר לשכוח ממנו.

הפיכת הנתונים למוצר: מ-JSON גולמי ל-API

איסוף הנתונים הוא רק חצי מהעבודה. קבצי JSON שזרוקים ב-S3 הם לא מוצר שמיש עבור צוותי האנליסטים או השיווק שלכם. השלב האחרון, והחשוב לא פחות, הוא להפוך את הדאטה הגולמי לפורמט נגיש ושימושי. המטרה הסופית של פרויקט ניטור מחירים חשמל נטו היא לא לקבל מחיר, אלא לזהות שינוי. לכן, התשתית שלכם צריכה לכלול בסיס נתונים (למשל, PostgreSQL) ששומר את כל הגרסאות של כל מוצר לאורך זמן. זה מאפשר לכם להריץ שאילתות כמו "הצג לי את כל המוצרים שמחירם ירד ביותר מ-5% בשבוע האחרון". מעל בסיס הנתונים הזה, בנו API פנימי פשוט עם endpoints ברורים: /products, /products/{sku}/history, /price_changes. זה הופך את הנתונים שלכם מנכס טכני גולמי לכלי אסטרטגי שהארגון יכול להשתמש בו לקבלת החלטות. תכננו את סכמת הנתונים מראש, וודאו שהיא כוללת שדות כמו timestamp, product_name, price, stock_status, ו-url. השקעה בשלב הזה חוסכת אינסוף שעות עבודה בהמשך.

נקודות מרכזיות

השתמשו ב-Playwright כדי ליירט קריאות API פנימיות של האתר, אל תגרדו HTML.
אתרו את כל המוצרים על ידי crawling רקורסיבי של הקטגוריות; אין מפת אתר אמינה.
הימנעו מנתוני מלאי שגויים על ידי המתנה מבוססת תנאי, לא על ידי sleep.
פרוקסי Residential וחבילת stealth הם חובה כדי להימנע מחסימות IP וזיהוי בוטים.
בניית scraper היא התחייבות לתחזוקה מתמדת, לא פתרון חד-פעמי.

שאלות נפוצות

מהי הדרך היעילה ביותר לחלץ את עץ הקטגוריות המלא מ-netoneto.co.il?▾

הדרך היעילה ביותר לחלץ את עץ הקטגוריות של חשמל נטו היא באמצעות ניתוח קריאת ה-API הראשונית של האתר, ולא על ידי סריקת ה-HTML. בעת טעינת העמוד הראשי, האתר מבצע קריאת API ייעודית (לרוב ל-endpoint כמו /api/v2/categories) שמחזירה את כל היררכיית הקטגוריות והתת-קטגוריות במבנה JSON מקונן. גישה זו מהירה פי 10 מסריקת לינקים ומונעת טעויות הנובעות משינויים במבנה ה-DOM. ניתוח חד-פעמי של תעבורת הרשת בכלי פיתוח יחשוף את ה-endpoint המדויק.

איך ניתן לעקוב אחר זמינות ומלאי של מוצר ספציפי בחשמל נטו בזמן אמת?▾

מעקב מלאי בזמן אמת בחשמל נטו מתבצע על ידי בידוד קריאת ה-API האחראית על פרטי מוצר, ולא על ידי גירוד ה-HTML. כשנכנסים לדף מוצר, מתבצעת קריאת XHR ל-endpoint כמו product/details/{product_id} שמחזירה JSON עם שדה מפורש כמו stock_quantity או is_available. על ידי ניטור ה-endpoint הזה כל 3-5 דקות עבור מזהה המוצר הרצוי, ניתן לקבל עדכון מדויק ומיידי על שינויים בזמינות, תוך עקיפת מנגנוני cache של עמודי ה-HTML.

מהם 3 ה-headers החשובים ביותר שיש לזייף כדי להימנע מחסימה ראשונית בחשמל נטו?▾

כדי להימנע מחסימה ראשונית בחשמל נטו, חובה לזייף שלושה headers קריטיים בכל בקשה. הראשון הוא User-Agent עדכני של דפדפן מודרני, למשל Chrome 125. השני הוא Referer, המצביע על הדף הקודם באתר (כמו דף קטגוריה), כדי לדמות גלישה אנושית. השלישי, ולרוב החשוב ביותר, הוא X-Requested-With: XMLHttpRequest עבור קריאות API, המאותת לשרת שהבקשה מגיעה מסקריפט בצד הלקוח ולא מבוט פשוט. הזנחת אחד מאלה תסתיים ב-HTTP 403 בכ-80% מהמקרים.

איך לחלץ את כל תמונות המוצר ברזולוציה גבוהה מ-netoneto.co.il ולא רק את התמונה הראשית?▾

כדי לחלץ את כל תמונות המוצר ברזולוציה גבוהה מחשמל נטו, יש לנתח את אובייקט ה-JSON המתקבל מה-API של המוצר, ולא להסתמך על תגיות <img> ב-HTML. ה-API מחזיר לרוב מערך (array) של אובייקטים תחת מפתח כמו media_gallery או images, כאשר כל אובייקט מכיל קישורים לגרסאות שונות של אותה תמונה (thumbnail, medium, large). על ידי חילוץ הקישור מהשדה full או url בכל אובייקט במערך, ניתן להבטיח קבלת 100% מהתמונות באיכות המקורית.

כיצד ניתן לבצע ניטור מחירים יעיל בחשמל נטו עבור 1,000 מוצרים במקביל?▾

ניטור מחירים יעיל ל-1,000 מוצרים בחשמל נטו דורש שימוש ב-API ולא בסריקת דפי HTML. יש לבנות רשימה של מזהי המוצרים (SKUs) ולבצע קריאות API במקביל (concurrency) ל-endpoint של פרטי המוצר. מומלץ להגביל את קצב הבקשות ל-5-10 במקביל ולהשתמש ב-proxy מסתובב (rotating proxy) כדי למנוע חסימת IP. גישה זו מפחיתה את תעבורת הרשת ב-95% בהשוואה לרינדור מלא של כל דף, ומאפשרת דגימת מחירים מהירה ומדויקת יותר לכל הקטלוג.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור