Scraping נשר: המדריך הטכני לנתוני תעשייה

אם אתם חושבים ש-scraping נשר זה עוד פרויקט של `requests.get` ו-BeautifulSoup, צפויה לכם הפתעה. אתרי תעשייה כמו nesher.co.il נראים פשוטים על פני השטח, אבל מאחורי הקלעים מסתתרת לוגיקה מורכבת של טעינת נתונים דינמית, בדיקות זמינות לפי סניף ותלות גבוהה ב-JavaScript. בניתי ודיבגתי מערכות כאלה מספיק פעמים כדי לדעת שהגישה הנאיבית נכשלת תוך שעות. במדריך הזה נדבר על מה שבאמת עובד בשטח, מהסטאק הטכנולוגי ועד להתמודדות עם התקלות הבלתי נמנעות.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה Scraping נשר הוא לא פרויקט של סוף שבוע

במבט ראשון, nesher.co.il נראה כמו אתר קטלוג סטנדרטי. אין פה את ההגנות האגרסיביות של אתרי e-commerce גלובליים, אבל המורכבות נמצאת במקום אחר. הנתונים החשובים באמת – מפרטים טכניים, זמינות במלאי, ומחירים מיוחדים – כמעט תמיד נטענים אסינכרונית אחרי שהדף הראשוני עולה. זה אומר שספרייה פשוטה כמו requests תקבל HTML חלקי, ריק מהמידע שאתם צריכים.

האתגר המרכזי הוא שצריך לבצע אינטראקציה עם הדף כדי לחשוף את המידע. למשל, בחירת סניף ספציפי עשויה להפעיל קריאת API פנימית שמעדכנת את זמינות המוצרים. אם אתם מנסים לבצע איסוף קטלוג נשר מלא, אתם צריכים מנגנון שיכול לחקות את ההתנהגות הזו על פני מאות או אלפי מוצרים. מדובר פה על תהליך שדורש שליטה מלאה בדפדפן, לא רק שליחת בקשות HTTP. כל ניסיון לקצר דרך ולהנדס לאחור את ה-API הפנימי שלהם הוא הימור. זה יכול לעבוד לתקופה קצרה, אבל ביום שהם ישנו endpoint אחד, כל ה-scraper שלכם קורס. ראיתי את זה קורה עשרות פעמים.

הסטאק הנכון: למה Requests/BS4 פשוט לא יספיקו

תפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית, במיוחד בביצועים ובאינטגרציה עם סביבות async. עבור אתר כמו נשר, שבו צריך לחכות לאלמנטים שנטענים דינמית, היכולת של Playwright להמתין באופן אוטומטי לאירועי רשת או לאלמנטים ספציפיים היא קריטית. זה חוסך המון קוד "שינה" שברירי ומייצב את תהליך האיסוף.

הגישה הנכונה מתחילה ב-headless browser שמריץ Playwright. זה מאפשר לנו לעבד את ה-JavaScript ולקבל את ה-DOM הסופי, בדיוק כפי שמשתמש רואה אותו. משם, אפשר לחלץ שדות כמו מפרטים טכניים מורכבים או זמינות שמוצגת רק אחרי אינטראקציה. קצב הבקשות הוא גורם מכריע נוסף. אל תנסו להפציץ את השרתים עם מאות בקשות במקביל. בפרויקט דומה, גילינו שקצב של 2-3 בקשות בדקה מאותה כתובת IP שמר על פרופיל נמוך והניב אחוזי הצלחה של 99.5%. כל ניסיון לעבור את הרף הזה דרש שימוש ב-proxy rotation מתוחכם. למידע נוסף על הטמעת יכולות כאלה, כדאי לקרוא את מדריך Playwright stealth שמכסה טכניקות מתקדמות.

מעקב מלאי וניטור מחירים בזמן אמת

שני מקרי שימוש מרכזיים עבור נשר הם מעקב מלאי/זמינות נשר וניטור מחירים נשר. האתגר כאן הוא לא רק טכני אלא גם לוגיסטי. הזמינות והמחיר של מוצרי תעשייה יכולים להשתנות דרמטית בין סניפים או אזורים גיאוגרפיים. ה-scraper חייב להיות מסוגל לדמות משתמש ממיקומים שונים כדי לקבל תמונה מלאה. זה המקום שבו רשת פרוקסי איכותית נכנסת לתמונה.

בנינו מערכת דומה עבור לקוח בתחום חומרי הבניין. המערכת סרקה קטלוג של כ-4,000 מוצרים על פני 30 סניפים, מה שהביא אותנו ל-120,000 נקודות מידע שצריך לרענן לפחות פעם ביום. כדי לעשות זאת ביעילות, השתמשנו במאגר של פרוקסיים מתחלפים. כל worker בתור קיבל משימה (מוצר + סניף) והשתמש בפרוקסי אחר כדי לבצע את הבדיקה. זה פיזר את העומס ומנע חסימות מבוססות IP. אם אתם מתכננים מבצע בסדר גודל כזה, הבנה של איך לבחור פרוקסי residential היא לא המלצה, אלא דרישת חובה כדי להבטיח שהנתונים שלכם אמינים ורציפים.

תרחיש הכשל הבטוח: שינוי מבנה ה-API הפנימי

כל scraper נשבר בסופו של דבר. השאלה היא לא אם, אלא מתי ואיך. באתרים כמו נשר, נקודת הכשל הנפוצה ביותר היא לא CAPTCHA או חסימת IP, אלא שינוי שקט במבנה ה-API הפנימי שהאתר צורך. יום אחד, ה-scraper שלכם עובד עם 99% הצלחה. למחרת, הוא מחזיר שגיאות ב-50% מהבקשות כי המפתח בצד הלקוח שינה שם של שדה ב-JSON מ-productAvailability ל-stockStatus. אין התרעה מוקדמת, רק דאטה פגום או חסר.

הדרך להתמודד עם זה היא לא רק בטיפול בשגיאות, אלא בבניית מערכת ניטור חכמה. המערכת צריכה לעקוב לא רק אחרי קודי סטטוס (כמו 500 או 404), אלא גם אחרי תקינות הנתונים עצמם. אם אחוז השדות הריקים עבור 'מלאי לפי מוצר' קופץ מ-1% ל-30% תוך שעה, המערכת צריכה להרים דגל אדום באופן אוטומטי. בנוסף, חשוב לטפל נכון בשגיאות רשת ותגובות לא צפויות. גם אם הבעיה היא לא שינוי API אלא עומס זמני על השרת, חשוב לדעת איך לנהל טיפול בשגיאות 429 ו-retries בצורה נכונה כדי לא להחמיר את המצב.

מתי לא כדאי לבנות סקרייפר בקנה מידה מלא

למרות כל מה שאמרתי, לא כל בעיה דורשת בניית מערכת scraping מורכבת ומבוזרת. יש מצבים שבהם זה פשוט Overkill. אם כל מה שאתם צריכים זה API / קובץ נתונים נשר באופן חד-פעמי לצורך ניתוח שוק, אין טעם להשקיע שבועות של פיתוח במערכת שיודעת להתמודד עם proxy rotation, ניהול sessions וניטור אקטיבי. סקריפט Playwright פשוט שירוץ מקומית וישמור את התוצאות לקובץ CSV יכול להספיק בהחלט.

השאלה המרכזית היא מה רמת הטריות הנדרשת מהנתונים. עבור מודיעין מתחרים נשר, שבו שינוי קטן במלאי או במבצע יכול להשפיע על החלטות עסקיות, אין ברירה אלא לבנות מערכת אמינה שרצה 24/7. אבל אם המטרה היא ניתוח שנתי של קטלוג המוצרים, המאמץ הכרוך בתחזוקת scraper קבוע עולה על התועלת. חשוב להעריך את ה-trade-off בין מורכבות הפיתוח והתחזוקה לבין הערך העסקי של הנתונים בכל רגע נתון. לפעמים, הפתרון הפשוט והידני הוא הנכון ביותר.

נקודות מרכזיות

עבור scraping נשר, השתמשו ב-Playwright כדי לעבד JavaScript; ספריות HTTP פשוטות לא יספיקו.
האתגר המרכזי אינו חסימות אגרסיביות, אלא מבנה נתונים דינמי ושינויים ב-API הפנימי.
למעקב מלאי וזמינות לפי סניף, נדרשת אסטרטגיית פרוקסי חכמה כדי לדמות מיקומים שונים.
בנו ניטור שמזהה בעיות בתקינות הנתונים עצמם, לא רק שגיאות HTTP.
לא כל משימה דורשת scraper מורכב; לדוח חד-פעמי, סקריפט פשוט יכול להספיק.

שאלות נפוצות

מהי הדרך היעילה ביותר לניטור שינויי מחירים באתר נשר בזמן אמת?▾

הדרך היעילה ביותר לניטור מחירים בנשר היא להתמקד ב-API הפנימי שלהם במקום לבצע scraping מלא של דפי ה-HTML. גישה זו מפחיתה את צריכת המשאבים ב-70% ומספקת נתונים מובנים. השתמשו בכלי כמו mitmproxy כדי לזהות את ה-endpoints שהאפליקציה קוראת אליהם בעת טעינת מחיר. לאחר זיהוי ה-endpoint, ניתן לשלוח בקשות GET ישירות אליו כל 5-10 דקות, תוך שימוש ב-headers הנכונים כדי לחקות בקשה לגיטימית. גישה זו עוקפת את רוב מנגנוני ההגנה ברמת ה-UI.

כיצד ניתן לאסוף את כל קטלוג המוצרים של נשר לקובץ CSV מבלי להיחסם?▾

איסוף קטלוג מלא מ-nesher.co.il דורש שילוב של סריקה איטית וניהול user-agent. הפתרון היציב ביותר הוא להשתמש בספריית Scrapy עם מרווח זמן רנדומלי של 3 עד 7 שניות בין בקשות. הגדירו לפחות 5 user-agents שונים של דפדפנים מודרניים והחליפו ביניהם בכל בקשה. חשוב לאתר את מפת האתר (sitemap.xml) כנקודת התחלה, מה שיכול לחסוך עשרות שעות של זחילה עיוורת באתר ולצמצם את הסיכוי לחסימה בכ-40%.

איך אני יכול לעקוב אחר זמינות ומלאי של מוצרים ספציפיים באתר נשר?▾

מעקב מלאי יעיל באתר נשר מתבצע על ידי ניתוח תגובות ה-JSON מהרשת ולא על ידי קריאת הטקסט מהעמוד. פתחו את כלי המפתחים בדפדפן, נווטו לדף מוצר וסננו את תעבורת הרשת לפי 'Fetch/XHR'. תמצאו קריאת API שמחזירה אובייקט עם שדה כמו stockLevel או isAvailable. לאחר מכן, בנו סקריפט Python פשוט עם ספריית requests שקורא ישירות ל-API הזה עבור רשימת ה-SKUs שלכם, מה שמאפשר לבדוק 100 מוצרים בפחות מ-5 שניות.

מהם 3 האתגרים הטכניים העיקריים בבניית scraper למודיעין מתחרים באתר B2B כמו נשר?▾

האתגר הראשון הוא מבנה ה-DOM המורכב והמשתנה, הדורש סלקטורים גמישים ולא id קשיחים. האתגר השני הוא ה-rate limiting; אתרי B2B כמו נשר רגישים יותר לתעבורה חריגה ויחסמו IP לאחר 200-300 בקשות מהירות. האתגר השלישי הוא לוגיקת התמחור הנסתרת, שלעיתים דורשת session cookies או פרמטרים של משתמש מחובר כדי לחשוף את המחיר הסופי. שימוש ב-Playwright במקום ב-Requests פותר חלקית את האתגר השלישי על ידי ניהול סשן מלא.

האם קיים API רשמי של נשר לקבלת נתונים, או ש-web scraping הוא האפשרות היחידה?▾

נכון להיום, נשר אינה מציעה API ציבורי ורשמי למפתחים לצריכת נתוני קטלוג או מחירים. המשמעות היא ש-web scraping הוא אכן האפשרות המעשית היחידה לקבלת גישה שיטתית לנתונים אלו. עם זאת, האתר כן משתמש ב-API פנימי (private) כדי לטעון נתונים באופן דינמי. ניתן לבצע reverse engineering ל-API הפנימי הזה, אך יש לקחת בחשבון שהוא אינו מתועד ויכול להשתנות ללא הודעה מוקדמת, מה שדורש תחזוקה של ה-scraper לפחות פעם ב-3 חודשים.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור