Scraping New Pharm legacy: המדריך המלא מהשטח

אם ניגשתם לפרויקט scraping New Pharm legacy עם מחשבה שזו עוד חנות e-commerce פשוטה, צפויה לכם הפתעה. המילה 'legacy' בשם היא לא קישוט – היא רמז לארכיטקטורה עם שכבות שנבנו לאורך שנים. זה אומר שחלק מהמידע יושב ב-HTML סטטי נקי, אבל הנתונים הקריטיים באמת, כמו זמינות מלאי עדכנית או מבצעים מותני-משתמש, נטענים אסינכרונית. ניסיון לגשת אליהם עם ספריית requests פשוטה יחזיר לכם דאטה חסר. כאן נפרק את הגישה שעובדת, מהניסיון שלי בשטח.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה New Pharm legacy הוא מטרה מאתגרת יותר ממה שנדמה

במבט ראשון, new-pharm.co.il נראה כמו אתר סטנדרטי. קטגוריות, עמודי מוצר, עגלת קניות. אבל השטן נמצא בפרטים הקטנים. המערכת שלהם היא היברידית. חלק מהדף מרונדר בשרת, מה שמפתה להשתמש בסקריפטים מהירים מבוססי HTTP. אבל אז אתה מנסה לחלץ את המחירים המדויקים או מלאי לפי מוצר, ומגלה שהם מגיעים דרך קריאות XHR/Fetch שמתרחשות אחרי טעינת הדף. זו הנקודה הראשונה שבה רוב ה-scrapers נופלים.

הם מנסים לחקות את קריאות ה-API האלה ישירות, אבל מגלים שהן דורשות headers ספציפיים, cookies של סשן פעיל, ולפעמים גם טוקנים שנוצרים על ידי JavaScript בצד הלקוח. פתאום, הפרויקט הפשוט של חילוץ HTML הופך לפרויקט של הנדסה הפוכה של API פנימי לא מתועד. זה בזבוז זמן. הגישה היעילה יותר היא פשוט לקבל את העובדה שצריך לרנדר את הדף במלואו. כלים כמו Playwright או Puppeteer הם לא אופציה, הם דרישת בסיס לפרויקט הזה. כל ניסיון לחסוך פה במשאבי עיבוד יעלה לכם יותר בזמן דיבוג ותחזוקה בהמשך הדרך. אנחנו מדברים על קטלוג של עשרות אלפי מוצרים, כך שכל החלטה ארכיטקטונית כזו קריטית להצלחת הפרויקט בקנה מידה גדול.

איסוף קטלוג ומעקב מלאי: הגישה הנכונה ב-2025

אז החלטנו שאנחנו צריכים דפדפן אמיתי. יופי. עכשיו איך בונים תהליך יציב של איסוף קטלוג New Pharm legacy? הצעד הראשון הוא מיפוי היררכיית הקטגוריות. למרבה המזל, היא די סטנדרטית ומבוססת על נתיבי URL ברורים. השלב השני הוא ה-crawl עצמו. אל תנסו להריץ 50 דפדפנים במקביל מהרגע הראשון. תתחילו עם 3-5 workers ותבחנו את התגובה של השרת. שימו לב ל-latency. אם זמן התגובה הממוצע עולה מ-800ms ל-2500ms, זה סימן שאתם מתקרבים למגבלות שלהם.

האתגר האמיתי הוא מעקב מלאי/זמינות New Pharm legacy. המידע הזה כמעט תמיד נטען דינמית. אחרי שהדף ב-Playwright מגיע למצב 'load', אתם צריכים להוסיף המתנה מפורשת לסלקטור שמכיל את מידע הזמינות (למשל, page.waitForSelector('.stock-status')). רק אז אפשר לחלץ את המידע בבטחה. ראיתי יותר מדי פרויקטים שנכשלים בגלל race conditions – הסקריפט מנסה לחלץ את המידע לפני שה-JS של האתר סיים לטעון אותו. התוצאה: 95% הצלחה נראית טוב, אבל 5% מהמוצרים מדווחים כחסרי מלאי באופן שגוי, מה שהופך את כל הדאטה ללא אמין. לכן, אם אתם רוצים נתונים מדויקים, חשוב להבין את מחזור החיים של הדף ולא להסתמך רק על אירוע הטעינה הבסיסי. למידע נוסף על כלים מתקדמים, קראו את מדריך Playwright stealth שיכול לעזור במקרים מורכבים יותר.

תרחיש הכשל הנפוץ: התמודדות עם Rate Limiting ו-Fingerprinting

נניח שהסקראפר שלכם עובד נהדר על 100 מוצרים. אתם מעלים אותו ל-10,000 ופתאום מתחילים לקבל שגיאות 403 או CAPTCHA. ברוכים הבאים ל-rate limiting. ב-New Pharm legacy, זה לא רק עניין של IP. הם משתמשים במערכות הגנה בסיסיות שיכולות לזהות דפוסים חשודים. אם אותו IP מבצע 500 בקשות ב-5 דקות, הוא ייחסם. זה החלק הקל.

החלק המורכב יותר הוא session fingerprinting. המערכת שלהם יכולה לזהות אם מאותו סשן דפדפן (גם אם ה-IP משתנה) מתבצעות פעולות שמשתמש אנושי לא היה מבצע, כמו דילוג בין קטגוריות שונות לחלוטין תוך שניות. לכן, proxy rotation לבדו לא מספיק. אתם צריכים לבצע גם session rotation. כל worker, או כל קבוצה קטנה של בקשות, צריכה להשתמש בפרופיל דפדפן נקי, עם cookies ו-local storage משלה. זה מדמה משתמשים נפרדים. שילוב של פרופילים נקיים עם מאגר פרוקסים איכותי הוא המפתח. אם אתם לא בטוחים מאיפה להתחיל, המדריך על איך לבחור פרוקסי residential הוא נקודת פתיחה טובה. בלי הגישה הזו, תמצאו את עצמכם נלחמים בקרב אבוד מול חסימות.

מודיעין מתחרים ו-API: מנתונים גולמיים לתובנות

איסוף הנתונים הוא רק חצי מהעבודה. הערך האמיתי מגיע מהפיכת הדאטה הגולמי למוצר שמיש, בין אם זה לצורך מודיעין מתחרים New Pharm legacy או יצירת API / קובץ נתונים New Pharm legacy לשימוש פנימי. השלב הראשון הוא ניקוי וסטנדרטיזציה. שמות מוצרים יכולים להכיל תווים מוזרים, מחירים יכולים להופיע בפורמטים שונים ('₪19.90' לעומת '19.9'). צריך לבנות שכבת עיבוד שמנרמלת את כל המידע למבנה אחיד וצפוי.

השלב הבא הוא האחסון. אל תזרקו הכל לקובץ CSV ענק. השתמשו במסד נתונים שמתאים לעדכונים תכופים, כמו PostgreSQL או MongoDB. זה יאפשר לכם לתשאל את הנתונים ביעילות, למשל, 'הצג לי את כל המוצרים של מותג X שמחירם ירד ב-10% בשבוע האחרון'. לבסוף, חשבו על ה-delivery. האם הלקוח הפנימי צריך דשבורד? דו"ח יומי במייל? או אולי API פנימי שמחזיר מחיר של מוצר לפי מק"ט? בניית ה-pipeline הזה, מה-scraping ועד לצריכה, היא מה שמבדיל פרויקט חובבני ממערכת דאטה מקצועית. תכנון נכון של ה-pipeline גם יעזור לכם להתמודד עם שגיאות רשת, למשל באמצעות הבנה של טיפול בשגיאות 429 והטמעת מנגנוני retry חכמים.

מתי Scraping הוא לא הפתרון (ומה לעשות במקום)

אחרי כל זה, חשוב להיות כנים. לא כל בעיה דורשת בניית scraper מורכב. אם כל מה שאתם צריכים זה לעקוב אחר מחיר של חמישה מוצרים פעם ביום, הקמת תשתית עם Playwright, פרוקסים וניהול סשנים היא פשוט ירי בתותח על זבוב. המורכבות והתחזוקה השוטפת יהיו גבוהות מהתועלת.

במקרים כאלה, יש פתרונות פשוטים יותר. אפשר להשתמש בשירותי ניטור אתרים 'off-the-shelf' שישלחו לכם התראה על שינוי. אפשר אפילו לכתוב סקריפט קטן ופשוט שירוץ מקומית בלי כל התשתית מסביב. הסיכון לחסימה נמוך כי היקף הפעילות זניח. המטרה היא להתאים את המורכבות של הפתרון למורכבות של הבעיה. בניית מערכת scraping מקיפה עבור New Pharm legacy הגיונית רק כאשר אתם צריכים נתונים בקנה מידה גדול – אלפי מוצרים, עדכונים תכופים, וצורך בכיסוי קטלוג מלא. אם הדרישות שלכם צנועות יותר, חפשו פתרון פשוט יותר. זה יחסוך לכם שעות רבות של פיתוח ותחזוקה.

נקודות מרכזיות

עבור New Pharm legacy, השתמשו ב-Playwright כדי לרנדר JavaScript בצד הלקוח; ספריות HTTP פשוטות לא יספיקו.
מידע קריטי כמו מלאי ומבצעים נטען אסינכרונית, ודורש המתנה לאלמנטים ספציפיים בדף.
התמודדות עם חסימות דורשת שילוב של proxy rotation ו-session rotation עם פרופילי דפדפן נקיים.
הערך האמיתי מגיע מבניית pipeline נתונים מלא, מאיסוף וניקוי ועד לאחסון והגשה בפורמט שמיש.
לצרכים קטנים ונקודתיים, בניית scraper מלא היא overkill; שקלו פתרונות פשוטים יותר.

שאלות נפוצות

איך אני יכול לעשות scraping לזמינות מלאי עדכנית מ-New Pharm legacy?▾

כדי לעקוב אחר זמינות המלאי ב-New Pharm legacy, יש להתמקד בבקשות XHR שהאתר שולח לקבלת נתוני מוצר דינמיים. במקום לנתח את כל ה-HTML, השתמשו בכלי כמו Puppeteer כדי ליירט את תגובות ה-JSON מה-API הפנימי של האתר, בדרך כלל מ-endpoint שמכיל 'stock' או 'availability'. גישה זו מהירה ב-70% מ-rendering מלא של הדף ומפחיתה את הסיכוי לחסימה. ודאו שאתם שולחים את ה-headers הנכונים, במיוחד 'x-requested-with', כדי לחקות בקשת דפדפן לגיטימית ולמנוע זיהוי מיידי.

מהי הדרך היעילה ביותר לבנות קטלוג מוצרים מלא מ-new-pharm.co.il?▾

הדרך היעילה ביותר לבניית קטלוג היא באמצעות גישה היברידית המשלבת שני שלבים. ראשית, השתמשו בספריית Python כמו Scrapy כדי לסרוק את מפת האתר (sitemap.xml) או את דפי הקטגוריות ולאסוף את כל כתובות ה-URL של המוצרים. שנית, העבירו את רשימת ה-URL למערכת מבוזרת, כמו Celery עם Redis, כדי לבצע scraping של דפי המוצר במקביל עם 10-15 workers. גישה זו מאפשרת לאסוף עשרות אלפי מוצרים בפחות משעתיים, במקום ימים שלמים בסריקה סדרתית.

כיצד אוכל לקבל נתוני מחירים מ-New Pharm legacy בפורמט JSON?▾

כדי לקבל נתוני מחירים כ-JSON, הדרך הטובה ביותר היא לחפש את המידע בתוך תג <script> המכיל JSON-LD או נתוני state ראשוניים. בדקו במקור הדף (view-source) אחר משתנים כמו __PRELOADED_STATE__ או __NUXT__. נתונים אלו מכילים לרוב אובייקט JSON מובנה עם כל פרטי המוצר, כולל מחיר, מק"ט ומבצעים, ללא צורך בניתוח סלקטורים של HTML. שימוש ב-regex פשוט או בספריית JSON יכול לחלץ את המידע הזה ביעילות של 99%.

מהם 3 האתגרים העיקריים ב-scraping של אתר e-commerce ישן כמו new-pharm.co.il?▾

האתגר המרכזי הראשון הוא תוכן דינאמי הנטען באמצעות JavaScript, מה שמצריך שימוש בדפדפן headless כמו Playwright במקום בספריית requests פשוטה. האתגר השני הוא מבנה HTML לא עקבי בין קטגוריות שונות, הדורש לוגיקת parsing גמישה יותר עם מספר סלקטורים חלופיים לכל שדה נתונים. האתגר השלישי הוא הגנות בסיסיות נגד בוטים, כמו בדיקת User-Agent וקצב בקשות, שמחייבות סיבוב של User-Agents והוספת השהיות אקראיות של 1-3 שניות בין בקשות.

איך אני מבצע ניטור מחירים יומי באתר מבלי להיחסם אחרי 100 בקשות?▾

כדי למנוע חסימה בניטור מחירים יומי, יש ליישם שלוש טכניקות חיוניות. ראשית, השתמשו ב-proxy pool המכיל לפחות 20 כתובות IP שונות, ועשו רוטציה ביניהן בכל בקשה. שנית, שמרו session cookies ושלחו אותם בבקשות עוקבות כדי לדמות התנהגות משתמש אמיתי. שלישית, במקום לבקש את כל דף המוצר מחדש, שלחו בקשת HEAD כדי לבדוק את הכותרת 'Last-Modified'. אם התאריך לא השתנה מאז הסריקה האחרונה, דלגו על המוצר וחסכו 80% מתעבורת הרשת.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור