מדריך טכני מתקדם: Scraping זאפ בסקייל גבוה

אם ניסיתם פעם לעשות scraping זאפ עם סקריפט פשוט של requests ו-BeautifulSoup, בטח גיליתם מהר מאוד שזה לא עובד. זאפ הוא לא אתר פשוט. מאחורי הממשק המוכר מסתתרת תשתית מורכבת שנועדה, בין היתר, להקשות עלינו. בתור מי שבילה לילות בדיבוג חסימות מהרשת שלהם, אני יכול להגיד בביטחון: גישה נאיבית כאן היא מתכון לכישלון יקר. במאמר הזה לא נדבר על היסודות. נדבר על מה עובד באמת בשטח מול אתר בסדר גודל כזה, מהגישה הנכונה ל-API ועד לניהול התשתית הנדרשת כדי למשוך מיליוני מוצרים בעקביות.

Use Cases · 5

ניטור מחירים

High

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

High

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

High

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

High

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

High

ייצוא CSV/API יומי או שבועי

למה זאפ הוא לא פרויקט למתחילים

נתחיל מהברור מאליו: קנה המידה. זאפ מרכז נתונים מאלפי חנויות על פני מיליוני מוצרים. משימה של איסוף קטלוג זאפ מלא יכולה להגיע בקלות ל-2-3 מיליון דפים שצריך לסרוק, וזה עוד לפני שנכנסים לעומק של כל מוצר. הניסיון לרוץ על זה עם סקריפט יחיד מהמחשב המקומי שלכם יסתיים בחסימת IP תוך פחות משעה. מעבר לכך, ה-DOM עצמו דינמי ומורכב. נתונים רבים, כמו מחירים עדכניים או זמינות, נטענים אסינכרונית באמצעות קריאות JavaScript לאחר טעינת הדף הראשונית. סקריפט שמסתמך רק על ה-HTML ההתחלתי יקבל דף חסר נתונים או במקרה הטוב, מידע לא מעודכן. זהו failure scenario קלאסי: אתה בונה scraper, הוא עובד על 10 דפים, אתה מריץ אותו על 10,000 דפים ומגלה יום למחרת ש-90% מהרשומות ריקות כי ה-scraper שלך לא חיכה לטעינת הנתונים האמיתית. המורכבות הזו דורשת כלים מתקדמים יותר וגישה אסטרטגית. צריך לחשוב על ניהול sessions, סבב של User-Agents, וחשוב מכל, הבנה עמוקה של תעבורת הרשת שהדפדפן מייצר – לא רק של ה-HTML הסופי.

פענוח ה-API הפנימי – קיצור הדרך לדאטה

רוב המפתחים שמתחילים פרויקט scraping חושבים במונחים של פירסור HTML. בזאפ, זו טעות. הדרך היעילה והאמינה ביותר לקבל את הנתונים היא לעקוף את ה-UI ולגשת ישירות ל-API הפנימי שהאתר משתמש בו כדי לאכלס את הדפים. פתחו את כלי המפתחים של הדפדפן (F12), גשו ללשונית Network, סננו לפי XHR ותתחילו לנווט באתר. תגלו מהר מאוד קריאות API שמחזירות JSON נקי ומסודר עם כל מה שאתם צריכים. למשל, כשאתם מחפשים מוצר, קריאת API כמו api/models/v2/search תחזיר את רשימת המוצרים עם מחירים, שמות חנויות ו-IDs. כשתיכנסו לדף מוצר, קריאה אחרת תביא את כל המפרט הטכני. העבודה עם ה-API חוסכת לכם את כאב הראש של פירסור HTML שביר שמשתנה כל הזמן. היא גם מהירה משמעותית וצורכת פחות רוחב פס. במקום לטעון עשרות קבצי CSS, JS ותמונות, אתם מבקשים רק את ה-JSON ששוקל קילובייטים בודדים. זה מאפשר לכם להגיע לקצבי בקשות גבוהים יותר בעלות נמוכה יותר. בניית API / קובץ נתונים זאפ פרטי הופכת למשימה אפשרית כשמתבססים על הנדסה לאחור של ה-API הקיים שלהם.

ניהול Proxies ו-Fingerprints מול ההגנות של זאפ

גם כשהולכים על גישת ה-API, אי אפשר לשלוח 50,000 בקשות מדקות מ-IP בודד ולקוות לטוב. מערכות הגנת הבוטים של זאפ מתוחכמות מספיק כדי לזהות התנהגות כזו. כאן נכנסת לתמונה תשתית ה-proxy. אבל לא כל proxy יעבוד. Datacenter proxies זולים יותר, אבל קל מאוד לזהות ולחסום את טווחי ה-IP שלהם. עבור אתר כמו זאפ, במיוחד למשימות רגישות כמו ניטור מחירים זאפ שדורש בקשות תכופות, אין מנוס משימוש ב-residential proxies. אלו כתובות IP של משתמשים אמיתיים, מה שמקשה מאוד על הזיהוי. אבל גם עם ה-proxies הטובים ביותר, צריך לנהל אותם נכון. פרוקסי טוב צריך לבוא עם יכולת לבצע רוטציה חכמה של כתובות IP כדי למנוע חסימות נקודתיות. בנוסף ל-IP, צריך לנהל גם את ה-fingerprint של הבקשות. זה כולל שליחת headers נכונים (במיוחד User-Agent, Accept-Language), ניהול cookies ו-sessions. אם כל הבקשות שלכם מגיעות מ-IPs שונים אבל עם אותו User-Agent של גרסת Chrome מלפני שנתיים, המערכת תעלה עליכם. המטרה היא לחקות תעבורה של משתמשים אמיתיים ומגוונים, לא של צבא רובוטים זהים.

מתי הגישה מבוססת ה-API בכל זאת נכשלת

אז דיברנו על כמה גישת ה-API עדיפה. אבל יש מצבים שבהם היא פשוט לא מספיקה. זה הצד השני של המטבע. לפעמים, נתונים קריטיים לא מגיעים מה-API הראשי, אלא מחושבים בצד הלקוח על ידי JavaScript, או נטענים מקריאות API משניות שקשה לזהות ולהנדס לאחור. דוגמה קלאסית היא מבצעים מיוחדים או זמינות מורכבת שתלויה בבחירות של המשתמש. למשל, מעקב מלאי/זמינות זאפ בסניף ספציפי עשוי לדרוש אינטראקציה עם רכיב UI שרק אז מפעיל קריאת רשת. במקרים כאלה, אין ברירה אלא לחזור לגישה של דפדפן אמיתי. אבל תשכחו מ-Selenium. ב-2024, Playwright הוא הכלי הנכון לעבודה. הוא מהיר יותר, אמין יותר, וה-API שלו פשוט נקי ונוח יותר. הפעלת Playwright בסקייל היא לא זולה – כל דף דורש הרצה של מופע כרום שלם. אבל עבור אותם 10% מהמקרים שבהם ה-API לא מספק את הסחורה, זו הדרך היחידה לקבל 100% מהנתונים. כדאי לבנות ארכיטקטורת scraping היברידית שבה 90% מהעבודה נעשית דרך ה-API הזול, והשאר דרך headless browser יקר יותר.

בניית תשתית דאטה: מאיסוף יומי למודיעין מתחרים

הצלחתם לחלץ את הנתונים. מה עכשיו? הנתונים הגולמיים מזאפ הם רק ההתחלה. הערך האמיתי מגיע מהיכולת לעבד, לאחסן ולנתח אותם לאורך זמן. עבור מודיעין מתחרים זאפ, לא מספיק לדעת מה המחיר היום. צריך לדעת מה היה המחיר אתמול, ומה היה המחיר של המתחרה X לפני שבוע. זה דורש בניית pipeline של דאטה. אנחנו מדברים על איסוף יומי של מאות אלפי נקודות מידע, שיכול להצטבר בקלות לעשרות ג'יגה-בייטים של נתונים היסטוריים בחודש. הנתונים צריכים לעבור תהליך ניקוי ונרמול. למשל, שמות מוצרים יכולים להופיע בוריאציות שונות בין חנויות שונות. צריך לנרמל אותם כדי שאפשר יהיה להשוות תפוחים לתפוחים. את הנתונים המעובדים כדאי לאחסן בבסיס נתונים שמתאים לשאילתות אנליטיות, כמו PostgreSQL או BigQuery. השלב הסופי הוא יצירת התוצרים – בין אם זה ייצוא CSV יומי לצוות האנליסטים, או בניית API פנימי שמספק נתונים חיים למערכות אחרות בארגון. אם אתם צריכים פתרון מהיר, ה-Scraper Builder שלנו יכול לעזור לכם להגדיר את תהליך האיסוף והייצוא בצורה מובנית.

נקודות מרכזיות

עבור scraping זאפ, העדיפו הנדסה לאחור של ה-API הפנימי על פני פירסור HTML.
השתמשו ב-residential proxies עם רוטציה חכמה; proxies של דאטה-סנטר ייחסמו במהירות.
למקרים מורכבים שה-API לא מכסה, השתמשו ב-Playwright, לא ב-Selenium.
איסוף נתונים הוא רק ההתחלה; הערך האמיתי טמון בבניית pipeline לעיבוד וניתוח הנתונים לאורך זמן.
תכננו תשתית שיכולה להתמודד עם מיליוני דפים ושינויים תכופים במבנה האתר.

שאלות נפוצות

איך ניתן לחלץ את היסטוריית המחירים המלאה למוצר ספציפי מ-zap.co.il?▾

הדרך היעילה ביותר לחלץ היסטוריית מחירים מזאפ היא באמצעות ניתוח קריאות ה-XHR שמתבצעות בעת טעינת גרף המחירים בדף המוצר. קריאת ה-API הפנימית, לרוב ל-endpoint כמו graph/product, מחזירה JSON עם כל נקודות המידע הגולמיות. שיטה זו עוקפת את הצורך ב-scraping ויזואלי של הגרף ומספקת נתונים מדויקים ומובנים. השתמשו בכלי כמו Charles Proxy או בטאב ה-Network ב-Chrome DevTools כדי לזהות את הקריאה הספציפית הזו ולשכפל אותה ב-scraper שלכם. גישה זו חוסכת כ-80% מזמן העיבוד בהשוואה ל-parsing של ה-DOM.

מהי הדרך המהירה ביותר לאסוף את כל קטלוג המוצרים מקטגוריה בזאפ?▾

השיטה המהירה ביותר לאיסוף קטלוג מלא מקטגוריה בזאפ היא לדלג על ניווט עמוד-אחר-עמוד ולהשתמש ישירות ב-API הפנימי של החיפוש. על ידי ניתוח תעבורת הרשת, ניתן לזהות את ה-endpoint שאחראי על טעינת תוצאות החיפוש והפייג'ינג. שלחו בקשות POST ישירות ל-endpoint זה עם פרמטרים כמו categoryId ו-pageNumber כדי לקבל את הנתונים בפורמט JSON נקי. גישה זו מהירה פי 10 לפחות מ-scraping מבוסס דפדפן כמו Puppeteer ומורידה משמעותית את הסיכוי לחסימה, מכיוון שהיא דורשת פחות מ-5% מכמות הבקשות.

כיצד ניתן לעקוב אחר זמינות ומלאי של מוצר ספציפי בזאפ בזמן אמת?▾

מעקב מלאי בזמן אמת בזאפ דורש התמקדות באלמנטים ספציפיים ב-DOM או בנתוני ה-JSON שמוחזרים מה-API הפנימי. הדרך היציבה ביותר היא לחפש אחר מחרוזות טקסט כמו "אזל מהמלאי" או לבדוק את קיומו של כפתור "הוסף לסל" עבור כל חנות. סקריפט מבוסס Python עם ספריית BeautifulSoup יכול לבצע בדיקות אלו כל 5 דקות. עבור דיוק גבוה יותר, נתחו את ה-JSON שנטען אסינכרונית, שם לרוב קיים שדה בוליאני כמו isAvailable שמספק תשובה חד-משמעית ללא תלות בטקסט שמוצג למשתמש.

מהם 3 הפרמטרים החשובים ביותר שיש לזייף ב-headers כדי למנוע חסימה מיידית?▾

כדי להימנע מחסימה אוטומטית, שלושת ה-headers הקריטיים ביותר לזיוף הם User-Agent, Referer, ו-X-Requested-With. הגדירו User-Agent של דפדפן מודרני כמו Chrome 125, לא של בוט גנרי. תמיד שלחו Referer תקין, למשל, כתובת עמוד הקטגוריה שממנה הגעתם לדף המוצר. לבסוף, עבור בקשות AJAX, הוספת Header של X-Requested-With: XMLHttpRequest היא קריטית, מכיוון שהיעדרו הוא סימן ברור לבוט פשוט. הזנחה של אחד משלושת אלה תגרום לזיהוי בכ-90% מהמקרים על ידי מערכות הגנה בסיסיות.

איך בונים API פרטי מעל zap.co.il לקבלת קובץ נתונים יומי?▾

בניית API פרטי מעל זאפ דורשת שלושה רכיבים: scraper, מסד נתונים, ו-endpoint. השתמשו בסקריפט Python עם Scrapy כדי לאסוף את הנתונים הנדרשים (מחיר, שם מוצר, זמינות) ולשמור אותם במסד נתונים כמו PostgreSQL. לאחר מכן, הקימו שרת ווב קל משקל באמצעות FastAPI או Flask שיחשוף endpoint פשוט, למשל /api/products. קריאה ל-endpoint זה תחזיר את הנתונים העדכניים מהמסד נתונים בפורמט JSON. הפעילו את ה-scraper פעם ב-24 שעות באמצעות cron job כדי להבטיח שהנתונים ב-API שלכם תמיד מעודכנים.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור