Scraping Gag: המדריך הטכני המלא לנתונים בקנה מידה גדול

אם ניסיתם לעשות scraping Gag עם סקריפט פשוט של requests וקיבלתם HTML ריק, אתם לא לבד. אתרי e-commerce מודרניים כמו Gag הם כבר מזמן לא קבצי HTML סטטיים. הם אפליקציות צד-לקוח מורכבות שמצריכות גישה אחרת לגמרי. במדריך הזה לא נדבר על היסודות. נדבר על איך בונים מערכת איסוף נתונים אמיתית, כזו שמחזיקה מעמד מול שינויים, מתמודדת עם חסימות, ומספקת דאטה נקי ואמין ברמה יומית מקטלוג של אלפי מוצרים.

Use Cases · 5

ניטור מחירים

Low

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Low

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Low

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Low

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Low

ייצוא CSV/API יומי או שבועי

מעבר ל-Requests: למה Headless Browser הוא חובה עבור Gag

הטעות הראשונה שרוב המהנדסים עושים היא להניח ש-requests.get() יספיק. באתרים כמו Gag, התוכן המעניין – מחירים, זמינות, מפרטים טכניים – נטען דינמית באמצעות JavaScript, לרוב אחרי שהשלד הראשוני של הדף כבר נטען. כשתריצו בקשה פשוטה, תקבלו בחזרה את ה-HTML הגולמי, אבל כל ה-div-ים שמכילים את המידע הקריטי יהיו ריקים או יכילו placeholder. זו לא הגנה אקטיבית, זו פשוט הדרך שבה פועלות ספריות כמו React או Vue.

לכן, נקודת הפתיחה ל-scraping רציני של Gag היא שימוש ב-Headless Browser. ותפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית – מהירות, יציבות, וה-API שלו פשוט נקי יותר. עם Playwright, אתם מריצים מופע אמיתי של דפדפן (Chromium, Firefox) שיודע להריץ את כל ה-JS, לבצע קריאות API ברקע, ולתת לכם את ה-DOM הסופי, זה שהמשתמש רואה. המעבר הזה הוא לא nice-to-have, הוא תנאי בסיסי. הניסיון לחקות את קריאות ה-API הפנימיות של האתר ידנית הוא משחק חתול ועכבר מתסכל. הם יכולים לשנות endpoint או פרמטר קטן ולשבור לכם את כל הלוגיקה. דפדפן אמיתי פשוט עובד, כל עוד הוא מוסתר היטב. הגישה הזו דורשת יותר משאבים, אבל היא חוסכת שבועות של דיבאגינג ותחזוקה שוטפת.

בניית תשתית ה-Scraping: פרוקסי, סשנים ו-Fingerprinting

אז החלטנו להשתמש ב-Playwright. מצוין. עכשיו הבעיה הבאה: Gag, כמו כל אתר מסחרי, לא אוהב שמריצים עליו אלפי בקשות מדאטה סנטר של AWS. ה-IP שלכם ייחסם תוך דקות. הפתרון הוא שכבת פרוקסי חכמה. עבור אתר ישראלי כמו Gag, שימוש ב-residential proxies מישראל הוא כמעט הכרחי כדי להיראות כמו תעבורה לגיטימית. המטרה היא לא רק להחליף IP, אלא להתאים את ה-IP לקהל היעד של האתר. למידע נוסף, קראו את המדריך לבחירת פרוקסי residential.

מעבר לפרוקסי, יש את עניין ה-fingerprint של הדפדפן. סקריפטים של הגנה כמו Cloudflare או Akamai יודעים לזהות דפדפן אוטומטי לפי עשרות פרמטרים: רזולוציית מסך, פונטים מותקנים, התנהגות העכבר ועוד. הפעלת Playwright "ישר מהקופסה" שולחת אות ברור: "אני בוט". כאן נכנס לתמונה מדריך Playwright stealth, שמסביר איך להשתמש בתוספים שמטשטשים את העקבות האלה וגורמים ל-scraper להיראות אנושי. המטרה היא להגיע ליציבות של 95% הצלחה בבקשות, עם latency ממוצע של מתחת ל-4 שניות לדף טעון במלואו, גם כשמריצים 20-30 סשנים במקביל.

ארכיטקטורת איסוף הנתונים: מקטלוג מלא לניטור שינויים

איסוף נתונים מ-Gag מתחלק לשני שלבים עיקריים. הראשון הוא איסוף קטלוג Gag המלא. זהו תהליך שרץ פעם ביום או פעם בשבוע, ומטרתו היא לסרוק את כל קטגוריות המוצרים, לעבור על כל דפי הפגניציה, ולאסוף את כתובות ה-URL של כל המוצרים באתר. התהליך הזה, שמכונה discovery, הוא הבסיס לכל השאר. אחרי שיש לנו רשימה של כל המוצרים, אנחנו יכולים לעבור לשלב השני: ניטור ממוקד.

בשלב הניטור, המערכת כבר לא סורקת את כל האתר, אלא מבקרת רק בדפי המוצר הספציפיים שמעניינים אותנו. כאן נכנסים ה-use cases האחרים. ניטור מחירים Gag דורש דגימה של דפי מוצר מרכזיים כל שעה, או אפילו כל כמה דקות. מעקב מלאי/זמינות Gag עשוי לדרוש אינטראקציה עם הדף, כמו בחירת סניף ספציפי, כדי לחשוף את נתוני המלאי המדויקים. המידע הזה, כשהוא נאסף לאורך זמן, הופך למודיעין מתחרים Gag יקר ערך, שמאפשר לזהות מגמות, שינויי מחיר אסטרטגיים, ובעיות מלאי. כל הנתונים האלה צריכים להישמר במסד נתונים מובנה, שמאפשר שאילתות מורכבות על היסטוריית שינויים.

ה-Failure Mode הקלאסי: כשנתוני המלאי מתעתעים בך

הנה תרחיש שנתקלתי בו אינספור פעמים באתרי קמעונאות: ה-scraper עובד, הוא מושך את הכיתוב "במלאי" מדף המוצר, אבל הנתון הזה חסר ערך. למה? כי המלאי האמיתי מנוהל פר סניף, והמידע הזה נטען רק אחרי שהמשתמש מבצע פעולה ספציפית, כמו פתיחת תפריט לבחירת סניף איסוף. ה-scraper שלך, שמסתפק בטעינת הדף הראשונית, מפספס את כל המידע החשוב.

זהו המקום שבו רוב הגישות הנאיביות נכשלות. הפתרון הוא לא לנסות לחלץ טקסט מה-HTML, אלא להפוך לחוקר. פתחו את כלי המפתחים בדפדפן (DevTools), עברו לטאב ה-Network, ובצעו את הפעולה בעצמכם. תראו שברגע שבחרתם סניף, הדפדפן יורה קריאת XHR/Fetch ל-endpoint פנימי של ה-API, למשל /api/v2/stock?product_id=123&branch_id=45. התשובה מה-API הזה היא לרוב JSON נקי שמכיל את נתוני המלאי המדויקים. זה הזהב האמיתי. בשלב הזה, יש לכם שתי אפשרויות: או ללמד את ה-scraper של Playwright לבצע את האינטראקציה הזו (ללחוץ על הכפתור, להמתין לתגובת הרשת), או, אם אתם מרגישים אמיצים, לנסות לחקות את קריאת ה-API הזו ישירות. הגישה השנייה מהירה יותר, אבל שבירה יותר. הגישה הראשונה אמינה יותר אבל איטית. הבחירה תלויה בדרישות הפרויקט.

מהסריקה ל-API: הפיכת הנתונים למוצר שמיש

איסוף הנתונים הוא רק חצי מהעבודה. דאטה גולמי שיושב ב-database הוא לא שימושי עד שהוא נגיש. השלב האחרון והקריטי הוא להפוך את המידע הזה למוצר, בין אם זה API / קובץ נתונים Gag לצריכה של מערכות אחרות, או דשבורד פנימי. המשמעות היא לבנות שכבת API מעל מסד הנתונים שלכם, שתאפשר שליפה נוחה של המידע.

לדוגמה, endpoint כמו /products/gag?category=smartphones יכול להחזיר את כל הסמארטפונים עם המחירים והמלאי העדכניים. endpoint אחר, /products/gag/{product_id}/history, יחזיר את היסטוריית שינויי המחיר והמלאי עבור מוצר ספציפי. מתן גישה כזו מאפשר לצוותים אחרים בארגון – אנליסטים, מנהלי מוצר, צוותי שיווק – להשתמש בנתונים בלי להבין דבר על איך ה-scraping עובד. אפשרות נוספת היא ייצוא יומי או שבועי של המידע לפורמט CSV או Parquet והעלאה שלו ל-data lake. אם אתם נתקלים בחסימות תכופות, כמו שגיאות 429, כדאי לקרוא את המדריך לטיפול בשגיאות 429 כדי ליישם לוגיקת retry נכונה. בסופו של דבר, המטרה של פרויקט scraping היא לא רק לאסוף דפים, אלא לייצר תובנות עסקיות מבוססות נתונים.

נקודות מרכזיות

עבור Gag, השתמשו ב-Playwright עם stealth ולא ב-requests כדי להתמודד עם טעינת JS.
פרוקסי residential ישראליים הם הכרחיים כדי להימנע מחסימות IP מהירות.
נתוני מלאי אמיתיים נמצאים לרוב בקריאות API פנימיות, לא ב-HTML הראשוני.
חלקו את תהליך האיסוף ל-discovery (סריקת קטלוג) ו-monitoring (דגימה תכופה).
הפכו את הנתונים הגולמיים ל-API פנימי כדי להפוך אותם לשימושיים עבור הארגון.

שאלות נפוצות

איך אני יכול לעשות scraping לזמינות מלאי של מוצרים ספציפיים באתר Gag בזמן אמת?▾

כדי לעקוב אחר זמינות מלאי ב-Gag בזמן אמת, יש לבצע polling ישיר ל-endpoint ה-API הפנימי שלהם במקום לרנדר את כל הדף. פתחו את כלי המפתחים בדפדפן, נווטו ללשונית Network, וסננו לפי XHR/Fetch. תוכלו לזהות בקשה, לרוב לכתובת כמו api.gag.co.il/v2/products/stock, שמחזירה JSON עם נתוני המלאי. שליחת בקשת GET ישירה ל-endpoint זה עם ה-SKU של המוצר תהיה מהירה ב-80% ופחות חשופה לחסימות מאשר טעינת דף מלא עם Puppeteer.

מהי הדרך היעילה ביותר לאיסוף קטלוג שלם מ-Gag, כולל כל הקטגוריות והמוצרים?▾

הדרך היעילה ביותר לאיסוף קטלוג מלא מ-Gag היא להתחיל מ-sitemap.xml שלהם, אשר לרוב חושף את כל כתובות ה-URL של הקטגוריות והמוצרים. גישה זו עוקפת את הצורך בניווט מורכב ומלא JavaScript דרך תפריטים. לאחר קבלת רשימת ה-URLs, ניתן להריץ מספר תהליכים במקביל (למשל, 4-8 workers) שכל אחד מהם מעבד חלק מהרשימה. שימוש ב-sitemap יכול לקצר את זמן הגילוי הראשוני של המוצרים ב-95% בהשוואה ל-crawling קלאסי.

כיצד אוכל לבצע ניטור מחירים יומי ב-Gag מבלי שה-IP שלי ייחסם לצמיתות?▾

כדי לבצע ניטור מחירים יומי ב-Gag ללא חסימה, יש להשתמש ב-rotating residential proxies ולשנות User-Agent בכל בקשה. חשוב מכך, יש לדמות התנהגות אנושית על ידי הוספת השהיות אקראיות של בין 2 ל-5 שניות בין בקשות. הימנעו מביצוע בקשות במרווחי זמן קבועים, מכיוון שזו תבנית שקל לזהות. מערכת שמבצעת 1,000 בקשות ביום עם השהיות משתנות ו-IPs מתחלפים תיתפס כ-90% פחות חשודה ממערכת שיורה את כל הבקשות ברצף.

האם יש ל-Gag.co.il API ציבורי לקבלת נתוני מוצרים, או ש-scraping הוא האפשרות היחידה?▾

לאתר Gag.co.il אין API ציבורי ומתועד המיועד לשימוש חיצוני לקבלת נתוני מוצרים. לכן, web scraping הוא למעשה האפשרות המעשית היחידה כדי להשיג גישה שיטתית לנתונים כמו מחירים, תיאורים ומלאי. למרות שקיים API פנימי שהאתר עצמו משתמש בו לטעינת נתונים דינמית, הוא אינו מיועד לצדדים שלישיים, והשימוש בו דורש הנדסה לאחור (reverse-engineering) של הבקשות כדי לחקות את התנהגות הדפדפן, כולל שליחת headers ו-cookies מתאימים.

איך אפשר לחלץ את כל תמונות המוצר ברזולוציה גבוהה מכל עמוד ב-Gag?▾

כדי לחלץ את כל תמונות המוצר ברזולוציה גבוהה מ-Gag, יש לחפש ב-JSON שנמצא בתוך תג <script type="application/ld+json"> או במשתנה JavaScript גלובלי כמו window.__PRELOADED_STATE__. נתונים אלו מכילים לרוב מערך של כתובות URL לתמונות המקוריות, לפני שהן מוקטנות או נחתכות עבור התצוגה. גישה זו עדיפה על חילוץ תגי <img> מה-HTML, מכיוון שהיא מספקת גישה ישירה ל-5-10 תמונות באיכות הגבוהה ביותר לכל מוצר.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור