Scraping גרופון ישראל: מדריך טכני למהנדסים

אם ניסיתם פעם לעשות scraping לגרופון ישראל עם ספריית requests פשוטה, בטח גיליתם מהר מאוד שזה לא עובד. האתר בנוי על ערימה של JavaScript, טעינה אסינכרונית ו-API calls ברקע. המאמר הזה לא מסביר מה זה web scraping, אלא צולל ישר לטקטיקות שצריך כדי לחלץ נתונים אמינים מאתר דילים דינמי כמו גרופון. נדבר על הכלים הנכונים, על נקודות הכשל הנפוצות, ואיך הופכים את הכאוס הזה ל-stream נתונים נקי ושימושי.

Use Cases · 5

ניטור מחירים

Low

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Low

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Low

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Low

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Low

ייצוא CSV/API יומי או שבועי

למה גרופון ישראל דורש יותר מ-cURL

נתחיל מהברור מאליו: גרופון ישראל הוא לא אתר סטטי. רוב התוכן, ובמיוחד הדילים עצמם, נטען דינמית אחרי שהדף הראשוני מגיע לדפדפן. ניסיון לחלץ מידע עם כלי פשוט כמו requests בדרך כלל יחזיר מעטפת HTML ריקה מתוכן, או במקרה הטוב, שלד של הדף עם placeholders. הסיבה היא שהנתונים מגיעים דרך קריאות XHR/Fetch ל-API פנימי. לכן, נקודת הפתיחה לכל פרויקט איסוף קטלוג גרופון ישראל היא שימוש ב-headless browser. תפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית, במיוחד בביצועים וב-API הנקי שלו.

האתגר הראשון הוא לא רק לרנדר את הדף, אלא להבין את רצף האירועים. הקטלוג לא נטען במכה אחת. גלילה למטה מפעילה טעינה של 'batch' נוסף של דילים. ה-scraper חייב לחקות את התנהגות המשתמש הזו – לגלול, להמתין לאינדיקטור טעינה שייעלם, לוודא שאלמנטים חדשים הופיעו ב-DOM, ורק אז להמשיך. ניסיון לגלול מהר מדי יוביל לחסימה או לנתונים חסרים. קצב סביר הוא גלילה כל 2-3 שניות, תוך המתנה ספציפית ל-selector של כרטיסיית הדיל האחרון שנוסף. זה הבסיס. בלי זה, לעולם לא תצליחו למפות את כל הקטלוג, שמונה אלפי דילים פעילים בכל רגע נתון.

מבנה הנתונים: יותר מסתם מחיר ושם מוצר

אחרי שצלחנו את טעינת הדף, מגיע החלק המעניין: פיענוח מבנה הנתונים. בגרופון, דיל הוא לא ישות שטוחה. הוא מורכב משם, מחיר, הנחה, אבל גם ממלאי, סניפים רלוונטיים, ותאריכי תפוגה. המידע הזה לא תמיד נמצא יחד באותו מקום ב-DOM. לדוגמה, זמינות של דיל למסעדה עשויה להיות מקושרת לרשימת סניפים שמופיעה בחלק אחר של הדף או אפילו נטענת בקריאת API נפרדת כשלוחצים על כפתור מסוים. לכן, ה-scraper חייב להיות stateful. הוא צריך לחלץ את מזהה הדיל (deal ID), ואז לבצע פעולות נוספות (לחיצה או קריאת API ישירה) כדי לקבל את המידע המשלים.

זה קריטי במיוחד עבור מעקב מלאי/זמינות גרופון ישראל. דיל יכול להיות 'זמין' באופן כללי, אבל 'אזל המלאי' בסניף תל אביב. המודל שלכם חייב לשקף את המורכבות הזו. במקום לחלץ רשימה שטוחה של דילים, חשבו במונחים של אובייקטים מקוננים: דיל שמכיל מערך של אפשרויות, וכל אפשרות מכילה זמינות וסניפים. גישה זו גם מקלה על בניית API / קובץ נתונים גרופון ישראל עבור לקוחות פנימיים או חיצוניים. הנתונים כבר מובנים בצורה לוגית ומוכנים לשימוש, במקום להיות אוסף של שדות שצריך לחבר מחדש בכל פעם.

ניהול קצב ובחירת פרוקסי נכונה

בואו נדבר על קצב. קל להתפתות ולהריץ עשרות תהליכי Playwright במקביל כדי לסיים מהר. זו טעות. שרתי גרופון, כמו כל אתר מסחרי גדול, מנטרים התנהגות חריגה. שליחת 200 בקשות בדקה מאותה כתובת IP היא כרטיס כניסה ודאי לחסימה או, גרוע מכך, לקבלת CAPTCHA שתוקע את כל התהליך. המטרה היא להיראות כמו תנועה אנושית מבוזרת. המשמעות היא עבודה עם proxy rotation איכותי. פרוקסי של דאטה סנטר פשוטים כבר לא מספיקים; הם מזוהים ונחסמים בקלות. צריך להשתמש ב-residential proxies כדי לקבל כתובות IP שנראות כמו של משתמשים אמיתיים.

האתגר הוא לא רק להחליף IP, אלא לנהל session. דיל מורכב מכמה שלבים, וצריך להשלים את כולם מאותו IP כדי לשמור על קונטקסט. לכן, ארכיטקטורה נכונה תשתמש ב-sticky sessions, כאשר כל worker שמתחיל לחלץ דיל ספציפי נשאר עם אותו residential IP עד שהוא מסיים. מבחינת קצב, כלל אצבע טוב הוא לא לעבור את ה-15-20 בקשות לדקה פר IP. זה אולי נשמע איטי, אבל עם מאגר של כמה עשרות פרוקסים, אפשר להגיע לקצבים גבוהים במצטבר בלי להפעיל אזעקות. ניהול נכון של פרוקסי הוא קריטי, ואם אתם לא בטוחים מאיפה להתחיל, כדאי לקרוא איך לבחור פרוקסי residential שיעשה את העבודה.

תרחיש הכשל: דילים שמתעדכנים מהר מדי

הנה תרחיש שראיתי קורה יותר מדי פעמים בפרויקטים של ניטור מחירים גרופון ישראל: ה-scraper מסיים ריצה של 45 דקות על כל הקטלוג, ומדווח על סט נתונים 'עדכני'. אבל מה קורה עם 'דיל дня' שהופיע ונעלם ב-20 הדקות הראשונות של הריצה? מבחינת המערכת שלכם, הוא מעולם לא היה קיים. זהו המקום שבו גישת ה-'full scan' נכשלת. אתרי דילים הם דינמיים מאוד, והנחת היסוד שהקטלוג יציב למשך שעה היא פשוט שגויה. זה קריטי במיוחד עבור מודיעין מתחרים גרופון ישראל, שם פספוס של מבצע בזק יכול לעוות את כל תמונת השוק.

הפתרון הוא לא לרוץ מהר יותר, אלא חכם יותר. צריך לשלב שתי אסטרטגיות: ריצת עומק איטית (full scan) פעם ב-12 או 24 שעות לאיסוף קטלוג מלא, וריצות 'רדודות' ומהירות כל 5-10 דקות שסורקות רק את עמודי הקטגוריות הראשיים או עמוד הבית. הריצות הרדודות האלה לא נכנסות לכל דיל, אלא רק מחפשות שינויים ברשימה – דילים חדשים שנוספו או כאלה שנעלמו. אם מזוהה דיל חדש, הוא נכנס לתור עדיפות גבוהה ש-worker ייעודי שולף ומעבד מיד. הגישה ההיברידית הזו מבטיחה שתקבלו גם את העומק וגם את העדכניות, תוך איזון בין עומס על המערכות שלכם ועל השרתים של גרופון. אם תתקלו בחסימות תכופות, סביר להניח שאתם נתקלים בהגנות WAF. במקרה כזה, שווה לקרוא את המדריך לעקיפת Cloudflare, כי הטכניקות דומות.

מעבר ל-Scraping: בניית צינור נתונים אמין

חילוץ הנתונים הוא רק חצי מהסיפור. הנתונים הגולמיים, כפי שהם יוצאים מ-Playwright, הם מבולגנים, מלאים בתגיות HTML, רווחים מיותרים, ולפעמים בפורמטים לא עקביים. השלב הבא, והחשוב לא פחות, הוא שלב הניקוי והנרמול. זה המקום בו הופכים מחרוזת כמו '₪129' למספר integer או float, מתמודדים עם קידודי תווים מוזרים, ומאמתים שהנתונים שחולצו תואמים לסכמה הצפויה. לדוגמה, האם בשדה מחירים יש מספר? האם תאריך התפוגה הוא בפורמט ISO? אם שלב הוולידציה נכשל, הנתון צריך להיזרק או להישלח לתור של ניסיונות חוזרים, ולא לזהם את הדאטהבייס הראשי.

אחד האתגרים הגדולים הוא זיהוי שינויים. אם אתם מריצים את ה-scraper כל שעה, איך אתם מזהים שרק המחיר של דיל 4567 השתנה, מבלי להשוות את כל 10,000 הדילים מול הדאטהבייס? הדרך הנכונה היא לחשב hash על התוכן של כל אובייקט דיל שחולץ. לפני שאתם מכניסים רשומה לדאטהבייס, אתם בודקים אם ה-deal ID קיים ואם ה-hash שלו זהה ל-hash החדש. אם ה-hash שונה, סימן שהיה עדכון ואפשר להפעיל לוגיקה עסקית – לשלוח התראה, לעדכן גרף, או מה שלא יהיה. זה חוסך כמויות אדירות של I/O מול הדאטהבייס והופך את המערכת כולה ליעילה פי כמה. אם אתם נתקלים בשגיאות רשת תכופות, ודאו שאתם מטפלים נכון בקודים כמו 429 או 503. יש לנו מדריך מצוין על טיפול בשגיאות 429 שרלוונטי גם למקרים אחרים.

נקודות מרכזיות

עבור גרופון ישראל, השתמשו ב-Playwright במקום requests כדי להתמודד עם אתר מבוסס JavaScript.
נתוני דילים מורכבים ודורשים חילוץ stateful כדי לקשר בין מחיר, זמינות וסניפים.
השתמשו ב-residential proxies עם sticky sessions והגבילו קצב ל-15-20 בקשות לדקה פר IP.
שלבו סריקות עומק איטיות עם סריקות רדודות ומהירות כדי לתפוס דילים שמופיעים ונעלמים במהירות.
חשבו hash לכל דיל כדי לזהות שינויים ביעילות ולהימנע מעיבוד נתונים מיותר.

שאלות נפוצות

איך ניתן לחלץ את מבנה הקטגוריות המלא מאתר גרופון ישראל בצורה יעילה?▾

הדרך היעילה ביותר לחלץ את מבנה הקטגוריות המלא מאתר groupon.co.il היא על ידי סריקת ה-sitemap.xml של האתר, ולא בניסיון לנתח את רכיבי הניווט ב-HTML. קובץ ה-sitemap מספק רשימה ישירה של כל כתובות ה-URL המאונדקסות, כולל קטגוריות ותתי-קטגוריות, מה שחוסך כ-80% מזמן הפיתוח הנדרש לניתוח ה-DOM. לאחר מכן, ניתן להשתמש בביטויים רגולריים (regex) כדי לנתח את ההיררכיה מה-URLs עצמן, מה שמבטיח איסוף קטלוג מלא ומדויק.

מהי הדרך המומלצת לעקוב אחר זמינות ומלאי של דילים בגרופון ישראל בזמן אמת?▾

מעקב מלאי יעיל בגרופון ישראל דורש התמקדות בשינויים ב-DOM ולא בטעינה מחדש של כל הדף. הגישה המומלצת היא להשתמש בספריית Puppeteer כדי לנטר שינויים ספציפיים באלמנט המציג את הכמות שנותרה, למשל, אלמנט עם הטקסט "נרכשו כבר X". על ידי הגדרת MutationObserver על האלמנט הזה, ניתן לקבל התראות מיידיות על שינויים בזמינות מבלי לבצע רענון מלא, מה שמפחית את תעבורת הרשת ב-95% ומקטין את הסיכוי לחסימה.

כיצד אפשר להפוך את נתוני הדילים מ-groupon.co.il ל-API פרטי לשימוש פנימי?▾

כדי להפוך את הנתונים מ-groupon.co.il ל-API פרטי, יש לבנות סקריפט scraping שרץ במרווחים קבועים, למשל כל 15 דקות, באמצעות cron job. הסקריפט, שנכתב ב-Python עם Scrapy, יאסוף את הנתונים הנדרשים וישמור אותם במסד נתונים מובנה כמו PostgreSQL. לאחר מכן, יש לחשוף את הנתונים האלה דרך endpoint של API פשוט באמצעות framework כמו FastAPI, המאפשר שאילתות מהירות ועדכניות ללא צורך בסריקה מחדש בכל בקשה.

מהם 3 שדות הנתונים הקריטיים ביותר לאיסוף עבור ניתוח מתחרים בגרופון ישראל?▾

עבור מודיעין מתחרים אפקטיבי בגרופון ישראל, שלושת שדות הנתונים החשובים ביותר הם: מחיר הדיל, אחוז ההנחה המוצהר, ומספר הרכישות שבוצעו. שילוב של שלושת הנתונים הללו מאפשר לחשב את הפופולריות והאטרקטיביות היחסית של כל הצעה. ניתוח מגמות של מספר הרכישות לאורך 24 שעות יכול לחשוף את הדילים המצליחים ביותר בקטגוריה ספציפית, ולספק תובנות לגבי אסטרטגיות תמחור והנחות שעובדות.

איך ניתן להתמודד עם שינויים תכופים במבנה ה-HTML של גרופון ישראל בסקריפט שלי?▾

כדי להתמודד עם שינויים במבנה ה-HTML, יש להשתמש בסלקטורים גמישים ועמידים במקום סלקטורי CSS או XPath שבירים. לדוגמה, במקום לחפש div.class-1 > div.class-2 > span, עדיף לחפש אלמנט המכיל טקסט ספציפי וידוע, כמו "מחיר", ולחלץ את המידע מאלמנט סמוך לו. שימוש בספריות כמו Beautiful Soup מאפשר ניווט בעץ ה-DOM בצורה סמנטית, מה שמפחית את שבירות הסקריפט בכ-70% בעת עדכוני אתר.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור