Scraping רמי לוי: המדריך הטכני המלא למהנדסים

אם ניסיתם פעם לעשות scraping לרמי לוי עם סקריפט פשוט של requests ו-BeautifulSoup, בטח גיליתם מהר מאוד שזה לא עובד. אתרי סופרמרקט מודרניים הם חיה אחרת. הם בנויים על ערימות של JavaScript, טעינת תוכן אסינכרונית, ו-API פנימיים שמשתנים לפי הסניף שבחרת. המאמר הזה הוא לא למתחילים. הוא מיועד למי שכבר יודע את היסודות ורוצה להבין את האתגרים האמיתיים בפרויקט איסוף נתונים מאתר כמו רמי לוי — ואיך פותרים אותם כמו שצריך.

Use Cases · 5

ניטור מחירים

High

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

High

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

High

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

High

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

High

ייצוא CSV/API יומי או שבועי

למה ה-Scraper הראשון שלכם נכשל תוך 5 דקות

הטעות הקלאסית היא להתייחס לאתר כמו רמי לוי כמסמך HTML סטטי. אתה שולח בקשת GET, מקבל HTML, ומנסה לנתח אותו. הבעיה היא שה-HTML שאתה מקבל הוא כמעט ריק. הוא שלד. כל התוכן — מוצרים, מחירים, מבצעים — נטען דינמית אחרי שהדף הראשוני עולה, באמצעות קריאות JavaScript ל-API הפנימי של האתר. זו הסיבה שכלים כמו requests פשוט לא רואים את המידע.

כאן נכנס לתמונה הצורך ב-Headless Browser. תשכחו מ-Selenium; הוא איטי ומיושן. ב-2025, Playwright הוא הבחירה הנכונה. הוא מהיר יותר, האוטומציות שלו אמינות יותר, והוא נותן לך שליטה גרעינית על הרשת. המטרה הראשונית שלכם באיסוף קטלוג רמי לוי היא לא לגרד את ה-HTML, אלא להשתמש ב-Playwright כדי ליירט את קריאות ה-API שהדפדפן מבצע ברקע. אתם מריצים את הדפדפן, מנווטים לעמוד קטגוריה, ופשוט מאזינים לתעבורת ה-XHR/Fetch ב-Developer Tools. שם נמצא הזהב האמיתי. ברגע שיש לכם את ה-endpoints, אתם יכולים להתחיל לחשוב על השלב הבא: איך לדמות את הקריאות האלה ישירות, בלי העול של רינדור דף שלם בכל פעם.

הנדוס לאחור של ה-API: המטרה האמיתית שלכם

אחרי שזיהינו שהדאטה מגיע מ-API פנימי, המשימה משתנה. אנחנו כבר לא 'מגרדים' דפים, אנחנו מתקשרים עם API. פתחו את כלי המפתחים בדפדפן, נווטו לאתר רמי לוי, בחרו סניף, וחפשו בקשות לרשת שנראות כמו /api/v1/products או /api/branches/{branchId}/catalog. בדרך כלל תמצאו endpoint שמקבל מזהה קטגוריה או מילת חיפוש, ומחזיר JSON עם רשימת מוצרים.

ה-JSON הזה הוא המטרה. הוא מכיל את כל מה שצריך בצורה מובנית: שמות מוצרים, מק"טים, תמונות, וכמובן, מחירים ומבצעים. העבודה עם JSON טהור מהירה פי 100 מניתוח HTML. אין צורך ב-CSS selectors מסורבלים שנשברים כל פעם שהעיצוב משתנה. אתם פשוט עובדים עם אובייקטים. האתגר הוא להבין את ה-Headers הנדרשים. סביר להניח שתצטרכו לשלוח טוקן אימות (Authorization Bearer Token), מזהה סשן בקוקי, ואולי גם headers מותאמים אישית כמו X-Client-Version. כל אלה ניתנים לזיהוי על ידי ניתוח הבקשות שהדפדפן שלכם שולח. המטרה היא ליצור לקוח API משלכם, שיכול לבקש נתונים ישירות מהשרת של רמי לוי, מה שמאפשר איסוף קטלוג רמי לוי בקנה מידה גדול.

אתגר הסניפים והמלאי: איך לאסוף דאטה מדויק

ברשתות סופרמרקטים, המחיר והזמינות של מוצר אינם ערכים גלובליים. הם תלויי סניף. זה מוסיף שכבת מורכבות משמעותית. כשאתם מבצעים מעקב מלאי/זמינות רמי לוי, אתם חייבים לנהל סשן (Session) עבור כל סניף בנפרד. בדרך כלל, בחירת סניף באתר שותלת קוקי בדפדפן (למשל, store_id=123) או דורשת שליחת מזהה סניף בכל קריאת API.

הקטלוג של רמי לוי מכיל מעל 15,000 מוצרים. אם יש 50 סניפים, אנחנו מדברים על 750,000 נקודות דאטה פוטנציאליות למחיר/מלאי. ניסיון לסרוק את כל זה באופן סדרתי ייקח ימים. כאן נכנסת לתמונה עבודה מקבילית. אם אתם לא משתמשים ב-asyncio או ארכיטקטורה מבוססת תורים (כמו Celery עם RabbitMQ), אתם מבזבזים 90% מהזמן בהמתנה לתגובות רשת. עם תשתית נכונה וניהול פרוקסי חכם, אפשר להגיע לקצב של 20-30 בקשות בשנייה בלי לעורר חשד. צריך לזכור שכל IP יצטרך לנהל את הקוקיז שלו בנפרד כדי לא לערבב בין נתוני הסניפים. זהו אחד האתגרים המרכזיים שהופכים פרויקט כזה ממשימה פשוטה למערכת מורכבת שדורשת הבנה עמוקה של ניהול פרוקסי למניעת חסימות.

מתי הכל מתפרק: מלאי רפאים וסשנים שמתאפסים

גם עם ה-API המהונדס והתשתית המקבילית, יש נקודות כשל קלאסיות באתרים מסוג זה. התרחיש הכי מתסכל שנתקלתי בו הוא 'מלאי רפאים'. ה-API מדווח שמוצר מסוים נמצא במלאי, אבל כשמנסים להוסיף אותו לעגלה (דרך אוטומציה או ידנית), מקבלים שגיאה. זה קורה כי מערכת המלאי הראשית ומערכת ה-cache שפונה לאתר אינן מסונכרנות במאה אחוז. הפתרון היחיד הוא להוסיף שלב אימות: עבור מוצרים קריטיים, ה-scraper צריך לדמות 'הוספה לסל' כדי לוודא שהמלאי אמיתי. זה מאט את התהליך, אבל מגדיל את אמינות הנתונים מ-95% ל-99.9%.

בעיה נוספת היא 'איפוס סשן'. אחרי מאות או אלפי בקשות, גם עם קוקיז תקינים, השרת יכול להחליט שהסשן שלכם 'ישן' ומאפס אתכם לסניף ברירת המחדל, בלי החזרת קוד שגיאה ברור. פתאום, באמצע סריקת סניף באילת, אתם מתחילים לקבל נתונים מסניף בחיפה. הדרך היחידה להתמודד עם זה היא לבצע בדיקות שפיות תקופתיות. כל 100 בקשות, למשל, בצעו קריאה ל-endpoint כמו /api/users/me או /api/session/details וודאו שמזהה הסניף הנוכחי תואם למה שאתם מצפים. זהו סוג הדיבאגינג שמפריד בין פרויקט חובבני למערכת דאטה מקצועית, וכדאי לקרוא על טכניקות מתקדמות לדיבאגינג של scrapers כדי להיות מוכנים.

הפיכת הנתונים למודיעין תחרותי שמיש

איסוף הנתונים הוא רק חצי מהעבודה. דאטה גולמי בקבצי JSON הוא חסר תועלת עד שלא הופכים אותו לתובנות. השלב הבא הוא לבנות תהליך ETL (Extract, Transform, Load) שמנרמל את המידע ומכניס אותו לדאטהבייס מובנה. כאן מתחיל הערך האמיתי של מודיעין מתחרים רמי לוי. אתם יכולים לעקוב אחרי שינויי מחיר לאורך זמן, לזהות מבצעים חדשים ברגע שהם עולים לאוויר, ולהשוות את קטלוג המוצרים והמחירים מול מתחרים.

התוצר הסופי יכול להיות API פנימי משלכם או קובץ נתונים יומי. לדוגמה, אפשר לייצר API / קובץ נתונים רמי לוי שמספק כל בוקר קובץ CSV עם כל המוצרים, המחירים והמלאי בכל סניף. זה מאפשר לצוותי אנליסטים ומודיעין עסקי לקבל החלטות מבוססות נתונים עדכניים. בניית מערכת כזו דורשת חשיבה על ניטור, התראות על שגיאות, וטיפול בשינויים במבנה האתר. האתר ישתנה. ה-API ישתנה. מערכת טובה לא רק אוספת נתונים, אלא גם מזהה מתי היא נשברת ומתריעה על כך באופן אוטומטי, מה שמבטיח שהנתונים שלכם יישארו אמינים ורלוונטיים.

נקודות מרכזיות

עזבו את ה-HTML, המטרה האמיתית היא הנדוס לאחור של ה-API הפנימי של רמי לוי.
אתגרי המפתח הם ניהול סשנים פר-סניף וטיפול בנתוני מלאי ומחירים שאינם גלובליים.
היזהרו מ'מלאי רפאים' ואיפוס סשנים; בנו בדיקות אימות ושפיות לתוך הלוגיקה של ה-scraper.
השתמשו ב-Playwright לניתוח ראשוני, אך שאפו לעבור לקריאות API ישירות לביצועים גבוהים.
הערך האמיתי נוצר כשמנרמלים את הדאטה הגולמי והופכים אותו ל-API או דוח יומי שמיש.

שאלות נפוצות

איך אני יכול לאסוף את קטלוג המוצרים המלא של רמי לוי עבור סניף ספציפי?▾

איסוף קטלוג לסניף ספציפי ברמי לוי דורש שליחת ה-StoreID הנכון ב-request headers או ב-session cookie. הדרך היעילה ביותר היא לבצע בקשת API ראשונית לאנדפוינט stores כדי למפות את כל 250+ מזהי הסניפים, ולאחר מכן להריץ את ה-scraper בלולאה עם ה-StoreID הרצוי. ללא הגדרת סניף, האתר יחזיר לרוב נתונים מסניף ברירת המחדל, מה שיוביל למידע מחירים ומלאי שגוי עבור 95% מהסניפים האחרים. ניהול נכון של פרמטר זה הוא קריטי.

מהי הדרך היעילה ביותר לניטור מחירי מוצרים ב-rami-levy.co.il בזמן אמת?▾

הדרך היעילה ביותר לניטור מחירים בזמן אמת היא להתמקד ב-API הפנימי של האתר במקום לבצע scraping של ה-HTML. עקבו אחר בקשות ה-XHR שהדפדפן שולח בעת ניווט בקטגוריות, ותזהו את האנדפוינט שמחזיר נתוני מוצר כ-JSON. שליחת בקשת GET ישירה לאנדפוינט זה עם ה-SKUs הרלוונטיים תהיה מהירה ב-80% ותצרוך פחות משאבים מאשר רינדור דפים מלאים עם כלי כמו Playwright. זה גם מקטין משמעותית את הסיכוי להפעיל מנגנוני הגנה.

כיצד ניתן לעקוב אחר זמינות ומלאי של מוצרים ספציפיים ברמי לוי?▾

מעקב מלאי יעיל ברמי לוי מתבצע על ידי ניתוח אובייקט ה-JSON המוחזר מה-API עבור כל מוצר. חפשו שדה כמו isAvailable או stockQuantity במקום להסתמך על אלמנטים ויזואליים ב-HTML. שימו לב שהאתר עשוי להחזיר ערך בוליאני (true/false) לזמינות כללית, אך לפעמים מסתיר את כמות המלאי המדויקת. עבור 90% מהמוצרים, הערך הבוליאני מספיק כדי לדעת אם המוצר קיים בסניף שנבחר.

מהם 3 האתגרים הטכניים העיקריים בבניית scraper לאתר כמו רמי לוי?▾

שלושת האתגרים המרכזיים הם ניהול סשן לפי סניף, טיפול במבנה קטגוריות דינמי, והתמודדות עם rate limiting. ראשית, יש לשמור ולהעביר את מזהה הסניף הנכון בכל בקשה כדי לקבל נתונים מדויקים. שנית, קטגוריות ותתי-קטגוריות נטענות באופן אסינכרוני, מה שמחייב שימוש ב-API ולא ב-scraping סטטי. לבסוף, ביצוע של יותר מ-500 בקשות בדקה מחשבון IP יחיד יוביל כמעט בוודאות לחסימה זמנית או לדרישת CAPTCHA.

האם אני צריך להשתמש ב-Proxies כדי לעשות scraping לאתר רמי לוי?▾

הצורך בשימוש ב-proxies תלוי ישירות בהיקף ה-scraping. עבור איסוף נתונים קטן של עד כ-1,000 מוצרים ביום מ-IP יחיד, סביר להניח שלא תיתקלו בחסימות. עם זאת, לכל פעולה של מודיעין מתחרים או ניטור מחירים מקיף הדורשת עשרות אלפי בקשות, שימוש ב-residential proxies הוא הכרחי. בלעדיהם, שיעור החסימות צפוי לעלות על 75% לאחר פרק זמן קצר, מה שהופך את איסוף הנתונים לבלתי אפקטיבי.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור