Scraping כפר השעשועים: המדריך הטכני המלא למהנדסים

Q: איך לבנות API פרטי מעל כפר השעשועים לקבלת נתוני מוצר לפי מק"ט?

כדי לבנות API פרטי, יש ליצור endpoint (למשל, `/product-data?sku=12345`) שמפעיל סקרייפר מאחורי הקלעים. הדרך היעילה ביותר היא להשתמש בפונקציית החיפוש המובנית של האתר. ה-endpoint שלכם יבצע בקשת POST או GET ל-endpoint החיפוש של כפר השעשועים עם המק"ט, יחלץ את כתובת ה-URL של המוצר מהתוצאה היחידה, יסרוק את הדף הזה ויחזיר את הנתונים כ-JSON. שימוש ב-cache (כמו Redis) למשך 60 דקות ימנע סריקות חוזרות וישפר את מהירות התגובה באופן דרמטי.

אם ניסיתם פעם לעשות scraping לכפר השעשועים, בטח חשבתם שזה פשוט. האתר נראה סטנדרטי, בלי הגנות מורכבות כמו Cloudflare או Akamai בחזית. אבל פה בדיוק רוב המהנדסים נופלים. האתגרים באתר הזה הם לא ב-JavaScript rendering, אלא בלוגיקה העסקית בצד השרת. בניית scraper יציב דורשת יותר מסקריפט Python פשוט עם requests. המטרה כאן היא לאסוף קטלוג מלא, לעקוב אחר זמינות ולבנות API נתונים אמין. זה דורש גישה אחרת לגמרי. בואו נפרק את זה.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה ה-Scraper הראשון שלך על כפר השעשועים ייכשל

האינסטינקט הראשוני הוא לכתוב לולאה פשוטה. למצוא את ה-sitemap או לעבור על דפי הקטגוריות, לאסוף את כל ה-URLs של המוצרים, ולהתחיל לשלוח בקשות GET. זה עובד. ל-200 הבקשות הראשונות. ואז זה מפסיק. לא תקבלו שגיאת 429 ברורה. במקום זה, תתחילו לקבל תגובות 200 עם HTML חלקי, או timeouts ארוכים ששוברים את כל הלוגיקה האסינכרונית שלכם. זהו ה-failure scenario הקלאסי באתרים כמו כפר השעשועים: rate limiting שקט ברמת האפליקציה, לא ברמת ה-WAF. הם לא חוסמים את ה-IP שלך, הם פשוט מזהים התנהגות רובוטית (למשל, 5 בקשות לדפי מוצר בשנייה מאותו user-agent) ומאטים אותך עד שהתהליך הופך ללא מעשי. בהתחשב בכך שיש באתר כ-15,000-20,000 מוצרים, גישה סדרתית עם requests תארך שעות ותיכשל ב-50% מהמקרים. ניסיון לאסוף שדות כמו מחירים וזמינות בסניפים יהפוך לסיוט של retries ונתונים חסרים. זה בזבוז זמן. צריך גישה מתוחכמת יותר מההתחלה.

ארכיטקטורה שעובדת: Headless Browsers ו-Proxy Rotation חכם

תפסיקו להשתמש ב-requests לפרויקטים כאלה. ב-2025, Playwright הוא הכלי הנכון לעבודה. למה? כי הוא מדמה התנהגות משתמש אמיתית בצורה הרבה יותר אמינה. זה לא רק עניין של הרצת JavaScript. זה עניין של טביעת אצבע שלמה – viewport, user-agent, headers מסודרים, וקצב בקשות אנושי. כשעושים איסוף קטלוג של כפר השעשועים, המטרה היא להיראות כמו 10 משתמשים שונים שגולשים במקביל, לא כמו בוט אחד שמריץ 10 threads. השילוב המנצח הוא Playwright עם proxy rotation. אבל לא כל proxy rotation. אם תחליפו IP בכל בקשה, זה דגל אדום ענק. הגישה הנכונה היא proxies דביקים (sticky sessions). כל worker בתהליך שלכם מקבל IP אחד ומשתמש בו למשך 5-10 דקות, מדמה סשן גלישה קצר. זה מאפשר לכם להריץ עשרות workers במקביל בלי להפעיל את מנגנוני ההגנה. יש מדריכים מצוינים על איך להטמיע את זה, למשל המדריך לעקיפת Cloudflare, שהעקרונות שלו רלוונטיים גם כאן למרות שאין Cloudflare.

מעקב מלאי וזמינות: ה-Use Case הכי שביר

ניטור מחירים זה פשוט יחסית. המחיר הוא שדה סטטי בדף. אבל מעקב מלאי וזמינות בכפר השעשועים הוא סיפור אחר לגמרי. נתוני המלאי לא תמיד נטענים עם ה-HTML הראשוני. לעיתים קרובות, הם מגיעים מבקשת XHR/Fetch אסינכרונית שמתרחשת אחרי טעינת הדף, במיוחד כשבוחרים סניף ספציפי. אם אתם משתמשים ב-requests, תפספסו את זה לחלוטין. עם Playwright, אתם יכולים ליירט את הבקשות האלה. במקום לנתח את ה-HTML, אתם יכולים פשוט להקשיב לתעבורת הרשת של הדף, לסנן את בקשות ה-API הרלוונטיות (לרוב ל-endpoint כמו /api/stock/check), ולחלץ את ה-JSON הנקי ישירות משם. זה מהיר יותר, אמין יותר, ופחות שביר לשינויים ב-CSS selectors. הטכניקה הזו הופכת את ה-scraper שלכם מעמיד פי 10. במקום לחפש div.stock-status, אתם מקבלים אובייקט JSON עם מבנה קבוע. ככה בונים מערכת שמספקת API / קובץ נתונים יומי אמין ללקוחות.

מתי הגישה הזו היא Overkill (ולמה זה לא המצב כאן)

יש שיגידו שלהשתמש ב-Playwright ו-residential proxies זה כמו להביא תותח לקרב סכינים. לפעמים הם צודקים. אם כל מה שאתם צריכים זה לחלץ 100 כותרות מ-RSS feed סטטי, אז כן, זה overkill מוחלט. אבל אנחנו מדברים על מודיעין מתחרים בקנה מידה גדול בשוק הצעצועים. אנחנו מדברים על דאטה סט של עשרות אלפי מוצרים שצריך להתעדכן לפחות פעם ביום, עם רמת דיוק של 99%+. במצב כזה, המורכבות הראשונית של הקמת תשתית מבוססת headless browser משתלמת תוך שבועות. הזמן שתחסכו על דיבאגינג של חסימות ונתונים חסרים גדול לאין שיעור מהזמן שתשקיעו בהקמה. ראיתי צוותים מנסים לחסוך במורכבות, נשארים עם requests ו-datacenter proxies, ומבלים 30% מהזמן שלהם בתיקון scrapers שנשברו. זה פשוט לא יעיל. המטרה היא לא לבנות את ה-scraper הכי מהיר, אלא את הכי אמין. כשהנתונים הם הבסיס להחלטות עסקיות, אין מקום ל-5% שגיאה. למידע נוסף על איך לבחור פרוקסי residential שיתאים למשימה, יש לנו מדריך מפורט.

בניית Data Pipeline: מ-HTML גולמי ל-CSV מסודר

החילוץ הוא רק חצי מהסיפור. הנתונים הגולמיים שאתם מוציאים מאתר כפר השעשועים הם מבולגנים. שמות מוצרים יכולים להכיל תווים מוזרים, מפרטים טכניים לא עקביים, ומחירים מופיעים לפעמים עם ולפעמים בלי סימן השקל. השלב הבא, והחשוב לא פחות, הוא ניקוי וסטנדרטיזציה של הנתונים. זה השלב שבו בונים pipeline: חילוץ -> ניקוי (parsing/cleaning) -> אימות (validation) -> אחסון (storage). לכל שדה שאתם אוספים, כמו שמות מוצרים או קטגוריות, תגדירו סכמה ברורה. השתמשו בספריות כמו Pydantic ב-Python כדי לאכוף את הסכמה הזו. כל רשומה שלא עוברת ולידציה נזרקת לתור נפרד לבדיקה ידנית, במקום שתשבור את כל ה-batch. התוצר הסופי צריך להיות קובץ CSV נקי או טבלה במסד נתונים, מוכנים לניתוח או לצריכה על ידי מערכות אחרות. אם אתם נתקלים בהרבה שגיאות רשת, כדאי לקרוא על טיפול בשגיאות 429 ודומותיהן, כי העקרונות של exponential backoff רלוונטיים גם ל-timeouts.

נקודות מרכזיות

עבור כפר השעשועים, השתמשו ב-Playwright עם stealth ולא ב-requests פשוטים.
האתר משתמש ב-rate limiting שקט ברמת האפליקציה, לא בחסימות IP ישירות.
כדי לעקוב אחר מלאי, יירטו בקשות API מסוג XHR במקום לנתח את ה-HTML.
השתמשו ב-sticky proxies כדי לדמות סשנים של משתמש אמיתי ולא להחליף IP בכל בקשה.
השקיעו ב-pipeline של ניקוי וולידציה לנתונים; החילוץ הוא רק השלב הראשון.

שאלות נפוצות

מהי הדרך היעילה ביותר לניטור מחירים בזמן אמת באתר כפר השעשועים?▾

הדרך היעילה ביותר לניטור מחירים בזמן אמת בכפר השעשועים היא באמצעות סקרייפר מבוסס headless browser כמו Playwright המריץ בדיקות סלקטיביות על קבוצת מוצרים קטנה כל 5-10 דקות, במקום לסרוק את כל האתר. שיטה זו מורידה את טביעת הרגל שלכם ב-95% ומונעת חסימות. במקום לסרוק 50,000 מוצרים, מנטרים רק 200 מוצרי מפתח. אם מתגלה שינוי מחיר באחד מהם, רק אז מופעלת סריקה מלאה של הקטגוריה הרלוונטית, מה שמאזן בין מהירות התגובה לבין הסיכון לחסימה.

איך ניתן לחלץ את כל קטלוג המוצרים מ-kfarhashaashuim.co.il לקובץ CSV?▾

כדי לחלץ את כל קטלוג המוצרים מקובץ CSV יש לבנות סקרייפר דו-שלבי. בשלב הראשון, הסקרייפר צריך לעבור על כל דפי הקטגוריות וה-pagination כדי לאסוף את כל כתובות ה-URL של המוצרים. בשלב השני, תהליך נפרד (worker) עובר על כל URL ברשימה, נכנס לדף המוצר, ומחלץ את הנתונים הנדרשים כמו שם, מחיר, מק"ט ותיאור. שימוש ב-queue כמו RabbitMQ בין שני השלבים יבטיח שהתהליך עמיד ויכול להתאושש מכישלונות נקודתיים בסריקת 10,000+ מוצרים.

כיצד אפשר לעקוב אחר זמינות ומלאי של מוצרים ספציפיים בכפר השעשועים?▾

מעקב אחר זמינות מלאי דורש ניתוח של בקשות ה-XHR שהדפדפן שולח כאשר משנים כמות או מוסיפים לסל. במקום לטעון את כל הדף מחדש, ניתן לחקות את בקשת ה-API הספציפית הזו, בדרך כלל בקשת POST ל-endpoint כמו cart/add, ולנתח את התגובה. לעיתים קרובות, התגובה מכילה אובייקט JSON עם סטטוס המלאי או הכמות המקסימלית הזמינה. שיטה זו מהירה פי 10 מסריקת הדף המלא ומספקת נתונים מדויקים יותר לגבי זמינות אמיתית.

מהם ה-CSS selectors העיקריים לחילוץ שם, מחיר ומק"ט מאתר כפר השעשועים?▾

הסלקטורים המדויקים משתנים, אך נכון ל-2024 ניתן להשתמש בתבניות אמינות. עבור שם המוצר, חפשו h1.product-title או אלמנט עם data-attribute דומה. המחיר נמצא בדרך כלל ב-span.price או div[class*="final-price"]. לאיתור המק"ט (SKU), שהוא הנתון האמין ביותר, יש לחפש אלמנט טקסטואלי המכיל את המילה "מק"ט", לרוב בתוך div.product-sku או span.sku. שימוש ב-XPath במקום CSS selectors יכול לספק גמישות רבה יותר מול שינויים קלים במבנה הדף.

איך לבנות API פרטי מעל כפר השעשועים לקבלת נתוני מוצר לפי מק"ט?▾

כדי לבנות API פרטי, יש ליצור endpoint (למשל, /product-data?sku=12345) שמפעיל סקרייפר מאחורי הקלעים. הדרך היעילה ביותר היא להשתמש בפונקציית החיפוש המובנית של האתר. ה-endpoint שלכם יבצע בקשת POST או GET ל-endpoint החיפוש של כפר השעשועים עם המק"ט, יחלץ את כתובת ה-URL של המוצר מהתוצאה היחידה, יסרוק את הדף הזה ויחזיר את הנתונים כ-JSON. שימוש ב-cache (כמו Redis) למשך 60 דקות ימנע סריקות חוזרות וישפר את מהירות התגובה באופן דרמטי.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור