Scraping שילב: מדריך טכני מעבר ל-requests.get

Q: מהם 3 ה-headers החשובים ביותר שיש לזייף כדי להימנע מחסימה ראשונית ב-scraping?

שלושת ה-headers החשובים ביותר למניעת חסימה ראשונית הם `User-Agent`, `Accept-Language`, ו-`Referer`. יש להגדיר `User-Agent` של דפדפן מודרני, למשל Chrome 125, ולא להשאיר את ברירת המחדל של ספריות כמו `requests`. הוספת `Accept-Language` עם ערך כמו `he-IL,he;q=0.9` מסמנת תעבורה לגיטימית מישראל. לבסוף, `Referer` המצביע על דף קודם באתר (למשל, דף קטגוריה המוביל לדף מוצר) משלים תמונה של גלישה אנושית ומפחית את הסיכוי לחסימה מיידית בכ-60% מהמקרים.

אז אתה צריך לעשות scraping לשילב. אם הגישה הראשונה שלך היא `requests.get`, המאמר הזה בשבילך. אתרים מודרניים כמו שילב לא מגישים HTML סטטי. הם בנויים על JavaScript, קריאות API אסינכרוניות, ומערכות הגנה שמזהות סקריפטים פשוטים מקילומטר. עברנו את הימים של BeautifulSoup בלבד. כדי לבנות מערכת אמינה לניטור מחירים או מעקב מלאי באתר כזה, צריך לחשוב כמו מהנדס מערכת, לא רק כמו כותב סקריפטים. נצלול לטקטיקות שעובדות ב-2025.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה Scraper פשוט ייכשל על שילב תוך 10 דקות

בוא נהיה כנים. רוב ה-scrapers שנכתבים בפעם הראשונה על אתר כמו שילב נראים בערך ככה: לולאה שרצה על רשימת URLs, קריאת requests, וניסיון לפרסר את ה-HTML עם BeautifulSoup. זה לא יעבוד. לא כאן. כשתריץ את זה, תקבל מעטפת HTML ריקה מתוכן, אולי עם תג <div id="app"> וזהו. כל המידע על המוצרים — שמות, קטגוריות, ובוודאי שדות קריטיים כמו מחירים ומפרטים — נטענים דינמית באמצעות JavaScript אחרי שהדף הראשוני נטען.

זו הנקודה הראשונה שבה 90% מהניסיונות נתקעים. המערכת שלך לא רואה את מה שהדפדפן שלך רואה. ה-scraper שלך מקבל את התגובה הראשונית מהשרת, שהיא לרוב שלד ריק. הנתונים האמיתיים מגיעים דרך קריאות XHR/Fetch נפרדות ל-API פנימי. אם תפתח את ה-Developer Tools של הדפדפן שלך בלשונית Network בזמן טעינת עמוד קטגוריה בשילב, תראה את המבול הזה. עשרות בקשות שמתרחשות ברקע. בלי לחקות את הבקשות האלה או לרנדר את ה-JS, אתה פשוט עיוור. זה ה-failure mode הקלאסי של אתרי e-commerce מודרניים. המורכבות הזו דורשת כלים מתקדמים יותר מספריות HTTP פשוטות.

הגישה הנכונה: Headless Browser או Reverse Engineering?

אז הבנו ש-requests לא מספיק. יש שתי דרכים מרכזיות להתמודד עם אתרים דינמיים. הראשונה היא שימוש ב-Headless Browser כמו Playwright או Puppeteer. אתה בעצם מריץ דפדפן אמיתי (כמו כרום) ברקע, נותן לו לטעון את הדף, להריץ את כל ה-JavaScript, ואז אתה מחלץ את המידע מה-DOM הסופי. זה פתרון מהיר לפיתוח ראשוני. אתה עובד עם ה-HTML שאתה מכיר, והסיכוי להשיג נתונים בפעם הראשונה גבוה. אבל זה כבד. כל בקשה צורכת משמעותית יותר CPU וזיכרון, והיא איטית יותר. בשביל פרויקט איסוף קטלוג שילב חד-פעמי, זה יכול להספיק.

הגישה השנייה, והנכונה לטווח ארוך, היא reverse engineering של ה-API הפנימי. במקום לרנדר את כל הדף, אתה מזהה את אותן קריאות ה-API שהדפדפן מבצע כדי לקבל את נתוני המוצר, ומחקה אותן ישירות. זה מהיר פי 10, צורך פחות משאבים, ומחזיר לך JSON נקי במקום HTML מבולגן. זה דורש יותר עבודת בילוש בהתחלה — צריך לנתח את הבקשות, להבין את ה-headers, ה-cookies, ואולי טוקנים של אימות. אבל ברגע שיש לך את זה, יש לך צינור נתונים יציב ואמין. אם המטרה היא מודיעין מתחרים שילב שרץ 24/7, זו הדרך היחידה לעשות זאת בצורה יעילה. לרוב, אני מתחיל עם מדריך Playwright stealth כדי להבין את הלוגיקה, ואז עובר למימוש API.

איסוף קטלוג מלא: ניווט, קטגוריות ו-Pagination

באתר כמו שילב יש אלפי מוצרים. המטרה של איסוף קטלוג שילב היא לאסוף את כולם, ולא רק את ה-50 הראשונים בעמוד הבית. הדרך הנכונה היא להתחיל ממפת האתר (sitemap.xml), אם קיימת ועדכנית, אבל לעולם לא לסמוך עליה בלבד. היא כמעט תמיד לא מלאה. הגישה הבטוחה היא לזחול. התחל מעמוד הבית, אסוף את כל הקישורים לקטגוריות הראשיות. מכל קטגוריה, רד לתתי-קטגוריות באופן רקורסיבי. בכל עמוד קטגוריה, תצטרך לטפל ב-pagination. אל תניח שזה תמיד יהיה פרמטר ?page=2. לפעמים זה אירוע JavaScript, לפעמים זה infinite scroll שמפעיל קריאת API כשאתה מגיע לתחתית העמוד. שוב, ה-Developer Tools הם החבר הכי טוב שלך כאן.

קצב הבקשות הוא קריטי. אם תנסה לסרוק 10,000 מוצרים עם 16 workers במקביל, אתה תמצא את עצמך עם חסימת IP תוך פחות משעה. התחל לאט. 2-3 בקשות בשנייה, עם רוטציה של IP. כאן נכנס לתמונה נושא הפרוקסי. שימוש ב-Proxies הוא לא אופציה, הוא חובה. אני ממליץ להתחיל עם איך לבחור פרוקסי residential כדי להבין את האפשרויות. המטרה היא להיראות כמו תעבורה של משתמשים אמיתיים, לא כמו בוט שדורס את השרת. עם קונפיגורציה נכונה, אפשר להגיע לקצב יציב של 10-15K דפים בשעה עם אחוזי הצלחה של מעל 98%.

מעקב מלאי ונתונים בזמן אמת

אחד ה-use cases המורכבים ביותר הוא מעקב מלאי/זמינות שילב. בניגוד למחיר או שם מוצר שמשתנים לעתים רחוקות, המלאי יכול להשתנות כל דקה. זה דורש גישה שונה לחלוטין. סריקה מלאה של כל הקטלוג פעם ביום לא תספיק. כאן, היכולת לעשות reverse engineering ל-API היא קריטית. לעיתים קרובות, יש endpoint ספציפי שבודק זמינות או מלאי לפי מוצר, והוא קל משקל ומהיר יותר מה-endpoint שמחזיר את כל פרטי המוצר.

האתגר הוא לזהות את ה-endpoints האלה. לפעמים המידע על מלאי בסניפים נטען רק אחרי שהמשתמש בוחר סניף ספציפי. זה אומר שה-scraper שלך צריך לחקות את האינטראקציה הזו: לשלוח בקשה ראשונה לקבל רשימת סניפים, ואז בקשות נפרדות לכל סניף כדי לקבל את מצב המלאי. זה הופך בקשה אחת לסדרה של בקשות תלויות. ניהול המצב (state) הופך למורכב. בנוסף, חשוב לטפל נכון בשגיאות. אם קיבלת שגיאת 429 (Too Many Requests), אתה לא יכול פשוט לנסות שוב מיד. אתה צריך backoff אקספוננציאלי ורוטציית פרוקסי. יש לנו מדריך מעולה על טיפול בשגיאות 429 שמכסה את הנושא לעומק.

מתי הגישה הזו לא תעבוד: כששוכחים את התחזוקה

אז בנית scraper שעובד. הוא מבוסס API, יש לו רוטציית פרוקסי, והוא מוציא נתונים נקיים. הנה האמת הכואבת: הוא ישבר. לא 'אולי', אלא 'מתי'. אתרי אינטרנט משתנים כל הזמן. שילב יכולים לעשות שינוי קטן ב-frontend מחר בבוקר, שישנה את מבנה ה-API, יוסיף header חדש, או ישנה את מבנה ה-JSON המוחזר. פתאום, ה-scraper שלך מתחיל להחזיר שדות ריקים או קורס לחלוטין.

הטעות הגדולה ביותר שאני רואה היא חוסר תכנון לתחזוקה. בניית ה-scraper היא רק 50% מהעבודה. ה-50% הנותרים הם ניטור, התראות ותחזוקה שוטפת. אתה חייב שיהיה לך דשבורד שמציג את אחוז ההצלחה של הבקשות, את מספר המוצרים שחולצו בכל ריצה, והתראות אוטומטיות (למשל ב-Slack) שקופצות ברגע שאחוז השגיאות עולה מעל סף מסוים (נניח, 5%). בנוסף, צריך מערכת schema validation שמוודאת שהנתונים שאתה מקבל תואמים למבנה שאתה מצפה לו. אם פתאום שדה price מתחיל להגיע כ-null, אתה רוצה לדעת על זה מיד, לא שבוע אחרי. בלי המערכות האלה, ה-API / קובץ נתונים שילב שתייצר יהפוך מהר מאוד ללא אמין וחסר תועלת.

נקודות מרכזיות

אל תשתמש ב-requests פשוט עבור שילב; האתר דורש רינדור JavaScript או גישה ל-API.
לפרויקטים ארוכי טווח, העדיפו reverse engineering של ה-API על פני Headless Browsers.
מעקב מלאי בזמן אמת דורש הבנה עמוקה של קריאות ה-API הספציפיות לזמינות.
תכנון לתחזוקה וניטור הוא קריטי; ה-scraper שלך ישבר, השאלה היא רק מתי ואיך תדע.
רוטציית פרוקסי איכותית וניהול קצב בקשות הם תנאי הכרחי לפעולה יציבה.

שאלות נפוצות

מהי הדרך היעילה ביותר לניטור שינויי מחירים ומבצעים באתר שילב בזמן אמת?▾

הדרך היעילה ביותר לניטור מחירים בזמן אמת באתר שילב היא באמצעות סקריפטים הממוקדים ב-API הפנימי של האתר, ולא על ידי סריקת דפי ה-HTML. גישה זו מפחיתה את צריכת המשאבים בכ-80% ומספקת נתונים מובנים ישירות בפורמט JSON. יש לזהות את ה-endpoint הספציפי שמחזיר מידע על מוצר, בדרך כלל משהו כמו /api/product/{productId}, ולנטר אותו כל 5-10 דקות. שיטה זו עוקפת את רוב מנגנוני ההגנה מבוססי-דפדפן ומבטיחה קבלת נתונים מדויקים ומהירים על שינויי מחיר או מבצעים חדשים.

איך אני יכול לעקוב אחר זמינות המלאי של מוצרים ספציפיים באתר shilav.co.il?▾

מעקב אחר זמינות מלאי באתר שילב מתבצע בצורה המדויקת ביותר דרך ניתוח תגובות ה-API של האתר. במקום לנתח את הטקסט "אזל מהמלאי" ב-HTML, יש לבדוק את שדה ה-stock_status או quantity בתגובת ה-JSON מהשרת. בדרך כלל, ערך מספרי (למשל, quantity: 0) או בוליאני (is_in_stock: false) יספק אינדיקציה חד משמעית. שיטה זו אמינה ב-99% מהמקרים, בניגוד לניתוח ויזואלי של הדף שיכול להיות מושפע משינויי עיצוב או סקריפטים בצד הלקוח.

כיצד ניתן לייצא את קטלוג המוצרים המלא של שילב לקובץ נתונים מובנה (CSV/JSON)?▾

ייצוא קטלוג המוצרים המלא של שילב לקובץ מובנה דורש סריקה שיטתית של כל קטגוריות המוצרים. התהליך מתחיל במיפוי ה-sitemap.xml של האתר כדי לזהות את כל כתובות ה-URL של הקטגוריות. לאחר מכן, עבור כל קטגוריה, יש להריץ סקריפט שמנווט בין כל דפי המוצרים (pagination), אוסף את הנתונים הרלוונטיים מכל דף, ומצרף אותם למבנה נתונים אחיד. שימוש בספריית Scrapy בפייתון יכול לייעל את התהליך ולאפשר ייצוא ישיר לפורמט CSV או JSON עם טיפול אוטומטי בכ-70% מהשגיאות הנפוצות.

מהם 3 ה-headers החשובים ביותר שיש לזייף כדי להימנע מחסימה ראשונית ב-scraping?▾

שלושת ה-headers החשובים ביותר למניעת חסימה ראשונית הם User-Agent, Accept-Language, ו-Referer. יש להגדיר User-Agent של דפדפן מודרני, למשל Chrome 125, ולא להשאיר את ברירת המחדל של ספריות כמו requests. הוספת Accept-Language עם ערך כמו he-IL,he;q=0.9 מסמנת תעבורה לגיטימית מישראל. לבסוף, Referer המצביע על דף קודם באתר (למשל, דף קטגוריה המוביל לדף מוצר) משלים תמונה של גלישה אנושית ומפחית את הסיכוי לחסימה מיידית בכ-60% מהמקרים.

באיזה קצב בקשות (requests per minute) ניתן לסרוק את שילב מבלי להפעיל rate limiting?▾

קצב בקשות בטוח לסריקת אתר שילב, תוך שימוש ב-IP יחיד, נע בין 20 ל-30 בקשות לדקה. חריגה מעבר ל-45 בקשות לדקה כמעט תמיד תפעיל מנגנוני הגנה אוטומטיים כמו rate limiting ותוביל לחסימה זמנית (HTTP 429). כדי להגדיל את קצב הסריקה באופן משמעותי, יש צורך בשימוש במאגר של residential proxies המאפשר פיזור הבקשות על פני מאות כתובות IP שונות. חשוב גם להוסיף השהייה אקראית של 1.5 עד 4 שניות בין בקשות כדי לחקות התנהגות אנושית.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור