Scraping עברית: מדריך טכני לאיסוף נתוני ספרים

אם ניסיתם לעשות scraping לעברית עם ספריית requests פשוטה ונכשלתם, אתם לא לבד. האתר נראה פשוט על פני השטח, אבל מתחת למכסה המנוע מסתתרות הגנות JavaScript וטעינת תוכן דינמית שמפילות 90% מה-scrapers החובבניים. המאמר הזה לא מסביר מה זה web scraping. הוא מפרק את האתגרים הספציפיים באתר e-vrit.co.il ומראה איך מהנדסים מנוסים פותרים אותם כדי להשיג דאטה נקי ואמין, בין אם לצורך ניתוח שוק או בניית API פרטי.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה Requests פשוט לא יספיק לכם כאן

בואו נניח את זה על השולחן: אם אתם מנסים לגשת לדף מוצר ב'עברית' עם קריאת GET פשוטה, תקבלו HTML בסיסי, אבל כנראה שלא את כל המידע שאתם צריכים. הפרטים החשובים באמת, כמו מחיר עדכני, מבצעים, ובעיקר זמינות, נטענים אסינכרונית באמצעות JavaScript לאחר שהדף הראשוני כבר נטען בדפדפן. זו טכניקה נפוצה באתרי e-commerce מודרניים, והיא המכשול הראשון והמשמעותי ביותר.

ניסיון לחלץ מחירים באמצעות סלקטורים של CSS או XPath על ה-HTML הגולמי יחזיר לכם ערכים ריקים או, במקרה הגרוע יותר, מידע לא עדכני. זה קריטי במיוחד עבור use case כמו ניטור מחירים בעברית, שם דיוק של דקות יכול להיות ההבדל בין תובנה שווה למספר חסר משמעות. הפתרון הוא לא לנסות לפענח את קריאות ה-API הפנימיות שלהם. זה אולי יעבוד לשבוע, אבל בשינוי ה-endpoint הבא, כל המערכת שלכם תקרוס. הגישה היציבה היא להשתמש ב-headless browser שמריץ את ה-JavaScript בדיוק כמו דפדפן אמיתי. תפסיקו עם Selenium לפרויקטים חדשים. המדריך המלא ל-Playwright stealth הוא נקודת הפתיחה שלכם. הוא מהיר יותר, יציב יותר, והקהילה סביבו פותרת בעיות בקצב גבוה בהרבה.

בניית מפת אתר אפקטיבית לקטלוג המלא

אוקיי, אז החלטנו להשתמש ב-Playwright. עכשיו איך מוצאים את כל הספרים? איסוף קטלוג עברית הוא אתגר בפני עצמו. אין פה קובץ sitemap.xml מסודר שיגיש לכם את כל 30,000+ כתובות ה-URL של המוצרים על מגש. תצטרכו לבנות זחלן (crawler) ייעודי.

הגישה הנכונה היא דו-שלבית. שלב א': זחילת עומק. התחילו מעמוד הבית, אספו את כל הקישורים לקטגוריות הראשיות והמשניות. לאחר מכן, עבור כל עמוד קטגוריה, תצטרכו לטפל בפאגינציה כדי לאסוף את הקישורים לכל עמודי המוצר. שימו לב: הפאגינציה יכולה להיות מבוססת פרמטר URL (?page=2) או טעינה דינמית עם גלילה (infinite scroll). תצטרכו לכתוב לוגיקה שתזהה ותטפל בשני המקרים. המטרה של השלב הזה היא אך ורק לייצר רשימה מלאה של כתובות URL של מוצרים ולשמור אותה במסד נתונים או בקובץ. אל תנסו לחלץ את פרטי המוצר בשלב הזה – זה מפריד בין הדאגות (separation of concerns) ושומר על התהליך נקי.

שלב ב': חילוץ ממוקד. עכשיו, עם רשימת ה-URLs המוכנה, אתם יכולים להריץ את ה-scraper הכבד יותר (זה שמשתמש ב-Playwright) במקביל על מספר תהליכים או מכונות. גישה זו מאפשרת לכם לנהל כישלונות בצורה מבודדת. אם scraper אחד נכשל על מוצר ספציפי, הוא לא עוצר את כל תהליך איסוף הקישורים.

התמודדות עם חסימות: פרוקסי וניהול טביעות אצבע

ברגע שתתחילו לשלוח בקשות בקצב גבוה, אפילו עם Playwright, תתקלו בחסימות. אתר כמו 'עברית' משתמש במערכות הגנה כדי למנוע עומס מבוטים. שליחת 500 בקשות בדקה מאותה כתובת IP היא דגל אדום בוהק. זה לא עניין של אם, אלא של מתי תקבלו שגיאות 403 או CAPTCHA.

הפתרון הוא rotation של פרוקסי. אבל לא כל פרוקסי יתאים. פרוקסים של דאטה סנטר הם זולים ומהירים, אבל קל מאוד לזהות ולחסום אותם. עבור אתר כזה, אתם צריכים להשקיע בגישה מתוחכמת יותר. איך לבחור פרוקסי residential איכותי מסביר את ההבדלים לעומק, אבל הנקודה המרכזית היא שכתובות IP ביתיות נראות כמו תנועה של משתמשים אמיתיים ומורידות את הסיכוי לחסימה באופן דרמטי. שלבו את זה עם ניהול טביעת אצבע (fingerprint) של הדפדפן. זה כולל User-Agent אקראי (אבל הגיוני), שינוי רזולוציית מסך ופרמטרים אחרים שספריות כמו puppeteer-extra-plugin-stealth (שעובדת גם עם Playwright) עושות אוטומטית. המטרה היא שכל בקשה תיראה כאילו היא מגיעה ממשתמש אחר, במקום אחר, במכשיר אחר.

תרחיש הכשל הנפוץ ביותר: שינויים במבנה ה-DOM

בניתם הכל. הפרוקסי עובד, ה-scraper רץ, ואתם אוספים נתונים בהצלחה של 99.8%. אתם הולכים לישון מרוצים. בבוקר אתם קמים ל-15,000 שורות ריקות במסד הנתונים. מה קרה? ברוכים הבאים לבעיית התחזוקה מספר אחת ב-web scraping: שינויים ב-frontend.

מפתחי האתר של 'עברית' שינו שם של class באלמנט שמכיל את המחיר. זה הכל. שינוי קטן, אולי מ-"price-final" ל-"final-price-tag", והסלקטור שלכם נשבר. ה-scraper לא נכשל עם שגיאה, הוא פשוט לא מוצא את האלמנט ומחזיר null. זהו כישלון שקט ומסוכן. כדי להתמודד עם זה, חייבים לבנות מערכת ניטור ובדיקות. אחרי כל ריצה, בדקו באופן אוטומטי ששדות חיוניים (כמו מחיר ושם מוצר) לא ריקים ביותר מ-5% מהמקרים. אם כן, שלחו התראה מיידית. בנוסף, אל תסתמכו על סלקטורים שבירים מדי. במקום לנבור שלוש רמות של div-ים, חפשו אלמנט עם data-testid="product-price" אם קיים. סלקטורים כאלה נוטים להיות יציבים יותר כי הם משמשים לבדיקות E2E של המפתחים עצמם. אם אין כאלה, בנו סלקטורים גמישים יותר שמסתמכים פחות על מבנה ה-HTML המדויק ויותר על יחסים בין אלמנטים.

מאיסוף נקודתי ל-API נתונים שמיש

איסוף הנתונים הוא רק חצי מהעבודה. קבצי CSV זרוקים בתיקייה הם לא פתרון לטווח ארוך. המטרה הסופית היא בדרך כלל לייצר API / קובץ נתונים עברית שצוותים אחרים בארגון יכולים לצרוך. זה יכול להיות לטובת מודיעין מתחרים עברית או להזנת מודלים של Machine Learning. המפתח הוא לחשוב על מבנה הנתונים מההתחלה.

הגדירו סכמה ברורה. כל רשומה של ספר צריכה להכיל שדות קבועים: מזהה ייחודי (ISBN הוא אידיאלי), שם, מחבר, מחיר, זמינות, קטגוריה, ותאריך איסוף הנתונים (timestamp). נרמלו את הנתונים תוך כדי חילוץ. הסירו רווחים מיותרים, הפכו מחירים למספרים (float), והמירו תאריכים לפורמט ISO 8601. הנתונים הנקיים האלה צריכים להישמר במסד נתונים מבני כמו PostgreSQL, לא בקבצים שטוחים. משם, בניית API פשוט מעל מסד הנתונים היא משימה קלה יחסית עם כלים כמו FastAPI או Express. זה מאפשר לצרכני המידע שלכם לקבל נתונים עדכניים on-demand, במקום לחכות לייצוא ידני. אם אתם נתקלים בחסימות תכופות, חשוב שתבינו איך לטפל בהן נכון. הבנת שגיאות 429 ו-rate limiting היא קריאת חובה לכל מי שבונה מערכת איסוף נתונים אמינה.

נקודות מרכזיות

עבור scraping עברית, חובה להשתמש ב-headless browser כמו Playwright כדי להתמודד עם טעינת תוכן דינמית.
פצלו את תהליך האיסוף לשניים: זחילה לאיסוף URL-ים, ואז חילוץ נתונים ממוקד מהרשימה.
השתמשו בפרוקסי residential איכותי וניהול טביעות אצבע כדי להימנע מחסימות בקנה מידה גדול.
בנו מערכת ניטור אוטומטית שתתריע על כישלונות שקטים הנגרמים משינויים במבנה האתר.
שמרו את הנתונים בסכמה נקייה במסד נתונים, לא בקבצי CSV, כדי לאפשר בניית API יעיל.

שאלות נפוצות

איך אני יכול לבצע ניטור מחירים באתר עברית (e-vrit.co.il) בלי לקבל נתונים שגויים מה-cache?▾

כדי למנוע קבלת נתוני מחיר ישנים מה-cache של עברית, יש להוסיף פרמטר קוורי ייחודי (cache buster) לכל בקשה, למשל ?t=timestamp. המערכת של האתר משתמשת ב-caching אגרסיבי, ובקשות חוזרות לאותו URL עלולות להחזיר מחיר מלפני מספר שעות. בנוסף, חשוב לוודא שה-scraper שלכם מבצע render מלא של JavaScript באמצעות Playwright או Puppeteer, מכיוון שהמחיר הסופי נטען לעיתים באופן אסינכרוני. ודאו שאתם ממתינים לסלקטור הספציפי של המחיר, #product-price, לפני שאתם שומרים את הנתון.

מהי הדרך היעילה ביותר לאסוף קטלוג מלא מ-e-vrit.co.il, כולל כל הואריאציות של ספרים דיגיטליים ומודפסים?▾

הדרך היעילה ביותר לאיסוף קטלוג מלא מעברית היא להתחיל מ-sitemap.xml של האתר כדי לקבל רשימה ראשונית של כל הקטגוריות והמוצרים. משם, יש לפתח scraper ייעודי שמנווט לכל דף מוצר ומחלץ את הנתונים המובנים (structured data) מסוג JSON-LD שנמצאים בתוך תג <script>. מידע זה מכיל את כל הואריאציות, כולל ISBN, פורמט (מודפס/דיגיטלי/שמע), ומחירים. גישה זו מהירה ב-70% מניסיון לחלץ את המידע ישירות מה-HTML ומפחיתה את הסיכוי לשגיאות.

כיצד ניתן לעקוב אחר זמינות ומלאי של ספרים ספציפיים באתר עברית עבור מודיעין מתחרים?▾

מעקב מלאי יעיל באתר עברית דורש התמקדות באלמנט ה-HTML שמעיד על זמינות, ולא רק במחיר. חפשו את האלמנט עם הסלקטור .availability-status או טקסט כמו "אזל מהמלאי". מכיוון שהסטטוס הזה נטען דינמית, חובה להשתמש בדפדפן headless כמו Playwright. כדי להימנע מחסימה, בצעו בדיקות בתדירות נמוכה, למשל כל 3-4 שעות, והשתמשו ב-IPs שונים עבור כל קבוצת מוצרים. איסוף נתון זה מאפשר בניית מודל ביקוש והיצע למתחרים.

אילו headers ספציפיים הכרחיים לשלוח בבקשת HTTP כדי להימנע מחסימה אוטומטית ב-scraping של e-vrit.co.il?▾

כדי להימנע מחסימה אוטומטית בעת scraping של e-vrit.co.il, חובה לכלול לפחות שלושה headers קריטיים בכל בקשה. הראשון הוא User-Agent עדכני של דפדפן כרום או פיירפוקס משנת 2026. השני הוא Accept-Language עם הערך he-IL,he;q=0.9,en-US;q=0.8,en;q=0.7 כדי לדמות משתמש ישראלי. השלישי והחשוב ביותר הוא Referer, שצריך להכיל את ה-URL של העמוד הקודם ממנו הגעתם כביכול (למשל, עמוד קטגוריה). בלעדי אלו, מערכת ה-WAF תסמן אתכם כבוט ב-95% מהמקרים.

איך אני יכול להפוך את הנתונים שאספתי מעברית ל-API פרטי או לקובץ נתונים נקי לשימוש פנימי?▾

כדי להפוך את המידע הגולמי שגירדתם מעברית ל-API שימושי, יש לבצע תהליך ETL (Extract, Transform, Load). ראשית, שמרו את הנתונים המגורדים בפורמט גמיש כמו JSON או במסד נתונים NoSQL כמו MongoDB. בשלב ה-Transform, נרמלו את הנתונים: המירו מחירים למספרים, נקו תגיות HTML מתיאורים, והפרידו וריאציות לאובייקטים נפרדים. לבסוף, חשפו את הנתונים הנקיים דרך REST API באמצעות כלים כמו FastAPI או Express.js, עם endpoints ברורים כמו /products/:isbn.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור