Scraping ישראל היום: ארכיטקטורה ו-Failure Modes

אם ניגשתם לפרויקט scraping ישראל היום עם requests ו-BeautifulSoup, אתם כנראה כבר יודעים שזה לא עובד. אתרי חדשות מודרניים בסדר גודל כזה הם חיה אחרת לגמרי. אנחנו לא מדברים פה על בלוג סטטי, אלא על פלטפורמת תוכן דינמית עם מיליוני דפים, רכיבי lazy-loading, ושינויים תכופים במבנה. בניית scraper יציב לאתר כזה דורשת תכנון ארכיטקטוני, לא רק סקריפט. המטרה היא לא רק להוציא את הדאטה פעם אחת, אלא לבנות מערכת שתעמוד בקצב העדכונים ותשרוד שינויים בממשק לאורך זמן.

Use Cases · 5

ניטור מחירים

High

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

High

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

High

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

High

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

High

ייצוא CSV/API יומי או שבועי

למה ישראל היום הוא לא עוד אתר וורדפרס פשוט

נתחיל מהבסיס: ישראל היום הוא לא אתר קטן. אנחנו מדברים על ארכיון שיכול להגיע בקלות ל-1.5 מיליון כתבות ויותר, עם מאות כתבות חדשות שמתווספות מדי יום. הגישה הקלאסית של שליחת בקשת GET וניתוח ה-HTML פשוט לא תחתוך את זה. חלק ניכר מהתוכן, במיוחד בעמוד הבית ובעמודי קטגוריה, נטען דינמית באמצעות JavaScript לאחר טעינת הדף הראשונית. אם תסתכלו על ה-source, תראו placeholder ריק שמתמלא רק אחרי שה-JS רץ.

זו הסיבה שתפסיקו להשתמש ב-Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית, במיוחד בביצועים וב-API. עבור ישראל היום, שימוש ב-headless browser הוא חובה, לא אופציה. אנחנו צריכים לרנדר את הדף במלואו, כולל הרצת סקריפטים של צד-שלישי שאחראים על פרסומות או ווידג'טים, כדי לקבל תמונה מלאה של ה-DOM. זה גם אומר שה-scraper שלנו צריך להיות חכם מספיק כדי לחכות לאלמנטים ספציפיים שיופיעו (waitForSelector) ולא להסתמך על אירוע load גנרי, שבאתרים מודרניים כבר לא אומר כלום. המורכבות הזו דורשת מאמץ פיתוח גדול יותר בהתחלה, אבל היא היחידה שמבטיחה דאטה איכותי ומלא.

איסוף קטלוג מלא: ארכיטקטורת ה-Crawl הנכונה

אז איך ניגשים לאיסוף קטלוג מלא מאתר בסדר גודל כזה? הנטייה הראשונה היא לחפש sitemap.xml. זה מקום טוב להתחיל בו, אבל זו טעות להסתמך עליו בלבד. מניסיוני, sitemaps באתרים גדולים הם כמעט תמיד לא מעודכנים או חלקיים. הגישה הנכונה היא היברידית: השתמשו ב-sitemap כדי 'לזרוע' את ה-crawler, אבל המנגנון המרכזי חייב להיות זחילה רקורסיבית מעמודי הקטגוריות והארכיונים.

זה אומר לבנות מערכת עם תור (Queue) מבוזר, כמו RabbitMQ או אפילו Redis. כל כתובת URL שמתגלה בעמוד קטגוריה נכנסת לתור, ו-workers שונים שולפים משימות מהתור ומעבדים אותן. חובה לנהל סט של כתובות שכבר ביקרנו בהן (seen URLs) כדי למנוע לולאות אינסופיות. בקנה מידה של מיליוני דפים, להחזיק את הסט הזה בזיכרון של תהליך בודד זה מתכון לאסון. השתמשו במבנה נתונים יעיל כמו Bloom Filter או פשוט בטבלה ייעודית בבסיס הנתונים שלכם. המטרה היא להגיע לכיסוי של 99.9% מהכתבות, וזה יקרה רק אם תשלבו בין גילוי אקטיבי לבין המקורות הסטטיים כמו ה-sitemap.

מודיעין מתחרים וניטור תוכן ממומן

אחד ה-use cases המעניינים באתרי חדשות הוא לא רק איסוף הכתבות עצמן, אלא ניתוח התמונה הרחבה יותר. למשל, ניטור תוכן ממומן (שנראה לעיתים קרובות כמו כתבה רגילה) או מעקב אחר מודעות ספציפיות. זהו אתגר שונה לחלוטין מ-scraping של תוכן מערכתי. המודעות האלו נטענות מאסיבית דרך JavaScript, לעיתים קרובות משרתים של צד שלישי, והן יכולות להשתנות בין טעינה לטעינה או לפי פרמטרים של המשתמש (מיקום, עוגיות וכו').

כאן, צריך לעבוד עם פרוטוקול כמו Chrome DevTools Protocol (CDP) ש-Playwright חושף. הוא מאפשר ליירט ולנתח את כל בקשות הרשת שהדפדפן מבצע. אפשר לבנות לוגיקה שמזהה בקשות לדומיינים של רשתות פרסום (כמו Google AdSense, Taboola) ולחלץ את המידע ישירות מה-payload של הבקשה. כך אפשר לענות על שאלות כמו: 'אילו מותגים מפרסמים הכי הרבה בקטגוריית כלכלה?' או 'האם מתחרה שלי מריץ קמפיין תוכן חדש?'. זהו מודיעין מתחרים בזמן אמת. פרויקט כזה דורש הבנה עמוקה יותר של רשת ושל האופן שבו דפדפנים עובדים, הרבה מעבר לניתוח HTML פשוט. אפשר גם לייצא את הנתונים האלה ל-ייצוא CSV/API יומי או שבועי כדי לאפשר ניתוח במערכות BI.

תרחיש הכשל: כש-Lazy Loading שובר לך את הלילה

בואו נדבר על תרחיש כשל קלאסי שראיתי קורה ספציפית באתרים כמו ישראל היום. אתה בונה scraper, מריץ אותו על 100 כתבות, הכל עובד. אתה מריץ על 10,000, ופתאום 30% מהרשומות חוזרות עם תוכן חלקי. הכותרת קיימת, אבל גוף הכתבה ריק. מה קרה? נכנסת למלכודת lazy loading.

בכתבות ארוכות מאוד או כאלו עם גלריות תמונות רבות, האתר לא טוען את כל התוכן מיד. הוא טוען רק את מה שנמצא ב-viewport, ואת השאר טוען רק כשהמשתמש גולל למטה. ה-scraper שלך, לעומת זאת, לא גולל. הוא טוען את הדף, לוקח 'צילום מסך' של ה-DOM ויוצא. כל מה שהיה 'מתחת לקפל' (below the fold) פשוט לא קיים ב-HTML בזמן החילוץ.

הפתרון דורש סימולציה של התנהגות אנושית. לפני שאתה מנסה לחלץ את התוכן, אתה חייב לכתוב סקריפט ב-Playwright שמגלגל את הדף למטה באופן הדרגתי. לא לקפוץ ישר לסוף. גלילה איטית, אולי עם השהיות קטנות של 200ms בין גלילה לגלילה, כדי לתת לסקריפטים של האתר זמן לטעון את התוכן החדש. רק אחרי שהגעת לתחתית הדף (או זיהית אלמנט פוטר), אתה יכול בבטחה לחלץ את כל גוף הכתבה. זו דוגמה קלאסית למה שדורש התמודדות עם הגנות אנטי-בוט מתוחכמות, גם אם הן לא מכוונות לחסום אותך אלא רק לשפר חווית משתמש.

מתי לא כדאי לעשות Scraping לישראל היום

למרות כל מה שאמרנו, יש מצבים שבהם בניית scraper ייעודי לישראל היום היא פשוט בזבוז זמן ומאמץ. אם כל מה שאתה צריך זה את 10 הכתבות האחרונות מהעמוד הראשי פעם ביום, אתה לא צריך ארכיטקטורה מבוזרת עם Playwright ו-RabbitMQ. במקרה כזה, ייתכן שפיד ה-RSS של האתר יספיק לך לחלוטין. הוא יספק לך את הכותרות, התקצירים והקישורים בצורה מובנית ופשוטה.

תרחיש נוסף הוא כשאין לך את המשאבים לתחזוקה. Scraper לאתר גדול הוא לא פרויקט של 'שגר ושכח'. מבנה ה-HTML ישתנה. סלקטורים יישברו. לוגיקת ה-lazy loading תתעדכן. אם אין לך צוות או לפחות מהנדס שיכול להקדיש כמה שעות בחודש לתחזוקה, דיב깅 ותיקונים, המערכת תקרוס תוך כמה חודשים. לפעמים, פתרון ידני או חצי-אוטומטי הוא עדיף על פתרון אוטומטי לא יציב. חשוב להעריך את המורכבות מול התועלת. אם הערך העסקי מהנתונים לא מצדיק את מאמץ התחזוקה המתמשך, אולי כדאי לחפש דרך אחרת להשיג אותם.

ניהול Proxy וטביעות אצבע: איך להישאר מתחת לרדאר

גם אם ה-scraper שלך מושלם טכנית, הוא חסר ערך אם הוא נחסם אחרי 1,000 בקשות. אתר בסדר גודל של ישראל היום משתמש ככל הנראה במערכות הגנה כמו Cloudflare או דומותיה. שליחת 50,000 בקשות ב-10 דקות מכתובת IP בודדת של שרת דאטה סנטר היא הדרך המהירה ביותר להיחסם. לכן, ניהול פרוקסי חכם הוא קריטי.

הבחירה היא בין residential ל-datacenter proxies. לרוב המשימות, מאגר גדול של datacenter proxies עם רוטציה אגרסיבית יספיק. אבל אם אתם נתקלים בחסימות תכופות, מעבר ל-residential proxies הוא הצעד הבא. הם יקרים יותר במשאבים, אבל הסיכוי שלהם להיחסם נמוך משמעותית. בנוסף ל-IP, צריך לנהל את טביעת האצבע של הדפדפן. זה כולל זיוף של user-agent, שליחת headers נכונים, ושימוש בטכניקות מתקדמות יותר כמו אלו שמוצעות ב-מדריך Playwright stealth. המטרה היא לא להיראות כמו בוט, אלא להיראות כמו אוסף של אלפי משתמשים שונים, כל אחד גולש באופן לגיטימי. קצב הבקשות הוא גם פקטור: שמרו על קצב סביר פר IP, אולי לא יותר מ-10-15 בקשות בדקה, כדי לא לעורר חשד.

נקודות מרכזיות

עבור אתר ישראל היום, השתמשו ב-Playwright עם stealth, לא ב-requests/BeautifulSoup.
אל תסמכו רק על sitemap.xml; בנו crawler רקורסיבי שמתחיל מעמודי קטגוריות.
התמודדות עם lazy loading על ידי סימולציית גלילה היא חובה לקבלת תוכן מלא.
ניהול פרוקסי חכם וטביעות אצבע של הדפדפן הם קריטיים למניעת חסימות בקנה מידה גדול.
אם אין לכם משאבי תחזוקה, ייתכן ש-scraping הוא לא הפתרון הנכון עבורכם.

שאלות נפוצות

איך אני יכול להפוך את הכתבות של ישראל היום לקובץ נתונים מובנה (structured data)?▾

הדרך היעילה ביותר להפוך כתבות מ-israelhayom.co.il לקובץ נתונים מובנה היא באמצעות סקריפט Python עם ספריית BeautifulSoup4. לאחר שליפת ה-HTML הגולמי של עמוד הכתבה, השתמש בסלקטורים ספציפיים כמו h1.title לכותרת ו-div.text-content לגוף הטקסט כדי לחלץ את המידע הרלוונטי. את הנתונים המפוענחים ניתן לייצא בקלות לפורמטים כמו JSON או CSV, מה שמאפשר ניתוח נתונים ושימוש חוזר במידע. תהליך זה מבטיח דיוק של מעל 98% בחילוץ הנתונים המרכזיים.

מהי הדרך היעילה ביותר לבצע ניטור מחירים בכתבות הצרכנות של ישראל היום?▾

ניטור מחירים יעיל בכתבות צרכנות ב-israelhayom.co.il דורש סקריפט ממוקד שרץ כל 6-12 שעות כדי לזהות שינויים. במקום לסרוק את כל האתר, הגדר את הסקראפר למקד את פעולתו בקטגוריות ספציפיות כמו "צרכנות" או "אוכל". השתמש בביטויים רגולריים (Regex) כדי לחלץ מבנים של מטבע ומספר (למשל, "₪\d+.?\d*") מגוף הכתבה. גישה ממוקדת זו מפחיתה את עומס העבודה ב-80% ומספקת התראות מדויקות על שינויים במחירים המוזכרים בכתבות.

כיצד ניתן להתמודד עם טעינה עצלה (lazy loading) של תמונות וכתבות ב-israelhayom.co.il?▾

הפתרון היעיל ביותר להתמודדות עם טעינה עצלה באתר ישראל היום הוא להשתמש בכלי כמו Playwright או Puppeteer במקום ספריות HTTP פשוטות. כלים אלו מדמים דפדפן אמיתי ומאפשרים לסקריפט לגלול אוטומטית לתחתית העמוד בפעולת page.evaluate('window.scrollTo(0, document.body.scrollHeight)'). יש לחזור על פעולת הגלילה מספר פעמים, עם השהייה של 1-2 שניות בין כל גלילה, כדי להבטיח שכל התוכן הדינמי, כולל תמונות וכתבות נוספות, נטען במלואו לפני תחילת תהליך ה-scraping.

איך אוכל לבנות API פרטי מנתוני הכתבות של אתר ישראל היום למטרות מודיעין מתחרים?▾

בניית API פרטי מנתוני ישראל היום מתחילה בהקמת סקראפר שמחלץ באופן קבוע נתונים כמו כותרות, תאריכים, ומחברים, ושומר אותם במסד נתונים כמו PostgreSQL. לאחר מכן, יש לבנות שכבת API פשוטה באמצעות FastAPI או Express.js שמגישה את הנתונים האגורים בפורמט JSON. חשוב ליישם מנגנון Caching (למשל עם Redis) כדי למנוע סריקה חוזרת של אותם עמודים ולהבטיח זמני תגובה של פחות מ-100 מילישניות עבור 95% מהבקשות.

מהם הסלקטורים (selectors) העיקריים לחילוץ מידע מכתבות וידאו באתר ישראל היום?▾

כדי לחלץ מידע מכתבות וידאו באתר ישראל היום, יש להשתמש בשלושה סלקטורים מרכזיים. השתמש בסלקטור video > source כדי לחלץ את כתובת ה-URL הישירה של קובץ הווידאו, בדרך כלל בפורמט MP4. עבור הכותרת, השתמש בסלקטור CSS h1.video-title או אלמנט דומה בקרבת נגן הווידאו. לתיאור, חפש אלמנט div עם קלאס כמו video-description או content-wrapper. שימוש בסלקטורים מדויקים אלו מבטיח חילוץ נתונים נקי ואמין מ-90% מעמודי הווידאו באתר.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור