Scraping מעריב: המדריך המלא לאיסוף נתוני חדשות

אם ניסיתם פעם לעשות scraping למעריב עם ספריית requests פשוטה, בטח גיליתם מהר מאוד שזה לא עובד. אתרי חדשות מודרניים הם לא דפי HTML סטטיים. הם מערכות דינמיות, עתירות JavaScript, עם מבנה DOM שמשתנה וארכיונים של מאות אלפי כתבות. המטרה כאן היא לא לחלץ מחיר, אלא לבנות צינור נתונים אמין שיודע להתמודד עם נפח, מהירות, וניסיונות חסימה. זה דורש גישה שונה לחלוטין מסקריפט פשוט של חמש דקות.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה אתרי חדשות כמו מעריב הם מטרה שונה לגמרי

נתחיל מהבסיס: scraping של אתר חדשות כמו מעריב הוא לא משחק של חילוץ שדה בודד מדף מוצר. כאן, המורכבות נובעת מהיקף ומהירות. אנחנו מדברים על ארכיון שמכיל מאות אלפי כתבות, עם עשרות כתבות חדשות שנוספות מדי יום. המטרה היא לא תמונה נקודתית, אלא בניית דאטה-סט עשיר לאורך זמן. זה יכול להיות לצורך איסוף קטלוג מעריב למחקר אקדמי, ניתוח סנטימנט על פני שנים, או מעקב אחר אזכורים של מותגים.

האתגר הראשון הוא הגילוי (Discovery). איך מוצאים את כל הכתבות? מפות אתר (sitemaps) הן נקודת התחלה טובה, אבל הן לא תמיד מלאות או מעודכנות. לרוב, תצטרכו לבנות זחלן (crawler) שיודע לנווט בין דפי קטגוריות, תגיות וארכיונים לפי תאריך. זה תהליך רקורסיבי שדורש ניהול תורים מתוחכם כדי למנוע כפילויות ולדעת איפה עצרתם.

האתגר השני הוא העיבוד. כל כתבה מכילה לא רק טקסט, אלא גם מטא-דאטה קריטי: שם הכותב, תאריך פרסום מדויק, קטגוריות, ותגיות. חילוץ המידע הזה בצורה עקבית, כשמבנה ה-HTML יכול להשתנות בין מדורים שונים או לאורך זמן, דורש סלקטורים חכמים ועמידים. XPath יכול להיות חבר טוב יותר מ-CSS selectors במקרים כאלה, בזכות היכולת שלו לנווט במבנה ה-DOM בצורה גמישה יותר.

ארכיטקטורת ה-Scraper: איך לגשת לארכיון של עשור

תשכחו מ-requests ו-BeautifulSoup. לפחות לא ככלי הראשי. אתר מעריב, כמו רוב אתרי החדשות הגדולים, טוען חלקים נרחבים מהתוכן שלו באופן דינמי באמצעות JavaScript. בקשת GET פשוטה תחזיר לכם מעטפת HTML ריקה מתוכן. אתם חייבים headless browser. והיום, הבחירה הנכונה היא Playwright. הוא מהיר יותר, עם API מודרני ותמיכה מעולה ב-async, מה שהופך אותו לאידיאלי למשימות IO-bound כמו web scraping.

הארכיטקטורה שאני ממליץ עליה מורכבת משלושה חלקים:

מנהל תורים (Queue Manager): בין אם זה RabbitMQ, Redis, או אפילו מסד נתונים פשוט. כאן יאוחסנו כל ה-URLs שגילינו וצריך לגרד. זה מאפשר לכם להריץ מספר workers במקביל ולהמשיך מאותה נקודה במקרה של נפילה.
Workers מבוססי Playwright: כל worker שולף URL מהתור, מנווט אליו עם Playwright, ממתין לטעינת התוכן הדינמי, ומחלץ את הנתונים הנדרשים – כותרת, תאריך, קטגוריות, וגוף הכתבה. חשוב מאוד להשתמש ב-Playwright עם תמיכה ב-stealth כדי להיראות כמו משתמש אמיתי. זה קריטי כדי להימנע מחסימות אוטומטיות. תוכלו למצוא מידע נוסף על זה במדריך מקיף ל-proxy rotation שמשלים את התמונה.
מאגר נתונים (Data Store): הנתונים הגולמיים צריכים להיכתב למקום כלשהו – בין אם זה קבצי JSONL ב-S3, או ישירות למסד נתונים כמו PostgreSQL. חשוב שהכתיבה תהיה מהירה ולא תחסום את ה-worker.

עם ארכיטקטורה כזו, אפשר להגיע לקצבים של 2,000-3,000 דפים בשעה עם מספר workers מצומצם, תוך שמירה על אחוזי הצלחה של מעל 98%.

כישלון קלאסי: המלכודת של Rate Limiting וטביעות אצבע

אחד התרחישים הנפוצים ביותר שראיתי הוא scraper שמתחיל לעבוד מצוין, מגרד כמה אלפי דפים, ואז נעצר בפתאומיות. כל הבקשות מתחילות להחזיר שגיאות 403 או דפי CAPTCHA. זו לא תקלה אקראית. זהו מנגנון הגנה שהופעל. אתרי חדשות כמו מעריב משתמשים במערכות הגנה מתוחכמות כדי לזהות תעבורה אוטומטית.

הטעות הראשונה היא התעלמות מ-rate limiting. שליחת מאות בקשות בדקה מאותה כתובת IP היא דגל אדום ענק. אתם חייבים להגביל את קצב הבקשות פר IP. אבל זה לא מספיק. המערכות האלה לא מסתכלות רק על ה-IP. הן בונות טביעת אצבע (fingerprint) של הלקוח על סמך עשרות פרמטרים: ה-User-Agent, סדר ה-headers, תמיכה בפיצ'רים של JavaScript, רזולוציית מסך, פונטים מותקנים, ועוד. אם כל הבקשות שלכם מגיעות עם אותה טביעת אצבע בדיוק, גם אם הן מ-IPs שונים, המערכת תזהה את התבנית ותחסום אתכם. זה המקום שבו איך לעקוף חסימות מבוססות JavaScript הופך לקריאת חובה.

כדי להתמודד עם זה, צריך לחשוב בשכבות. Proxy rotation הוא הכרחי, אבל גם ניהול טביעות אצבע. כל worker צריך להשתמש ב-User-Agent שונה, לסדר את ה-headers שלו בצורה קצת אחרת, ואולי אפילו להשתמש בפרופיל דפדפן נפרד. המטרה היא לא להיראות כמו אלף רובוטים זהים, אלא כמו אלף משתמשים שונים.

מעבר לאיסוף: שימושים מתקדמים בנתוני מעריב

ברגע שיש לכם צינור נתונים יציב שמייצר דאטה-סט נקי, האפשרויות נפתחות. איסוף הכתבות הוא רק הצעד הראשון. המטרה הסופית היא בדרך כלל ניתוח. למשל, ניתן להשתמש בנתונים עבור מודיעין מתחרים מעריב, על ידי ניתוח הכיסוי התקשורתי של חברות או מוצרים מסוימים לאורך זמן. אפשר לזהות מגמות, שינויים בסנטימנט הציבורי, או לראות אילו נושאים מקבלים יותר במה.

שימוש נוסף הוא מעקב מלאי/זמינות מעריב במובן של עדכוני חדשות בזמן אמת. על ידי סריקה תכופה של עמוד הבית והמדורים הראשיים, אפשר לזהות כתבות חדשות תוך דקות מהפרסום שלהן. זה קריטי עבור מערכות ניטור מדיה או גופי מסחר אלגוריתמי שמגיבים לאירועים חדשותיים. המפתח כאן הוא latency נמוך. ה-scraper צריך להיות ממוקד, לסרוק רק את הדפים הרלוונטיים, ולהימנע מלבזבז זמן על ארכיונים ישנים במצב "live".

לבסוף, המטרה של רבים היא API / קובץ נתונים מעריב. כלומר, להפוך את התוכן הלא-מובנה של האתר לדאטה-סט מובנה ונגיש, בפורמט CSV או דרך API פנימי. דאטה-סט כזה יכול להכיל לא רק את תוכן הכתבה, אלא גם נתונים שחולצו ממנה, כמו זיהוי ישויות (named entities) - מה שאפשר לכנות חילוץ שמות מוצרים/מודעות מהטקסט. בניית תהליך ETL אמין היא המפתח להפקת ערך אמיתי מהנתונים שטרחתם כל כך לאסוף.

מתי הגישה הזו היא Overkill (ומתי לא)

בואו נהיה כנים, לא כל פרויקט דורש ארכיטקטורה מורכבת עם תורים ו-workers. אם כל מה שאתם צריכים זה לחלץ את 50 הכתבות האחרונות ממדור ספציפי פעם בשבוע, בניית מערכת כזו היא בזבוז זמן ומאמץ. סקריפט Playwright פשוט שירוץ דרך cron job יעשה את העבודה מצוין. המורכבות צריכה להתאים להיקף הבעיה.

אבל, ברגע שהדרישות גדלות, הגישה הפשוטה קורסת. מתי עוברים למודל המורכב? הנה כמה קווים אדומים:

היקף: אם אתם צריכים לגרד יותר מ-10,000 דפים.
תדירות: אם אתם צריכים לעדכן נתונים יותר מפעם ביום.
אמינות: אם המערכת צריכה לרוץ 24/7 ולהתאושש מנפילות באופן אוטומטי.

אם אתם נמצאים באחד מהמצבים האלה, ניסיון "לחסוך" על ידי שימוש בסקריפט פשוט יוביל לכאבי ראש אינסופיים. תמצאו את עצמכם מתחזקים קוד ספגטי, מריצים מחדש תהליכים שנפלו ידנית, ומאבדים נתונים. ההשקעה הראשונית בבניית תשתית נכונה, כמו בניית צינור נתונים יעיל עם Python ו-asyncio, מחזירה את עצמה במהירות ביציבות ובשקט הנפשי. אם אתם בונים משהו שאמור לרוץ יותר מחודש, תבנו אותו נכון מההתחלה. הזמן שתשקיעו בדיב깅 של פתרון זמני יעלה על זמן הפיתוח של ארכיטקטורה יציבה.

נקודות מרכזיות

Scraping אתר חדשות כמו מעריב דורש headless browser; Playwright הוא הבחירה המודרנית.
האתגר העיקרי אינו חילוץ נתונים מדף בודד, אלא ניהול סריקה בהיקף רחב ואמין.
חסימות הן בלתי נמנעות ללא proxy rotation וניהול טביעות אצבע (fingerprinting) מתקדם.
השקעה בארכיטקטורה עם תורים ו-workers נפרדים היא הכרחית לפרויקטים ארוכי טווח.
הערך האמיתי אינו באיסוף הנתונים, אלא בבניית דאטה-סטים מובנים לניתוח ושימוש.

שאלות נפוצות

מהי הדרך היעילה ביותר לחלץ את כל הכתבות מארכיון מעריב עבור מודל שפה (LLM)?▾

הדרך היעילה ביותר לחילוץ ארכיון מעריב היא באמצעות סריקה היררכית מבוססת מפת אתר (sitemap.xml) ולא סריקה עיוורת. התחילו מניתוח קובץ ה-sitemap כדי לזהות את תבניות ה-URL של כתבות היסטוריות, מה שיחסוך כ-80% מזמן הזחילה. לאחר מכן, השתמשו ב-Scrapy עם תור מבוזר כמו Redis כדי לנהל את מיליוני הכתובות ולטפל בכשלונות באופן אסינכרוני. לבסוף, שמרו את התוכן הנקי בפורמט Parquet, שהוא דחוס ויעיל משמעותית מ-JSON או CSV עבור מערכי נתונים גדולים המיועדים לאימון מודלים.

איך לבנות מערכת מודיעין מתחרים בזמן אמת על בסיס אתר maariv.co.il?▾

כדי לבנות מערכת מודיעין מתחרים בזמן אמת מ-maariv.co.il, יש לשלב זיהוי שינויים מהיר עם התראות חכמות. השתמשו ב-scraper מבוסס Playwright שרץ כל 5 דקות ובודק האם ה-hash של תוכן ה-HTML בעמוד הבית או במדורים ספציפיים השתנה. אם זוהה שינוי, בצעו חילוץ מלא של הכתבות החדשות או המעודכנות והשוו את התוכן לגרסה הקודמת. שלחו התראה באמצעות Webhook ל-Slack או Teams רק אם מופיעות מילות מפתח שהוגדרו מראש, כדי למנוע רעש מיותר.

מהן 3 הטעויות הנפוצות ביותר ב-scraping של אתר חדשות דינמי כמו מעריב?▾

הטעות הנפוצה ביותר היא הסתמכות על סלקטורים (selectors) שבירים כמו class names שנוצרו אוטומטית. במקום זאת, יש להשתמש ב-data attributes או ב-ARIA labels שהם יציבים יותר ב-95% מהמקרים. טעות שנייה היא אי-ניהול sessions ו-cookies, מה שמוביל לזיהוי מהיר כבוט. טעות שלישית היא שליחת בקשות בקצב קבוע; יש ליישם השהייה אקראית (random delay) של בין 1.5 ל-4 שניות בין בקשות כדי לחקות התנהגות אנושית ולהימנע מחסימות מבוססות קצב.

כיצד אוכל ליצור API פרטי מאתר מעריב כדי לקבל נתונים מובנים בפורמט JSON?▾

יצירת API פרטי ממעריב דורשת שלושה רכיבים עיקריים: scraper, מסד נתונים, ו-endpoint. השתמשו בסקריפט Python עם BeautifulSoup או Scrapy כדי לחלץ את הנתונים הנדרשים (כותרת, תאריך, תוכן) ולהמיר אותם לאובייקט מובנה. אחסנו את הנתונים במסד נתונים NoSQL כמו MongoDB, שמתאים למידע לא מובנה חלקית. לבסוף, הקימו שרת אינטרנט קל משקל באמצעות FastAPI שיחשוף endpoint פשוט מסוג GET, אשר יבצע שאילתה למסד הנתונים ויחזיר את התוצאות כ-JSON.

מהי הארכיטקטורה המומלצת לניטור שינויים במחירי מודעות באתר maariv.co.il?▾

הארכיטקטורה המומלצת לניטור מחירי מודעות במעריב היא מערכת מבוזרת מבוססת אירועים. השתמשו ב-worker ייעודי שרץ על AWS Lambda כל שעה, המשתמש ב-Puppeteer כדי לדמות משתמש ולחלץ את נתוני המודעות המוצגות דינמית. אם מתגלה שינוי במחיר או במבנה המודעה בהשוואה לצילום המצב (snapshot) האחרון השמור ב-S3, ה-worker מפרסם אירוע ל-Amazon SNS. שירות אחר, כמו אפליקציית ניתוח נתונים, יכול להירשם לנושא ה-SNS ולקבל עדכונים מיידיים על כל שינוי.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור