Scraping גלובס: המדריך הטכני למתקדמים

אם ניגשתם לפרויקט scraping גלובס עם requests ו-BeautifulSoup, כנראה שאתם כבר מבינים איפה הבעיה. גלובס הוא לא אתר סטטי פשוט. הוא פלטפורמת תוכן דינמית, עשירה ב-JavaScript, שמעמיסה רכיבים בצורה אסינכרונית ומוגנת במנגנונים בסיסיים נגד בוטים. המדריך הזה לא יסביר לכם מה זה CSS Selector. הוא יצלול ישר לארכיטקטורה, לכלים ולטכניקות שבאמת עובדות בקנה מידה גדול על אתר בסגנון הזה, מניסיון של שנים בשוחות.

Use Cases · 5

ניטור מחירים

High

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

High

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

High

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

High

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

High

ייצוא CSV/API יומי או שבועי

למה Requests ו-BeautifulSoup פשוט לא יספיקו לכם

בואו נשים את זה על השולחן: אם ה-stack שלכם לגלובס הוא requests.get() ואז BeautifulSoup(response.text), אתם מביאים סכין לקרב יריות. כמעט כל התוכן המעניין באתר — הכתבות עצמן, נתוני שוק שמתעדכנים, תגובות, ואפילו הניווט האינסופי — נטען דינמית באמצעות JavaScript לאחר טעינת ה-HTML הראשוני. מה ש-requests מקבל זה שלד ריק, לא את התוכן המלא שהמשתמש רואה.

זו הסיבה שכל פרויקט רציני על אתר כמו גלובס מתחיל ונגמר ב-headless browser. ותשכחו מ-Selenium. ב-2025, ברירת המחדל היא Playwright. הוא מהיר יותר, יציב יותר, וה-API שלו פשוט נקי ואינטואיטיבי יותר לטיפול באיוונטים אסינכרוניים. אנחנו צריכים לחכות לרכיבים ספציפיים שיופיעו (למשל, page.wait_for_selector), לגלול כדי להפעיל טעינת תוכן נוסף, ולפעמים אפילו לבצע אינטראקציה עם כפתורים או פילטרים. כל אלה הן פעולות שספרייה פשוטה ברמת ה-HTTP לא מסוגלת לבצע.

המעבר ל-Playwright פותח גם את הדלת לשימוש בטכניקות התחמקות מתקדמות. לדוגמה, ניתן להשתמש ב-מדריך Playwright stealth כדי להסוות את העובדה שאנחנו מריצים דפדפן אוטומטי. זה קריטי, כי מערכות זיהוי הבוטים הפשוטות ביותר יחפשו מאפיינים כמו navigator.webdriver ויחסמו אתכם מיידית. בלי שליטה מלאה על סביבת הדפדפן, אתם תבזבזו 90% מהזמן בדיבוג חסימות במקום בחילוץ נתונים.

ארכיטקטורת ה-Scraper: קצב, מקביליות וניהול State

אחרי שבחרנו כלי, השאלה הבאה היא איך בונים את התהליך סביבו. גלובס מפרסם עשרות, אם לא מאות, כתבות ביום. סריקה מלאה של הארכיון יכולה להגיע בקלות למאות אלפי דפים. הרצה סדרתית של scraper היא פשוט לא אופציה מעשית. המטרה היא להגיע למקסימום מקביליות בלי לעורר את מערכות ההגנה.

המספרים שאנחנו מכוונים אליהם הם סביב 50-100 בקשות לדקה פר כתובת IP. מעבר לזה, הסיכוי לקבל שגיאות 429 (Too Many Requests) או חסימה שקטה עולה דרמטית. כדי לעמוד בקצב הזה ובמקביל לסרוק את כל האתר, אנחנו חייבים להריץ מספר תהליכים במקביל, כשכל אחד מהם מנוהל דרך proxy אחר. ניהול נכון של מאגר פרוקסי הוא לב המערכת. אנחנו צריכים מערכת שיודעת לעשות רוטציה אוטומטית, לזהות פרוקסי שנחסם, להוציא אותו מהמאגר ולהכניס חדש. זה לא מקום לחסוך בו במאמץ פיתוח; מערכת פרוקסי גרועה תהרוס את כל הפרויקט.

בנוסף, חשוב לנהל State. גלובס, כמו אתרים רבים, משתמש ב-cookies כדי לנהל sessions. אם כל בקשה שלכם מגיעה 'נקייה', זה דגל אדום ענק למערכות הניטור. ה-scraper צריך לחקות התנהגות אנושית: לשמור cookies בין בקשות, להשתמש ב-user agents מגוונים, ואפילו להוסיף השהיות אקראיות קצרות (jitter) בין פעולות. כל אלה תורמים לאחוזי הצלחה גבוהים יותר, בסביבות 98-99% במקום ה-70% שתקבלו בגישה נאיבית.

מימוש ה-Use Cases המרכזיים על פלטפורמת חדשות

הרבה חושבים ש-scraping זה רק לאתרי e-commerce, אבל ה-use cases רלוונטיים מאוד גם לאתר חדשות כלכלי כמו גלובס, אם מתאימים אותם להקשר. למשל, מודיעין מתחרים הוא לא על מעקב אחרי מחירים, אלא על ניטור אזכורים של חברות, מותגים או אנשי מפתח. בניית scraper שיודע לזהות את הישויות האלה בתוך טקסט הכתבות ולתייג אותן אוטומטית מספקת ערך עצום.

איסוף קטלוג בגלובס משמעותו מיפוי כל הכתבות, הטורים והמדורים. זה כולל חילוץ שדות קריטיים כמו שמות מוצרים/מודעות (במקרה הזה, כותרות הכתבות), תאריך פרסום, שם הכותב, ותוכן המאמר עצמו. המטרה היא ליצור בסיס נתונים מובנה של כל התוכן באתר. משם, קצרה הדרך ליצירת API / קובץ נתונים פרטי. אפשר לספק למשל ייצוא CSV יומי של כל הכתבות החדשות שפורסמו בתחום מסוים, או API שמאפשר שאילתות על בסיס הנתונים שאספנו.

מה לגבי מעקב מלאי/זמינות? כאן זה לא עניין של מוצר במלאי, אלא מעקב אחרי זמינות של מידע חדש. לדוגמה, אפשר לבנות תהליך שרץ כל 15 דקות ובודק אם התפרסמה כתבה חדשה על מניית טבע, או אם עודכן דף נתוני הבורסה. זהו use case קריטי למי שצריך להגיב במהירות למידע חדש.

ה-Failure Mode הקלאסי: עומס JavaScript וחסימות שקטות

אז בניתם scraper מבוסס Playwright עם רוטציית פרוקסי. איפה זה עדיין יכול להישבר? התרחיש הנפוץ ביותר שראיתי עם אתרים כמו גלובס הוא לא חסימה קשה עם CAPTCHA, אלא 'חסימה שקטה' או דעיכה בביצועים. האתר עמוס בסקריפטים של צד שלישי: פרסומות, אנליטיקס, ווידג'טים. כל אלה מאטים את טעינת העמוד באופן דרמטי ב-headless browser, ולפעמים פשוט נתקעים ומונעים מהתוכן המרכזי להופיע. ה-scraper שלכם יחכה ל-selector שלא יגיע לעולם, ויפול ב-timeout.

הפתרון הוא אגרסיבי: חסימת בקשות מיותרות. ב-Playwright, אפשר להשתמש ב-page.route() כדי ליירט כל בקשה שהדפדפן מוציא. אנחנו יכולים לחסום את כל הבקשות לתמונות, לקבצי CSS, ולדומיינים של פרסום ואנליטיקה (google-analytics.com, doubleclick.net וכו'). זה יכול לקצר את זמן טעינת העמוד מ-15 שניות ל-3 שניות, ולהפוך את ה-scraper ליציב ואמין פי כמה. זה דורש קצת מחקר ראשוני כדי למפות את הדומיינים שניתן לחסום בבטחה, אבל המאמץ הזה מחזיר את עצמו במהירות.

חסימה שקטה אחרת היא קבלת דפים עם תוכן חלקי או שגוי, רק מכתובות IP מסוימות. זו טכניקה מתוחכמת יותר מצד האתר. הפתרון היחיד פה הוא ניטור מתמיד. צריך לבנות בדיקות תקינות (sanity checks) על הדאטה שמחלצים. למשל, לוודא שגוף הכתבה מכיל יותר מ-50 מילים, או שהכותרת לא ריקה. אם אחוז הכישלונות בבדיקות האלה עולה, זה סימן שצריך לבדוק את מאגר ה-IPs. טיפול בשגיאות 429 ודומותיהן הוא חלק בלתי נפרד מהתחזוקה.

מתי לא כדאי לבנות Scraper ייעודי לגלובס

אחרי כל הדיון הטכני, חשוב לשאול: האם אתם באמת צריכים לבנות ולתחזק את כל זה? יש מקרים שבהם המאמץ פשוט לא מצדיק את התוצאה. זהו ה-counter argument. אם הצורך שלכם הוא חד-פעמי, למשל, לחלץ 500 כתבות ספציפיות לצורך מחקר אקדמי, בניית תשתית שלמה עם מקביליות, פרוקסי וניהול שגיאות היא overkill רציני. במקרה כזה, סקריפט פשוט שירוץ לאט במשך כמה שעות כנראה יספיק, גם אם הוא ייכשל כמה פעמים ותצטרכו להריץ אותו מחדש.

תרחיש נוסף הוא כשהדרישות שלכם לטריות המידע נמוכות. אם אתם צריכים עדכון שבועי או חודשי, ולא נתונים בזמן אמת, המורכבות של תחזוקת scraper שרץ 24/7 היא עצומה. מערכות משתנות, סלקטורים נשברים, ומנגנוני הגנה מתעדכנים. התחזוקה השוטפת יכולה להפוך למשרה חלקית. אם אין צורך עסקי קריטי בנתונים עדכניים ברמה יומית, לפעמים עדיף לחפש פתרונות חלופיים או לבצע את איסוף הנתונים באופן ידני למחצה.

הנקודה היא שצריך להתאים את הפתרון הטכני למטרה העסקית. בניית scraper יציב לגלובס היא פרויקט הנדסי לא קטן. אם אתם לא מוכנים להשקיע בתחזוקה שלו, או אם אתם יכולים להשיג את אותה תוצאה במאמץ נמוך משמעותית, כדאי לשקול מחדש לפני שכותבים את שורת הקוד הראשונה. המפתח הוא להבין את ה-trade-off בין מורכבות הפיתוח והתחזוקה לבין הערך המופק מהנתונים.

נקודות מרכזיות

עבור אתר דינמי כמו גלובס, השתמשו ב-Playwright עם stealth, לא ב-requests.
ניהול חכם של מאגר פרוקסי ו-State (cookies) הוא קריטי למניעת חסימות.
חסמו בקשות מיותרות (פרסומות, אנליטיקס) כדי לשפר מהירות ויציבות בצורה דרמטית.
בניית scraper היא השקעה. אם הצורך הוא חד-פעמי או לא דחוף, ייתכן שזה לא הפתרון הנכון.

שאלות נפוצות

איך לבנות API פרטי לנתוני הנדל"ן העסקי מגלובס בזמן אמת?▾

הדרך היעילה ביותר לבנות API פרטי על נתוני נדל"ן מגלובס היא באמצעות scraper מבוסס Playwright שרץ כל 15 דקות ושומר את המידע למסד נתונים כמו PostgreSQL. הפעלת ה-scraper במרווחים קבועים מבטיחה שהנתונים יישארו עדכניים. לאחר מכן, יש לחשוף את הנתונים דרך endpoint פשוט של FastAPI או Express.js, מה שמאפשר גישה מהירה ומובנית למידע העסקי העדכני ביותר, כמו עסקאות חדשות או שינויים במחירי נכסים, בלי צורך לגרד את האתר בכל בקשה מחדש.

מהי הדרך היעילה ביותר לעשות scraping למדורי הכלכלה באתר globes.co.il בלי לקבל timeout?▾

הדרך היעילה ביותר להימנע מ-timeouts ב-scraping של מדורי הכלכלה ב-globes.co.il היא להשתמש ב-headless browser כמו Playwright עם ניהול סשנים חכם, ולא בספריית HTTP פשוטה. חשוב להגדיר timeout של לפחות 30 שניות לבקשה ולהטמיע לוגיקת retry אוטומטית עם 3 ניסיונות חוזרים והמתנה אקספוננציאלית ביניהם. בנוסף, יש לסובב User-Agents ו-IPs מ-pool איכותי כדי למנוע חסימה ברמת הרשת, מה שמפחית את שיעור הכישלונות ביותר מ-70% בסביבות פרודקשן.

כיצד ניתן לאסוף את כל קטלוג כתבות הדעות מגלובס ולזהות את הכותבים הפופולריים ביותר?▾

איסוף קטלוג כתבות הדעות מגלובס דורש scraper שעובר על כל דפי הארכיון של המדור, מזהה את שם הכותב ותאריך הפרסום, ושומר את המידע. לאחר איסוף הנתונים, ניתן להריץ עליהם ניתוח פשוט באמצעות ספריית Pandas ב-Python. על ידי קיבוץ הכתבות לפי שם הכותב וספירת מספר המאמרים לכל אחד ב-6 החודשים האחרונים, ניתן לזהות בקלות את 3-5 הכותבים הפעילים והמשפיעים ביותר במדור, ולייצר תובנות על הלך הרוח באתר.

איך מזהים ומחלצים נתונים מובנים (Structured Data) מכתבות שוק ההון בגלובס?▾

השיטה המדויקת ביותר לחילוץ נתונים מובנים מכתבות שוק ההון בגלובס היא לחפש סקריפטים מסוג application/ld+json ב-HTML של הדף. נתונים אלה, המיועדים למנועי חיפוש, מכילים מידע נקי כמו שם חברה, סימול בורסאי, תאריך פרסום וזהות הכותב. אם אין JSON-LD, השלב הבא הוא לחפש תגי Microdata או RDFa. שימוש ב-selectors ספציפיים לחיפוש מבנים אלו מניב נתונים מדויקים ב-95% מהמקרים, וחוסך את הצורך בניתוח טקסטואלי מורכב.

מהן 3 הטעויות הנפוצות ביותר שגורמות לחסימה ב-scraping של אתר חדשות דינמי?▾

הטעות הנפוצה ביותר הגורמת לחסימה היא שליחת בקשות מהירות מדי מאותו IP, מה שמפעיל מערכות rate-limiting. הטעות השנייה היא שימוש ב-User-Agent קבוע וגנרי, כמו זה של ספריית requests ב-Python, במקום לדמות דפדפן אמיתי עם מחרוזת עדכנית. הטעות השלישית היא התעלמות מ-JavaScript; אתרים מודרניים רבים טוענים תוכן דינמית, ו-scraper שלא מריץ JS יקבל דפים ריקים ויבזבז 90% מהזמן על בקשות חסרות תועלת, מה שמעלה את הסיכוי לזיהוי כבוט.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור