Scraping אגורה: המדריך הטכני המלא למהנדסים

אם ניגשתם לפרויקט scraping אגורה כמו לכל אתר e-commerce סטנדרטי, אתם כנראה כבר נתקלתם בבעיות. אגורה הוא לא עוד קטלוג מוצרים עם SKUs נקיים. זהו שוק דינמי מבוסס תוכן גולשים, עם מבנה נתונים לא אחיד ואתגרים ייחודיים שדורשים גישה שונה. במדריך הזה לא נדבר על היסודות, אלא על האסטרטגיות והכלים שבאמת עובדים בשטח לאיסוף נתונים מהימן וסקיילבילי מהפלטפורמה הזו, מניסיון של שנים בבניית מערכות כאלה.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

האתגר הייחודי של אגורה: זה לא קטלוג, זה שוק חי

הטעות הראשונה היא לחשוב על אגורה כעל חנות. אין פה Product IDs אחידים, אין מבנה קבוע למפרטים, והקטלוג משתנה בקצב מסחרר. כל מודעה היא ישות עצמאית עם פוטנציאל למבנה שונה. כשאתה ניגש למשימת איסוף קטלוג אגורה, אתה למעשה בונה snapshot של שוק דינמי, לא מוריד רשימת מוצרים סטטית. הקטלוג כולל עשרות אלפי מודעות פעילות בכל רגע נתון, הפרוסות על פני מאות קטגוריות ותתי-קטגוריות. הניווט ביניהן הוא לא תמיד לינארי; חלק מהקטגוריות נטענות דינמית, מה שפוסל על הסף שימוש בספריית HTTP פשוטה כמו requests. אתה חייב לחשוב במונחים של הדמיית משתמש. המטרה היא לא רק לחלץ את הנתונים הגלויים כמו שמות מוצרים/מודעות או מחירים, אלא גם להבין את ההקשר שלהם. מודעה ללא תמונה? מודעה עם תיאור של מילה אחת? כל אלה הם חלק מהדאטהסט, והלוגיקה שלך צריכה לדעת להתמודד עם חוסר העקביות הזה. זה אתגר של נירמול נתונים לא פחות מאשר אתגר של חילוץ נתונים.

הכלים הנכונים: למה Playwright הוא חובה כאן

תפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית, במיוחד במהירות ובאמינות. באתר כמו אגורה, שבו חלקים קריטיים של הממשק (כמו פילטרים, מיון או אפילו כפתורי הניווט בין עמודים) נטענים באמצעות JavaScript, שימוש בכלי שיודע לרנדר את הדף במלואו הוא לא המלצה, אלא דרישת חובה. ניסיון לחלץ את הנתונים עם כלי כמו Scrapy בתוספת Splash הוא פשוט מסורבל יותר. תרחיש כשל קלאסי שראיתי קורה שוב ושוב הוא scraper שמצליח לחלץ את 20 המודעות הראשונות בעמוד קטגוריה, אבל נכשל בניווט לעמוד השני. למה? כי כפתור 'הבא' הוא לא קישור <a> פשוט, אלא אלמנט <span> עם event listener שמפעיל קריאת Fetch ברקע ומחליף את התוכן דינמית. ספריית HTTP פשוטה לעולם לא תראה את זה. עם Playwright, אתה פשוט ממתין לסלקטור הנכון ולוחץ עליו, והדפדפן עושה את העבודה בשבילך. כמובן, זה לא פותר אותך מהתמודדות עם הגנות. שימוש נכון ביכולות המובנות הוא קריטי, וכדאי לקרוא את ה-מדריך Playwright stealth כדי להבין איך להימנע מזיהוי כבוט כבר מהבקשה הראשונה.

תכנון הסקייל: מאיסוף ידני ל-API נתונים יומי

אז יש לך סקריפט שעובד על עמוד אחד. יופי. עכשיו איך הופכים את זה למערכת שמספקת API / קובץ נתונים אגורה מעודכן מדי יום? השלב הראשון הוא לעבור למודל אסינכרוני. אם אתה לא משתמש ב-async לאיסוף של אלפי דפים, אתה מבזבז 80% מהזמן על המתנה ל-IO. השלב הבא הוא ניהול קצב הבקשות והזהויות. אל תנסה להפציץ את אגורה עם 50 בקשות במקביל מ-IP בודד. זה מתכון בטוח לחסימת 429. התחל בקצב מתון, נניח 5-10 בקשות בדקה פר IP, ובחן את תגובת השרת. מכאן, המפתח הוא רוטציית פרוקסי חכמה. לא מספיק רק להחליף IP; צריך להחליף את כל ה-session, כולל עוגיות ו-headers, כדי לדמות משתמשים נפרדים. זה המקום שבו רוב הפרויקטים נופלים. בניית מערך פרוקסים אמין דורשת מאמץ משמעותי, וזו אחת הסיבות שחשוב להבין איך לבחור פרוקסי residential שבאמת מתאים למשימה ולא יגרום ליותר נזק מתועלת. המטרה היא להגיע ליציבות של מעל 98% הצלחה בבקשות, אחרת תבלה את רוב זמנך בדיב깅 כשלונות נקודתיים.

יישומים מתקדמים: ניטור שוק ומודיעין מתחרים

ברגע שיש לך צינור נתונים יציב מאגורה, האפשרויות נפתחות. ניטור מחירים אגורה הוא מקרה שימוש ברור, אבל הוא מורכב יותר מבאתר קמעונאות. אתה לא עוקב אחרי מחיר של אייפון 15, אלא אחרי טווח המחירים של 'אייפון 15 במצב טוב' כפי שמשתקף במאות מודעות שונות. זה דורש יכולות ניתוח טקסט ו-NLP בסיסיות כדי לקבץ מודעות דומות. מעבר למחירים, אפשר לבצע ניתוח מודיעין מתחרים אגורה ברמת השוק. לדוגמה, אתה יכול לנתח את קצב עליית המודעות בקטגוריית 'רכבים' מול קטגוריית 'נדל"ן להשכרה' כדי לזהות מגמות עונתיות. אפשר לנתח אילו מותגים מוזכרים הכי הרבה, או מהו אורך החיים הממוצע של מודעה בקטגוריה מסוימת לפני שהיא מוסרת. הנתונים האלה, כשהם נאספים לאורך זמן, יכולים לספק תובנות שוק עמוקות שאי אפשר לקבל בשום דרך אחרת. זה הופך את ה-scraper מכלי לאיסוף מידע לכלי לניתוח שוק אסטרטגי.

מתי לא כדאי לבנות Scraper לאגורה (ומה לעשות במקום)

בנינו פה תמונה של מערכת מורכבת, וחשוב להיות ריאליים. לא כל משימה מצדיקה את המאמץ ההנדסי הזה. אם כל מה שאתה צריך זה לעקוב אחרי מודעה ספציפית או לקבל התראה כשמישהו מפרסם פריט מסוים, בניית scraper מלא היא בזבוז זמן. יש כלים פשוטים יותר, ואפילו הגדרת התראות באתר עצמו יכולה להספיק. הבעיה המרכזית היא תחזוקה. סלקטורים של CSS נשברים. מבנה ה-HTML משתנה בעדכונים קטנים. מה שעבד אתמול, עלול להחזיר null מחר בבוקר. מערכת scraping לאגורה דורשת ניטור והתאמות שוטפות. גם מקרה השימוש של מעקב מלאי/זמינות אגורה הוא טריקי. בגלל שרוב הפריטים הם יחידים במלאי, והם נמכרים ומוסרים במהירות, מעקב 'זמינות' דורש סריקות בתדירות גבוהה מאוד. זה מגביר את הסיכון לחסימה ומייצר עומס. אם אתה לא יכול להתמודד עם טיפול בשגיאות 429 ועם לוגיקת retries חכמה, המערכת שלך תהיה לא יציבה. לפני שאתה כותב שורת קוד אחת, תשאל את עצמך: האם הערך העסקי של הנתונים מצדיק פרויקט הנדסי מתמשך?

נקודות מרכזיות

אגורה דורש דפדפן headless כמו Playwright; בקשות HTTP פשוטות ייכשלו בניווט ואיסוף נתונים.
הנתונים באתר אינם מובנים; תכנן מראש זמן משמעותי לנירמול וניקוי המידע שנאסף.
התחל בקצב בקשות נמוך והשתמש באסטרטגיית פרוקסי חכמה כדי להימנע מחסימות ולשמור על יציבות.
תחזוקת scraper לאגורה היא משימה מתמשכת. סלקטורים ומבנה האתר משתנים ודורשים התאמות.
עבור שימושים פשוטים כמו מעקב אחר פריט בודד, בניית scraper מלא היא פתרון מורכב מדי.

שאלות נפוצות

איך לבנות API פרטי לניטור מחירים באתר אגורה בזמן אמת?▾

כדי לבנות API לניטור מחירים מאגורה, יש להריץ scraper מבוסס Puppeteer או Playwright על שרת כל 5-10 דקות ולשמור את התוצאות במסד נתונים כמו PostgreSQL. ה-API עצמו, שנבנה עם FastAPI או Express.js, יגיש את הנתונים המאוחסנים ולא יבצע scraping ישירות בכל קריאה, מה שמבטיח latency נמוך של פחות מ-50ms. גישה זו מונעת עומס על agora.co.il ומאפשרת ניתוח היסטורי של שינויי מחירים. חשוב לטפל בשינויים במבנה ה-HTML של דפי המודעות, שמתרחשים בממוצע 2-3 פעמים בשנה.

מהי הדרך היעילה ביותר לאיסוף קטלוג שלם מאגורה ללא חסימות IP?▾

הדרך היעילה ביותר לאיסוף קטלוג מלא מאגורה היא באמצעות סריקה מבוזרת עם רוטציית IP דרך שירותי residential proxies. במקום לסרוק ברצף, יש לפזר את הבקשות על פני 24 שעות ולהשתמש בלפחות 200 כתובות IP שונות. מומלץ להשתמש בספריית Crawlee ב-Node.js, אשר מנהלת תורים ובקשות אסינכרוניות ביעילות. גישה זו מאפשרת לאסוף מעל 100,000 מודעות ביום תוך שמירה על שיעור חסימות נמוך מ-1%, בניגוד לסריקה מ-IP בודד שתיחסם כמעט מיידית.

כיצד ניתן לעקוב אחר זמינות ומלאי של מודעות ספציפיות ב-agora.co.il?▾

מעקב זמינות יעיל ב-agora.co.il דורש בדיקה תקופתית של קוד הסטטוס (HTTP status code) של כתובות ה-URL של המודעות. מודעה שהוסרה תחזיר בדרך כלל סטטוס 404. עבור מעקב אחר שינויי טקסט כמו "נמכר" או "לא רלוונטי", יש להריץ scraper קל משקל שבודק רק את האלמנט הספציפי הזה כל 30-60 דקות. שימוש בכלי כמו Cheerio במקום דפדפן מלא (headless browser) למשימה זו חוסך כ-80% ממשאבי המערכת ומאפשר מעקב אחר אלפי מודעות במקביל.

אילו אתגרים ייחודיים קיימים ב-scraping של אתר עם תוכן גולשים כמו אגורה?▾

האתגר המרכזי ב-scraping של אגורה הוא חוסר האחידות בנתונים שנובע מתוכן גולשים. תיאורים לא עקביים, שגיאות כתיב בשמות מוצרים, והיעדר שדות מובנים דורשים שכבת עיבוד (parsing) מורכבת עם לוגיקה מותאמת ושימוש ב-regex נרחב. אתגר נוסף הוא זיהוי מודעות כפולות או הונאות, מה שמחייב ניתוח של תמונות (image hashing) והצלבת מספרי טלפון. כ-15% מהמודעות דורשות לוגיקה מיוחדת כדי לחלץ מהן נתונים בצורה מדויקת.

מהם ה-HTTP headers וה-cookies החשובים ביותר לשכפול בעת שליחת בקשות לאגורה?▾

כדי להימנע מזיהוי כבוט, יש לשכפל במדויק לפחות 4 HTTP headers מרכזיים: User-Agent של דפדפן מודרני, Accept-Language (למשל, 'he-IL,he;q=0.9'), Referer המצביע על דף קטגוריה קודם, ו-Accept-Encoding. בנוסף, חיוני לנהל cookies של סשן (session cookies) ש-agora.co.il מגדיר בביקור הראשון. שליחת בקשות ללא ה-cookies הללו לאחר הבקשה הראשונה היא סימן אזהרה ברור למערכות הגנה, ומעלה את הסיכוי לחסימה ב-90%.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור