Scraping מכרזים: מדריך טכני לדאטה אמין

אם ניסיתם לעשות scraping למכרזים עם סקריפט פשוט, בטח גיליתם מהר מאוד שזה לא עובד. האתר הזה הוא לא יעד למתחילים. הוא דורש יותר מ-requests ו-BeautifulSoup. מדובר במערכת דינמית שמגיבה לכל בקשה חשודה. בניתי ודיבגתי מערכות דומות במשך שנים, וראיתי איפה רוב הניסיונות נכשלים. במאמר הזה אני לא אחזור על יסודות, אלא אצלול ישר לטקטיקות שעובדות בפועל כדי להוציא נתונים יציבים ומהימנים מאתר כמו michrazim.co.il, בין אם המטרה היא ניטור מחירים או בניית API פרטי.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה Requests ו-BeautifulSoup פשוט לא יספיקו לכם

בואו נניח את זה על השולחן: אם הגישה שלכם ל-scraping מכרזים מתחילה ונגמרת בספריית requests, אתם מבזבזים את הזמן. הדף הראשון שתקבלו יהיה מעטפת HTML כמעט ריקה, עם תג <script> שמטעין את כל התוכן הדינמי. כל הנתונים החשובים – שמות מוצרים/מודעות, מחירים, זמינות – נטענים אסינכרונית אחרי שהדף הראשוני עולה. אין כאן HTML סטטי שאפשר פשוט לנתח.

השלב הבא של רוב המהנדסים הוא לנסות לאתר את קריאות ה-API הפנימיות דרך ה-Developer Tools. זה יכול לעבוד על אתרים פשוטים יותר, אבל ב-מכרזים, כמו באתרים מודרניים אחרים, ה-endpoints האלה מוגנים. הם דורשים טוקנים, headers ספציפיים, או חתימות שנוצרות על ידי JavaScript בצד הלקוח. לנסות להנדס לאחור את הלוגיקה הזו זה פרויקט בפני עצמו, והוא שביר להחריד. כל עדכון קטן בצד השרת ישבור לכם את הכל.

הפתרון היחיד שעובד באופן עקבי הוא שימוש בדפדפן אמיתי, או ליתר דיוק, Headless Browser. תפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית, במיוחד במהירות ובאמינות. הוא מאפשר לכם להריץ דפדפן אמיתי (כמו Chromium) שמרנדר את ה-JavaScript בדיוק כמו משתמש רגיל. רק כך תוכלו לקבל את ה-DOM המלא והמעודכן, שממנו אפשר לחלץ את הנתונים הנחוצים לצורך איסוף קטלוג מכרזים מלא ומדויק.

הארכיטקטורה הנכונה ל-Scraping בקנה מידה גדול

אז החלטנו על Playwright. יופי. אבל להריץ סקריפט בודד על המחשב שלכם זה לא פתרון לניטור רציף. כדי לבצע ניטור מחירים מכרזים באופן יומיומי, צריך ארכיטקטורה יציבה. המערכת שאני מקים לפרויקטים כאלה מבוססת על תור משימות (כמו RabbitMQ או Redis) ועובדים (workers) שמריצים את ה-scrapers.

כל משימה בתור היא URL ספציפי, למשל דף קטגוריה או דף מוצר. ה-worker שולף משימה, פותח instance של Playwright, מנווט ל-URL, מחלץ את הנתונים, ושולח אותם לדאטהבייס. זה מאפשר סקיילביליות אופקית: אם קצב החילוץ איטי מדי, פשוט מוסיפים עוד workers. עבור אתר בסדר גודל של מכרזים, עם אלפי דפים, מערך של 5-10 workers יכול להגיע לקצב של כ-2,000-3,000 דפים בשעה, תלוי במורכבות הדפים ובמדיניות ה-Proxy Rotation.

הנקודה הקריטית כאן היא ניהול הפרוקסי. שימוש באותה כתובת IP יוביל לחסימה תוך דקות. חובה להשתמש במערך של פרוקסי איכותיים. אני ממליץ בחום על איך לבחור פרוקסי residential כדי להבין את ההבדלים והחשיבות של כתובות IP שנראות כמו משתמשים אמיתיים. כל worker צריך לקבל פרוקסי שונה עבור כל מספר בקשות, או אפילו עבור כל בקשה בודדת, כדי למזער את הסיכוי לחסימה. הצלחה של 98% ומעלה היא יעד ריאלי עם ארכיטקטורה כזאת.

תרחיש הכישלון הנפוץ: חסימת CAPTCHA שקטה

הנה תרחיש שראיתי קורה יותר מדי פעמים, במיוחד באתרים כמו מכרזים: ה-scraper רץ, לא מקבל שגיאות 4xx או 5xx, ונראה שהכל תקין. אחוזי ההצלחה במדדים עומדים על 100%. אבל כשמסתכלים על הנתונים שנאספו, מגלים שהם ריקים או חלקיים. מה קרה? נתקלתם בחסימה שקטה.

במקום לחסום את ה-IP שלכם עם שגיאת 403, האתר מזהה אתכם כבוט ומגיש לכם דף עם CAPTCHA. ה-scraper שלכם, שלא מצפה לזה, מנסה לחפש את סלקטורי ה-CSS של המוצרים (.product-title, .price-tag) ולא מוצא אותם. הוא מחזיר רשומה ריקה, והתהליך ממשיך למשימה הבאה. אחרי כמה שעות, יש לכם דאטהבייס מלא בערכי null. זו בעיה חמורה במיוחד עבור מעקב מלאי/זמינות מכרזים, כי נתונים ריקים עלולים להתפרש בטעות כחוסר מלאי, מה שמוביל להחלטות עסקיות שגויות.

הדרך להתמודד עם זה היא הגנה פרואקטיבית. ראשית, השתמשו בפתרונות stealth. מדריך Playwright stealth הוא נקודת התחלה מצוינת. שנית, בנו לוגיקת אימות נתונים בתוך ה-scraper עצמו. אחרי חילוץ הנתונים, בדקו אם שדות חובה כמו מחיר ושם מוצר אכן קיימים. אם לא, שמרו צילום מסך של הדף וזרקו שגיאה ייעודית. כך תוכלו לזהות את הבעיה מיד, לנתח את צילום המסך, ולהבין שאתם מתמודדים עם CAPTCHA, ואז לטפל בזה בהתאם.

ממודיעין מתחרים ועד ליצירת API פרטי

ברגע שיש לכם תהליך scraping יציב לאתר מכרזים, האפשרויות נפתחות. המקרה הברור הוא מודיעין מתחרים מכרזים: מעקב אחרי שינויי מחיר, מבצעים חדשים, ומוצרים שיורדים מהמלאי. איסוף יומיומי של נתונים אלה מאפשר לזהות מגמות בשוק ולהגיב אליהן במהירות. לדוגמה, חילוץ קטגוריות וספירת המוצרים בכל אחת מהן יכולה לחשוף אילו תחומים מתחזקים או נחלשים אצל המתחרה.

אבל אפשר לקחת את זה צעד קדימה. במקום רק לאגור את הנתונים בדאטהבייס פנימי, ניתן לבנות מעליהם שכבת API. זה הופך את הדאטה הגולמי למשאב זמין ושימושי עבור מערכות אחרות בארגון. לדוגמה, מערכת ה-BI יכולה לשלוף נתונים עדכניים על מחירי המתחרים ישירות מה-API שלכם, במקום להתחבר לדאטהבייס. זהו למעשה API / קובץ נתונים מכרזים פרטי, המותאם בדיוק לצרכים שלכם.

הקמת API כזה דורשת תכנון. צריך לחשוב על מבנה הנתונים, אימות גישה, וניהול גרסאות. אבל המאמץ משתלם. הוא הופך פרויקט scraping טקטי לנכס אסטרטגי. במקום לספק קובץ CSV פעם בשבוע, אתם מספקים גישה חיה ומתעדכנת למודיעין שוק קריטי. אחד האתגרים הגדולים הוא שמירה על latency נמוך, במיוחד אם ה-API שלכם מבצע scraping בזמן אמת. לרוב, עדיף לעבוד עם נתונים שנשמרו מראש (cached) ולרענן אותם בתדירות קבועה.

מתי Scraping למכרזים הוא לא הפתרון הנכון

אני מאמין גדול ב-scraping, אבל זה לא פתרון קסם לכל בעיה. יש מצבים שבהם המאמץ הנדרש כדי לתחזק scraper לאתר כמו מכרזים פשוט לא מצדיק את התוצאה. אם אתם צריכים רק נתון בודד פעם בחודש, כנראה שעדיף לעשות את זה ידנית. הקמה ותחזוקה של מערכת יציבה דורשת זמן, ולא רק בפיתוח הראשוני. אתרים משנים את המבנה שלהם, מוסיפים הגנות, ומשנים סלקטורים. היו מוכנים להקדיש 10-20% מזמן הפרויקט לתחזוקה שוטפת.

נקודה נוספת היא תדירות העדכון. אם אתם צריכים נתונים בזמן אמת, עם עיכוב של שניות בודדות, scraping הוא כנראה לא הדרך. ה-latency של בקשת דפדפן מלאה, כולל רינדור ופתרון CAPTCHA פוטנציאלי, יכול להגיע ל-15-30 שניות. זה לא מתאים לאפליקציות real-time. במקרים כאלה, צריך לחפש אם לאתר יש API ציבורי רשמי (לרוב אין, אבל שווה לבדוק) או למצוא מקור נתונים אחר. לפעמים, גם צריך לדעת מתי לוותר. אם האתר מוגן על ידי מערכת הגנה אגרסיבית במיוחד כמו Cloudflare בגרסתו המתקדמת, המאבק עלול להפוך למשחק חתול ועכבר מתמיד. במצב כזה, צריך להעריך בכנות את המשאבים הנדרשים מול התועלת. המדריך לעקיפת Cloudflare יכול לתת מושג על המורכבות.

נקודות מרכזיות

עבור אתר מכרזים, השתמשו ב-Playwright עם stealth; ספריות HTTP פשוטות ייכשלו.
בנו ארכיטקטורה מבוססת תור משימות ו-workers לסקיילביליות.
היזהרו מחסימות CAPTCHA שקטות שגורמות לאיסוף נתונים ריקים.
הפכו את הדאטה הגולמי לנכס על ידי בניית API פנימי מעליו.
Scraping דורש תחזוקה שוטפת; זה לא פתרון 'שגר ושכח'.

שאלות נפוצות

איך לבנות scraper יעיל לניטור מחירים ב-michrazim.co.il בזמן אמת?▾

כדי לבנות scraper יעיל לניטור מחירים בזמן אמת ב-michrazim.co.il, יש להתמקד בשלושה רכיבים עיקריים: ארכיטקטורת event-driven, פרוטוקול תקשורת מהיר ו-parser אופטימלי. במקום להשתמש ב-HTTP polling מסורתי, השתמשו ב-WebSockets אם האתר תומך בכך לקבלת עדכונים מיידיים. אם לא, עברו ל-HTTP/2 עם polling קצר של 5-10 שניות. בצד ה-parsing, השתמשו בספריית lxml בפייתון במקום ב-BeautifulSoup, אשר מהירה יותר ב-30-40% בעיבוד DOM. שילוב זה יבטיח קבלת נתוני מחיר ב-latency מינימלי.

מהי הדרך המומלצת לאסוף את כל קטלוג המוצרים מ-מכרזים לקובץ CSV?▾

הדרך המומלצת לאיסוף קטלוג מלא מ-מכרזים היא באמצעות תהליך זחילה דו-שלבי המפריד בין גילוי קישורים לשליפת נתונים. בשלב הראשון, השתמשו בספריית Scrapy כדי לסרוק את כל דפי הקטגוריות והעמודים ולאסוף רק את כתובות ה-URL של המוצרים. אחסנו אותן בתור (queue) כמו RabbitMQ. בשלב השני, worker נפרד ייקח URL מהתור, יבצע scraping לדף המוצר הספציפי, וישמור את הנתונים המובנים ישירות לקובץ CSV. גישה זו מונעת איבוד נתונים ומאפשרת הרצה מקבילית של 20-30 workers בו זמנית.

כיצד ניתן לעקוף חסימת IP שקטה (silent block) באתר מכרזים בעת איסוף נתונים?▾

כדי לעקוף חסימת IP שקטה ב-מכרזים, יש לזהות אותה תחילה על ידי ניטור קודי סטטוס שאינם 4xx/5xx, כמו קבלת דף ריק עם סטטוס 200. הפתרון היעיל ביותר הוא שימוש ב-residential proxies עם מנגנון החלפה אוטומטי (rotation) לאחר כל 50-100 בקשות. בנוסף, יש לסנכרן את ה-User-Agent שלכם עם ה-headers הספציפיים שדפדפן אמיתי שולח, כמו sec-ch-ua ו-sec-ch-ua-platform, באמצעות כלים כמו Playwright. שילוב זה מקטין את הסיכוי לחסימה שקטה ביותר מ-85%.

איך משתמשים ב-headless browser כדי לעשות scraping לנתונים דינמיים הנטענים ב-JavaScript?▾

כדי לבצע scraping לנתונים דינמיים, השתמשו ב-headless browser כמו Puppeteer או Playwright, המריצים מנוע דפדפן מלא. במקום לשלוח בקשת HTTP פשוטה, יש להורות לדפדפן לנווט לכתובת ה-URL, להמתין לאלמנט ספציפי שנטען על ידי JavaScript (למשל, waitForSelector), ורק אז לשלוף את ה-HTML המעובד. לדוגמה, אם מחיר המוצר נטען ב-AJAX, תצטרכו להמתין ל-selector כמו #product-price לפני שתנסו לחלץ את ערכו. שיטה זו מדמה משתמש אמיתי ומטפלת ב-99% מהאתרים המודרניים.

מהן 4 הטעויות הנפוצות ביותר בבניית scraper למודיעין מתחרים שגורמות לנתונים שגויים?▾

ארבע טעויות נפוצות גורמות לנתונים שגויים ב-scraping למודיעין מתחרים. הראשונה היא אי-טיפול במבני HTML משתנים, מה שמוביל לשדות ריקים. השנייה היא הסתמכות על CSS selectors בלבד במקום על XPath, שהוא גמיש יותר לשינויים קטנים. השלישית היא התעלמות מנתונים המוסתרים מאחורי אינטראקציית משתמש, כמו לחיצה על כפתור "הצג עוד". הרביעית והקריטית ביותר היא אי-ולידציה של הנתונים באמצעות סכמה קבועה, מה שמוביל לערבוב בין מחירים, שמות מוצרים ומספרים קטלוגיים בבסיס הנתונים הסופי.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור