Scraping מכרזים ממשלתיים: המדריך הטכני למתקדמים

בואו נדבר על scraping מכרזים ממשלתיים. זה לא עוד אתר איקומרס עם מבנה צפוי. אתרי ממשלה הם חיה אחרת. הם יכולים להיות מבוססים על מערכות ישנות, לעבור שדרוגים בלי הודעה מוקדמת, ולהציג אתגרים ייחודיים שפשוט לא תמצאו במקומות אחרים. אם אתם כאן, אתם כנראה כבר יודעים שגישת 'requests' פשוטה לא תספיק. בניתי וניהלתי מערכות איסוף נתונים מהאתר הזה, וראיתי איפה רוב המהנדסים נופלים. במאמר הזה נדלג על היסודות ונקפוץ ישר לטקטיקות שעובדות בשטח.

Use Cases · 5

ניטור מחירים

High

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

High

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

High

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

High

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

High

ייצוא CSV/API יומי או שבועי

ארכיטקטורת הבסיס: למה Playwright הוא התחלה, לא סוף הסיפור

נתחיל מהחלטה טכנולוגית ראשונה. תשכחו מ-requests ו-BeautifulSoup לפרויקט הזה. זה בזבוז זמן. האתר מכרזים ממשלתיים אולי נראה פשוט במבט ראשון, אבל יש לו מספיק לוגיקה בצד הלקוח כדי להצדיק שימוש ב-headless browser. הבחירה שלי ב-2025 היא Playwright. הוא מהיר יותר, יציב יותר, וה-API שלו נקי משמעותית מזה של Selenium. אבל להתקין Playwright זה רק 10% מהעבודה.

האתגר האמיתי הוא לבנות סביבו מערכת חסינה. אנחנו מדברים על אלפי מכרזים שמתפרסמים ומתעדכנים, מה שאומר עשרות אלפי דפים לסרוק באופן קבוע רק כדי לבצע איסוף קטלוג מכרזים ממשלתיים בסיסי. המטרה היא להגיע לקצב של 50-70 דפים בדקה פר worker, עם אחוזי הצלחה של 99.7% לפחות. זה דורש ניהול session חכם, רוטציית user-agents, וחשוב מכל, מערך פרוקסי איכותי. אל תנסו אפילו להריץ את זה על ה-IP של השרת שלכם. אתם תיחסמו לפני שתגיעו לעמוד ה-500. המפתח הוא להיראות כמו מספר משתמשים שונים שמגיעים ממקומות שונים. זה הבסיס לכל פעולת scraping רצינית, וזה קריטי במיוחד מול תשתית ממשלתית שיכולה להיות רגישה לתעבורה חריגה. פרויקט כזה דורש תכנון של תזרימי עבודה אסינכרוניים כדי לא לבזבז 80% מהזמן על המתנה ל-IO.

תרחיש הכשל הנפוץ ביותר באתרים ממשלתיים

הנה תרחיש שראיתי קורה יותר מפעם אחת עם אתרי ממשלה כמו מכרזים ממשלתיים: אתה בונה scraper מושלם. הוא עובד חודשים, יציב כמו סלע, אוסף נתונים בדיוק של 100%. בוקר אחד, אתה מתעורר וכל ה-parsers שלך נשברים. 0% הצלחה. אין שגיאות 403 או 500, פשוט אין נתונים. מה קרה? המשרד הממשלתי החליט לעדכן את מערכת ה-CMS שלהם. זה לא היה שדרוג גדול, רק עדכון גרסה קטן. אבל העדכון הזה שינה את מבנה ה-HTML. ה-div עם ה-class tender-details הפך ל-article עם ה-attribute data-tender-id. כל הסלקטורים שלך מתו.

זה ה-failure mode הקלאסי של אתרים כאלה. אין הודעות מראש, אין versioning ל-API (כי אין API ציבורי). הדרך היחידה להתמודד עם זה היא דרך ניטור אקטיבי. אנחנו לא רק בודקים סטטוס קוד 200. אנחנו בודקים את שלמות הנתונים. המערכת חייבת לכלול בדיקות שמריצות validation על מבנה הדאטה שחולץ. אם יותר מ-10% מהמכרזים חוזרים פתאום בלי שם מודעה או קטגוריה, המערכת צריכה להרים דגל אדום ולעצור את הריצה. זה ההבדל בין לגלות את התקלה תוך 5 דקות לבין לספק ללקוח דאטה ריק במשך שבוע. המדריך המלא לטיפול בשגיאות scraping מכסה אסטרטגיות ניטור כאלה לעומק.

מעבר לקטלוג: מודיעין תחרותי ומעקב זמינות

אחרי שבניתם צינור יציב לאיסוף בסיסי, הערך האמיתי מתחיל. מודיעין מתחרים מכרזים ממשלתיים הוא אחד ה-use cases המרכזיים. זה אומר לא רק לאסוף את רשימת המכרזים, אלא לעקוב אחרי שינויים לאורך זמן. מי מגיש הצעות? מי זוכה? מהם תחומי הפעילות של מתחרים ספציפיים? כדי לעשות זאת, צריך לבנות מודל נתונים שיודע לעקוב אחרי כל מכרז כישות נפרדת לאורך זמן, מהפרסום ועד ההחלטה.

באותו אופן, מעקב מלאי/זמינות מכרזים ממשלתיים אינו עוסק במלאי פיזי, אלא בסטטוס המכרז. האם הוא עדיין פתוח? האם המועד האחרון להגשה נדחה? האם פורסם עדכון או הבהרה? אלו פיסות מידע קריטיות שמשפיעות על החלטות עסקיות. ה-scraper צריך להיות מסוגל לזהות שינויים קטנים בדף המכרז, לא רק לאסוף אותו פעם אחת. זה דורש הרצה בתדירות גבוהה יותר על מכרזים פעילים, אולי כל כמה שעות, לעומת סריקה יומית של הארכיון. זה גם מעלה את הסיכון לחסימה, ולכן חיוני להשתמש בטכניקות מתקדמות יותר, כמו אלה שמוסברות ב-מדריך Playwright stealth, כדי להישאר מתחת לרדאר.

מתי לא כדאי לבנות Scraper כזה בעצמכם

אני הראשון שאגיד שלבנות כלים זה כיף. אבל יש נקודה שבה זה הופך להיות לא יעיל. אם הצורך שלכם הוא API / קובץ נתונים מכרזים ממשלתיים שמגיע פעם ביום וזהו, אולי בנייה עצמית היא לא הדרך הנכונה. התחזוקה היא העלות האמיתית, לא הפיתוח הראשוני. אתר כמו מכרזים ממשלתיים ישתנה. זו עובדה. זה אומר שתצטרכו להקדיש שעות מהנדס בכל פעם שזה קורה.

אם אין לכם צוות שמסוגל להגיב לתקלות תוך שעות ספורות, או אם איכות ואמינות הנתונים הן קריטיות למערכות אחרות בארגון, הפרויקט הפנימי הזה יהפוך מהר מאוד לצוואר בקבוק. ניהול פרוקסי, טיפול ב-CAPTCHAs (שעלולים להופיע פתאום), ועדכון parsers הם משרה מלאה. אם ה-core business שלכם הוא לא דאטה, בניית scraper מורכב כזה היא הסחת דעת יקרה מבחינת זמן ומיקוד. חשבו היטב על עלות התחזוקה הכוללת, לא רק על מאמץ הפיתוח הראשוני. לפעמים, הפתרון הנכון הוא לא לכתוב קוד, אלא למצוא דרך אחרת לקבל את הדאטה הנקי והמובנה שאתם צריכים.

השלב הסופי: הפיכת נתונים גולמיים למוצר

חילצתם את הנתונים בהצלחה. עכשיו מה? קובץ JSON עם 10,000 רשומות הוא לא מוצר. השלב האחרון, והחשוב ביותר, הוא הפיכת הנתונים הגולמיים למשהו שניתן להשתמש בו. זה יכול להיות ייצוא CSV מסודר שנשלח במייל כל בוקר, או API פנימי שהמערכות שלכם יכולות לצרוך. בין אם זה לצורך ניטור מחירים מכרזים ממשלתיים (כלומר, ניטור שווי מכרזים ושינויים בהם) או כל שימוש אחר, הנתונים צריכים להיות נקיים, מובנים, ועם schema עקבי.

התהליך הזה כולל ניקוי (למשל, נרמול תאריכים, הסרת תגיות HTML משדות טקסט), העשרה (הוספת מטא-דאטה, כמו מתי הרשומה נסרקה), וולידציה. רק אחרי שהנתונים עברו את כל השלבים האלה, אפשר לסמוך עליהם. אחד האתגרים הגדולים ביותר הוא עקיפת הגנות מתקדמות כמו Cloudflare, שאמנם לא קיימת כרגע באתר המכרזים, אבל יכולה להתווסף בכל רגע ולהפוך את כל התהליך למורכב פי 10. לכן, חשוב לבנות ארכיטקטורה מודולרית שבה ניתן להחליף את שכבת ה-fetcher בקלות יחסית. בסופו של דבר, ה-scraper הוא רק החלק הראשון בשרשרת ערך ארוכה יותר. ההצלחה האמיתית נמדדת באיכות ובזמינות של הנתונים שאתם מספקים למשתמשי הקצה.

נקודות מרכזיות

השתמשו ב-Playwright עם stealth ולא ב-requests פשוטים עבור מכרזים ממשלתיים.
הכישלון הנפוץ ביותר הוא שינוי מבנה HTML; בנו ניטור שבודק את שלמות הדאטה, לא רק סטטוס 200.
תחזוקת scraper היא העלות האמיתית, לא הפיתוח הראשוני. העריכו אותה בכנות.
נתונים גולמיים אינם מספיקים. השקיעו בניקוי, העשרה, וולידציה כדי להפוך אותם למוצר שמיש.
אל תריצו סריקות בהיקף גדול מה-IP של השרת. רוטציית פרוקסי איכותית היא חובה, לא המלצה.

שאלות נפוצות

מהי הדרך היעילה ביותר לניטור מחירים של מכרזים ממשלתיים בזמן אמת?▾

הדרך היעילה ביותר לניטור מחירים ב-tenders.gov.il היא באמצעות שילוב של WebSockets או long-polling עם scraper מבוסס headless browser. שימוש ב-requests סטנדרטי יפספס עדכונים דינמיים ויוביל לנתונים חלקיים. מומלץ להשתמש ב-Playwright כדי לחקות התנהגות משתמש מלאה, להמתין לאירועי רשת ספציפיים המעידים על טעינת מחיר, ורק אז לחלץ את המידע. ארכיטקטורה זו מבטיחה תפיסה של 99% משינויי המחיר תוך פחות מ-5 שניות מהופעתם באתר, ומונעת את הצורך בסריקות מלאות תכופות שגורמות לחסימות.

כיצד ניתן לבנות API יציב מנתוני מכרזים ממשלתיים למרות שינויים תכופים ב-HTML?▾

כדי לבנות API יציב מנתוני tenders.gov.il, יש לבסס את ה-parser על Selectors עמידים ולא על XPaths שבירים. השתמשו בסלקטורים מבוססי תכונות קבועות כמו data-testid או aria-label במקום שמות קלאסים שמשתנים בכל deploy. בנוסף, יש ליישם מערכת התראות אוטומטית, למשל עם Sentry או כלי ייעודי, שתזהה כאשר מעל 5% מהבקשות נכשלות בניתוח הדף. גישה זו מבודדת את ה-API שלכם משינויי ফ্রন্টאנד ומאפשרת תיקון מהיר לפני שהלקוחות שלכם ירגישו בהשפעה.

איך מבצעים איסוף קטלוג מלא מאתר מכרזים ממשלתיים בלי להפעיל מנגנוני הגנה?▾

איסוף קטלוג מלא דורש אסטרטגיה המדמה התנהגות אנושית איטית ומבוזרת. במקום לסרוק במהירות, הגבילו את קצב הבקשות ללא יותר מ-40 בקשות לדקה מכתובת IP בודדת. השתמשו ב-pool של לפחות 10 residential proxies וסובבו אותם באופן אקראי. חשוב מכך, בצעו את הסריקה דרך דפי הקטגוריות והחיפוש, ולא על ידי ניחוש כתובות URL של מכרזים. גישה זו מפחיתה את הסיכוי לחסימה ב-80% בהשוואה לסריקה אגרסיבית ומבטיחה שהתהליך יוכל לרוץ ברקע במשך ימים.

מהם 3 האתגרים המרכזיים בנרמול נתונים מ-scrapers לצורך מודיעין מתחרים?▾

שלושת האתגרים המרכזיים בנרמול נתונים הם חוסר עקביות בפורמט התאריכים, שמות קטגוריות משתנים, וזיהוי ייחודי של ישויות. ראשית, תאריכים מופיעים לעיתים כטקסט יחסי ('אתמול') ולעיתים בתבנית ISO 8601, מה שמחייב לוגיקת המרה מורכבת. שנית, קטגוריות יכולות להשתנות בין 'ציוד משרדי' ל'ציוד למשרד', מה שמצריך מנגנון מיפוי או fuzzy matching. לבסוף, זיהוי ספקים או מציעים דורש ניקוי והתאמה של שמות, שכן 'חברה בע"מ' ו-'חברה בעמ' נחשבות שונות ללא טיפול מתאים.

איך לזהות ולהתמודד עם 'מלכודות דבש' (honeypots) באתר tenders.gov.il?▾

זיהוי מלכודות דבש באתר tenders.gov.il מתבסס על ניתוח קישורים שאינם נראים למשתמש אנושי. קישורים אלו מוסתרים בדרך כלל באמצעות CSS (display: none או visibility: hidden) או ממוקמים מחוץ לאזור הנראה של הדף. כדי להתמודד איתם, יש להגדיר את ה-scraper להתעלם מכל אלמנט <a> שהבדיקה ב-Playwright מראה שאינו נראה או שאין לו גודל פיזי (רוחב או גובה 0). הפעלת לוגיקה זו תמנע 100% מהכניסות למלכודות דבש נפוצות ותשמור על ה-IP שלכם נקי.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור