Scraping הנדל״ן הממשלתי: הארכיטקטורה שעובדת ב-2025

בואו נדבר על scraping הנדל״ן הממשלתי. אם ניסיתם לחלץ ממנו נתונים, בטח גיליתם שזה לא עוד אתר פשוט שאפשר לגרד עם `requests` וכמה שורות BeautifulSoup. המבנה שלו, ההגנות, והצורך בנתונים עדכניים הופכים אותו לאתגר מעניין. זה לא פרויקט של סוף שבוע. בניתי מערכות ששואבות ממנו מאות אלפי רשומות בחודש. במאמר הזה אני אפרק את הגישה שעובדת, מהסטאק הטכנולוגי ועד לאסטרטגיית ה-proxy rotation ששומרת על המערכת באוויר עם 99.5% הצלחה.

Use Cases · 5

ניטור מחירים

Very High

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Very High

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Very High

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Very High

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Very High

ייצוא CSV/API יומי או שבועי

למה nadlan.gov.il הוא לא עוד אתר פשוט

נתחיל מהבסיס. אתרי ממשלה הם חיה אחרת. לפעמים הם בנויים על תשתית ישנה, ולפעמים הם משלבים SPA מודרני מבוסס React או Angular על גבי מערכות לגאסי. אתר הנדל״ן הממשלתי נופל איפשהו באמצע. ה-HTML הראשוני שתקבלו כמעט ריק מתוכן. הנתונים האמיתיים, כמו מחירי דירות ושמות מוצרים/מודעות, נטענים דינמית דרך קריאות API פנימיות שמופעלות על ידי JavaScript בדפדפן. ניסיון לגשת ישירות ל-API האלה הוא מסלול מהיר לחסימה. הם מצפים ל-headers ספציפיים, cookies, ואולי אפילו טוקנים שנוצרים on-the-fly.

האתגר השני הוא קנה המידה והמבנה. זה לא קטלוג מוצרים סטנדרטי. אנחנו מדברים על מאגר מידע של עסקאות, מכרזים ונכסים, עם עשרות אלפי רשומות שמתעדכנות באופן לא סדיר. המטרה של איסוף קטלוג הנדל״ן הממשלתי היא לא משימה חד-פעמית, אלא תהליך מתמשך של זיהוי שינויים. בניגוד לאתרי e-commerce, כאן אין מבנה עמודים לינארי וברור. הניווט מורכב, והגעה לכל פיסת מידע דורשת אינטראקציה מרובה עם פילטרים, כפתורים וטעינות אסינכרוניות. כל זה אומר שסקריפר פשוט מבוסס HTTP פשוט לא יראה את התמונה המלאה. הוא יקבל דף ריק וידווח על הצלחה, בזמן שהוא פספס 100% מהדאטה.

הארכיטקטורה הנכונה: למה צריך דפדפן אמיתי

אז אם requests בחוץ, מה כן עובד? התשובה היא חד משמעית: דפדפן אמיתי, אוטומטי. ותפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית, ממהירות ועד יציבות ויכולות network interception. כשאתה עובד מול אתר כמו הנדל״ן הממשלתי, אתה צריך את היכולת לרנדר JavaScript, לטפל באירועים ולחכות לאלמנטים שנטענים אסינכרונית. כל זה מגיע out-of-the-box עם Playwright.

הגישה שלי מתחילה תמיד בבניית תהליך בסיסי שמדמה משתמש אמיתי. הוא מנווט לדף החיפוש, ממלא פילטרים, לוחץ על 'חפש', ומחכה שהתוצאות יופיעו. רק אז מתחיל החילוץ. היתרון הגדול הוא שאתה לא צריך לעשות reverse engineering מורכב ל-API הפנימי. הדפדפן עושה את העבודה הקשה. יתרה מזאת, שימוש בפיצ'רים מתקדמים יותר יכול לחסוך המון זמן. לדוגמה, במקום לחלץ את הנתונים מה-HTML המרונדר, אפשר להשתמש ב-Playwright כדי ליירט את תגובות ה-API. כך מקבלים JSON נקי ויפה ישירות מהמקור, בלי להתעסק עם סלקטורים של CSS שבירים. זה דורש קצת יותר עבודת setup, אבל התחזוקה לאורך זמן פשוטה משמעותית. אם אתם חדשים בתחום, יש מדריך Playwright stealth מצוין שיכניס אתכם לעניינים מהר.

איך מנהלים 50,000 בקשות ביום בלי להישרף

אחרי שיש לנו סקריפר שעובד על דף בודד, מגיע האתגר האמיתי: סקייל. הרצת אלפי בקשות ביום מ-IP בודד היא מתכון לאסון. אתרי ממשלה אולי לא משתמשים במערכות ההגנה הכי אגרסיביות, אבל הם בהחלט מנטרים התנהגות חריגה. הפתרון הוא כמובן proxy rotation. אבל לא כל proxy יעבוד. פרוקסי של דאטה סנטר ייחסם כמעט מיידית. צריך להשתמש ב-residential או mobile proxies כדי להיראות כמו תעבורה לגיטימית.

הכלל שלי הוא לא לעבור את ה-10 בקשות לדקה מאותו IP. זה אולי נשמע איטי, אבל עם מאגר של 200-300 IPs, אפשר להגיע לקצבים גבוהים מאוד במקביל. המטרה של ניטור מחירים הנדל״ן הממשלתי דורשת בדיקות תכופות, ולכן ניהול IP בריא הוא קריטי. אני משתמש במערכת שמנהלת את ה-pool, מזהה IPs ש'נשרפו' (מתחילים לקבל שגיאות 429 או CAPTCHA), ומוציאה אותם מהרוטציה ל-cooldown של כמה שעות. אם אתם רואים אחוזי שגיאה שעולים מעל 5%, זה סימן שהקצב שלכם אגרסיבי מדי או שאיכות ה-IPs ירדה. במקרים כאלה, צריך להבין איך לבחור פרוקסי residential שבאמת מתאים למשימה ולא רק נראה טוב על הנייר.

תרחיש הכשל: כשנתוני המכרזים נעלמים

בואו נדבר על failure mode ספציפי שראיתי קורה עם אתר הנדל״ן הממשלתי. אחד ה-use cases המרכזיים הוא מודיעין מתחרים הנדל״ן הממשלתי דרך ניתוח מכרזים. המערכת רצה יפה במשך חודשים, שואבת נתונים על מכרזים חדשים, סטטוסים ומחירים. יום אחד, מספר המכרזים החדשים צונח לאפס. אין שגיאות, הסקריפר מדווח על ריצה מוצלחת של 100%, אבל הדאטהבייס פשוט לא מתעדכן. מה קרה?

אחרי כמה שעות של דיבאגינג, התברר שהם שינו את ה-payload של בקשת ה-API הפנימית שמביאה את רשימת המכרזים. הם הוסיפו פרמטר חדש, sessionToken, שלא היה שם קודם. הסקריפר שלנו המשיך לשלוח את הבקשה הישנה, והשרת, במקום להחזיר שגיאת 400 (Bad Request), פשוט החזיר מערך ריק [] עם סטטוס 200 (OK). זהו כשל שקט ומסוכן. הוא לא מפעיל התראות כי טכנית, לא הייתה שגיאה. הלקח כאן הוא קריטי: אי אפשר לסמוך רק על status codes. חייבים להוסיף validation לשלב ה-parsing. תמיד לוודא שהדאטה שחולץ תואם לסכמה הצפויה, ושהוא לא ריק באופן חשוד. אם סקריפר שאמור להביא עשרות תוצאות פתאום מחזיר אפס, זו צריכה להיות שגיאה קריטית שמפעילה התראה מיידית. זה ההבדל בין מערכת חובבנית למערכת production-grade.

מתי הגישה הזו היא Overkill

אחרי כל זה, חשוב לשמור על פרופורציה. האם כל פרויקט שקשור ל-nadlan.gov.il דורש Playwright, מאגר residential proxies ו-data validation מורכב? לא. אם כל מה שאתה צריך זה לבדוק פעם ביום סטטוס של שניים-שלושה מכרזים ספציפיים, כל הסטאק הזה הוא בזבוז מאמץ אדיר. במקרה כזה, סקריפט פשוט שירוץ לכם על המחשב פעם ביום כנראה יספיק. סביר להניח שלא תיחסמו על נפח תעבורה כל כך נמוך.

הארכיטקטורה שתיארתי מיועדת לקנה מידה גדול. היא נכנסת לפעולה כשאתם צריכים לבנות API / קובץ נתונים הנדל״ן הממשלתי מקיף ומתעדכן. כלומר, כשאתם צריכים לחלץ אלפי רשומות ביום, לנטר שינויים בזמן אמת, ולהבטיח שהנתונים שלכם מדויקים ואמינים לאורך חודשים ושנים. אם הדרישה היא מעקב מלאי/זמינות הנדל״ן הממשלתי על כל הנכסים הפעילים, אין דרך לעקוף את המורכבות. אבל לפרויקט קטן ונקודתי? אל תבנו F-35 כדי לנסוע למכולת. תתחילו פשוט, ותוסיפו את השכבות הנוספות רק כשהצורך והסקייל ידרשו זאת. לפעמים, הפתרון הפשוט ביותר הוא הנכון, גם אם הוא פחות 'מרשים' טכנולוגית. זה שיקול הנדסי חשוב שלפעמים נשכח.

מהנתונים הגולמיים למוצר דאטה שמיש

חילוץ הנתונים הוא רק חצי מהקרב. השלב הבא, והחשוב לא פחות, הוא להפוך את ה-JSON הגולמי שקיבלתם למשהו שאפשר לעבוד איתו. זה כולל ניקוי, נרמול, והעשרה. לדוגמה, שדות כתובת באתר הנדל״ן הממשלתי יכולים להגיע בפורמטים לא עקביים. תצטרכו לכתוב לוגיקה שמפרקת את הכתובת לרכיבים (עיר, רחוב, מספר) ומנרמלת אותם. שדות תאריך עשויים להגיע כסטרינגים בעברית, ותצטרכו להמיר אותם לפורמט ISO סטנדרטי.

בפרויקטים גדולים, אנחנו בונים צינור עיבוד נתונים (data pipeline) שעושה את כל זה אוטומטית. כל רשומה חדשה שנכנסת עוברת סדרה של שלבי validation ו-transformation לפני שהיא נשמרת בדאטהבייס הסופי. זה המקום שבו גם מטפלים בכפילויות. למשל, אם אותו נכס מופיע שוב בסריקה הבאה, המערכת צריכה לזהות זאת ולעדכן את הרשומה הקיימת במקום ליצור חדשה. השקעה ב-pipeline נקי וחזק חוסכת שבועות של עבודת ניקוי ידנית בהמשך הדרך. אם אתם מתמודדים עם חסימות כמו Cloudflare באתרים אחרים, כדאי לקרוא את המדריך לעקיפת Cloudflare שמכסה אסטרטגיות דומות.

נקודות מרכזיות

עבור אתר הנדל״ן הממשלתי, השתמשו ב-Playwright עם stealth ולא ב-requests פשוטים.
ניהול Proxy Rotation עם IPs מסוג residential הוא חובה לסריקה בקנה מידה גדול.
אל תסמכו על status codes בלבד; הטמיעו data validation כדי לזהות כשלי חילוץ שקטים.
התאימו את מורכבות הפתרון לקנה המידה; לא כל משימה דורשת את התותחים הכבדים.
השקיעו ב-data pipeline חזק לניקוי ונרמול הנתונים. זה לא פחות חשוב מהחילוץ עצמו.

שאלות נפוצות

איך לבנות מערכת ניטור מחירים יעילה לאתר הנדל״ן הממשלתי שתתריע על שינויים תוך פחות מ-5 דקות?▾

בניית מערכת ניטור מחירים מהירה דורשת שילוב של scraping ממוקד ו-webhooks. במקום לסרוק את כל האתר, יש להתמקד ב-API הנסתר שמזין את תוצאות החיפוש, הוא מחזיר JSON ומהיר ב-80% מסריקת HTML. לאחר זיהוי שינוי במחיר או בסטטוס הנכס, המערכת צריכה להפעיל webhook מיידי ל-Slack או Discord במקום לשלוח אימייל. ארכיטקטורה כזו, המבוססת על תשאול ה-API כל 90 שניות ושליחת התראה רק על דלתא, מבטיחה קבלת עדכונים כמעט בזמן אמת ללא עומס מיותר על המערכות שלך.

מהי הדרך היעילה ביותר לאסוף קטלוג נכסים מלא מ-nadlan.gov.il ולהבטיח שהנתונים נקיים ומוכנים לשימוש?▾

הדרך היעילה ביותר לאיסוף קטלוג היא באמצעות סריקה היברידית המשלבת בקשות ישירות ל-API הפנימי של האתר וגיבוי של סריקת HTML עם Playwright. התחל עם ה-API כדי למשוך 95% מהנתונים במהירות. עבור השדות החסרים, הפעל סקריפט Playwright ממוקד שסורק רק את דפי הנכס הספציפיים. לאחר האיסוף, העבר את כל הנתונים דרך סכמת Pydantic או Zod כדי לאכוף טיפוסי נתונים, לנקות ערכים חריגים ולהבטיח מבנה אחיד לפני הכנסתם למסד הנתונים, מה שמונע 80% מבעיות הדאטה בהמשך.

כיצד ניתן לעקוף את מנגנון ה-rate limiting של nadlan.gov.il בלי להשתמש ב-residential proxies יקרים?▾

ניתן לעקוף את רוב מנגנוני ה-rate limiting באמצעות שילוב של 3 טכניקות עיקריות. ראשית, השתמש ב-datacenter proxies איכותיים וסובב אותם בכל 50-100 בקשות. שנית, שלב השהיות אקראיות (jitter) של בין 1.5 ל-4 שניות בין בקשות כדי לחקות התנהגות אנושית. שלישית, והכי חשוב, נהל session cookies ו-User-Agent בצורה עקבית לכל IP כדי שהסשן ייראה לגיטימי. גישה זו יעילה ב-90% מהמקרים וחוסכת את העלויות הגבוהות של רשתות residential proxies.

מהם 3 הכשלים הנפוצים ביותר בפרויקט scraping ארוך טווח של הנדל״ן הממשלתי ואיך להימנע מהם?▾

הכשל הנפוץ ביותר הוא 'שינוי שקט' במבנה ה-HTML או ה-API, אותו מונעים על ידי הרצת בדיקות אינטגרציה יומיות שמוודאות שהסלקטורים עדיין תקינים. הכשל השני הוא חסימת IP מצטברת; הימנע מכך על ידי ניטור שיעור השגיאות (error rate) והחלפת IP אוטומטית כשהוא עובר 5%. הכשל השלישי הוא 'זליגת דאטה' - איבוד מידע בגלל פורמט לא צפוי. פתרון לכך הוא שימוש בסכמה קשיחה (כמו Avro) שמכריחה את הנתונים להתאים למבנה מוגדר מראש או להיכשל באופן רועש.

איך יוצרים API פרטי מעל nadlan.gov.il שמספק נתונים בזמן אמת על זמינות נכסים להשכרה?▾

יצירת API פרטי דורשת ארכיטקטורה מבוססת תור (queue-based). סקריפט סריקה קל משקל (worker) רץ כל 2-3 דקות, בודק שינויים בסטטוס זמינות הנכסים באתר ומפרסם הודעות על שינויים בלבד לתור כמו RabbitMQ או AWS SQS. שירות API נפרד, למשל ב-FastAPI, מאזין לתור ומעדכן מסד נתונים מהיר כמו Redis או PostgreSQL. גישה זו מפרידה בין איסוף הנתונים להגשתם, מבטיחה שה-API שלך יישאר מהיר ויציב, ומסוגל לשרת מאות בקשות בשנייה גם אם האתר הממשלתי איטי.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור