מדריך Scraping אינדקס רשויות למהנדסים מנוסים

אם ניסיתם פעם לעשות scraping לאתר ממשלתי, אתם יודעים שהפשטות שלו מטעה. פרויקט scraping אינדקס רשויות הוא דוגמה קלאסית. על פני השטח, זה נראה כמו עוד אינדקס. אבל מתחת למכסה המנוע מסתתרים אתגרים של חוסר אחידות, תשתית מיושנת ו-edge cases שיפילו כל scraper גנרי. זה לא פרויקט של סופשבוע. זה דורש תכנון ארכיטקטוני, פרסרים גמישים והבנה עמוקה של איך המערכות האלה נכשלות. בואו נפרק את זה.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

האתגר המרכזי: אינדקס של כאוס

הטעות הראשונה היא לחשוב על 'אינדקס רשויות' כיחידה אחת. זה לא. זה שער לכ-250+ רשויות מקומיות, שלכל אחת יש אתר, תבנית עיצוב, ולעיתים קרובות גם תשתית משלה. חלקן רצות על מערכות מודרניות, אחרות נראות כאילו נתקעו ב-2005. המשמעות היא שאין תבנית אחת (template) שאפשר לבנות עבורה scraper. תנסו לחלץ 'שמות מוצרים/מודעות' ותגלו שברשות אחת זה תג <h2>, באחרת זה <span> עם קלאס ספציפי, ובשלישית זה בכלל חלק מטקסט רציף בתוך <div>.

הגישה הנאיבית של כתיבת סלקטור CSS יחיד נכשלת אחרי הרשות השנייה. הפתרון הוא לא לכתוב 250 scrapers שונים, אלא לבנות פרסר (parser) חכם וגמיש. אנחנו מדברים על מערכת שיודעת לנסות מספר סלקטורים לפי סדר עדיפות, לחפש טקסט לפי דפוסים (regex), ולהשתמש ב-fallbacks. למשל, אם selector_A נכשל, נסה את selector_B, ואם גם הוא נכשל, תייג את הדף לבדיקה ידנית. בניית לוגיקה כזו מראש חוסכת שבועות של תחזוקה ותיקונים. המטרה היא להגיע לכיסוי של 95% מהרשויות באופן אוטומטי, ולהתמודד עם ה-5% הנותרים באופן פרטני. זה הבסיס לכל פרויקט איסוף קטלוג אינדקס רשויות שבאמת עובד.

מתי Playwright מנצח ואיפה requests מספיק

הרבה מהנדסים קופצים ישר לכלים הכבדים כמו Playwright או Puppeteer. לפעמים זה הכרחי, אבל בפרויקט כמו אינדקס רשויות, זו יכולה להיות טעות יקרה במשאבים. חלק גדול מהאתרים של הרשויות הם עדיין Server-Side Rendered. הם פשוטים. בקשת GET רגילה עם requests או HTTPX תחזיר את כל ה-HTML שאתם צריכים, ב-latency של 200ms במקום 2-3 שניות של דפדפן מלא.

אז איך מחליטים? המפתח הוא זיהוי דינמי. ה-scraper הראשי צריך לשלוח בקשת GET פשוטה קודם. אחרי קבלת ה-HTML, הוא בודק אם הנתונים המרכזיים קיימים. אם כן, מעולה – ממשיכים עם הפרסר. אם ה-HTML ריק מתוכן ומכיל בעיקר תגי <script>, זה סימן ברור שהדף דורש הרצת JavaScript. רק במקרה הזה, הבקשה נשלחת לתור עבודה נפרד שמטופל על ידי worker-ים של Playwright. הגישה ההיברידית הזו מאפשרת לנו לעבד כ-80% מהדפים במהירות שיא ובעלות משאבים נמוכה, תוך שימוש בדפדפן מלא רק כשחייבים. אם אתם מתמודדים עם דפים כאלה, ודאו שאתם משתמשים בטכניקות הנכונות, כפי שמפורט ב-מדריך Playwright stealth, כדי להימנע מזיהוי.

קצב, פרוקסים וטביעת רגל דיגיטלית

אתרים ממשלתיים אולי לא משתמשים במערכות הגנה מתוחכמות כמו Cloudflare Bot Management, אבל התשתיות שלהם לעיתים ישנות ורגישות לעומס. הפצצה של אתר כזה באלפי בקשות בדקה היא דרך בטוחה לקבל חסימת IP או אפילו להפיל שירות ציבורי. כאן האחריות היא עלינו.

הכלל הוא לעבוד לאט ובצורה מבוזרת. אנחנו מגבילים כל IP בודד ללא יותר מ-15-20 בקשות בדקה. כדי להגיע לסריקה מלאה של אלפי דפים מדי יום, אנחנו משתמשים ב-proxy rotation. אבל לא כל פרוקסי מתאים. פרוקסים של דאטה סנטר (DC) ייחסמו מהר מאוד. הפתרון הוא רשת של פרוקסים ממקורות אמינים. אם אתם לא בטוחים מאיפה להתחיל, כדאי לקרוא איך לבחור פרוקסי residential כדי להבין את ההבדלים. המטרה היא לא להיראות כמו סקריפט אוטומטי, אלא לחקות התנהגות של עשרות משתמשים שונים שגולשים באתר בקצב סביר. זה קריטי במיוחד עבור מעקב מלאי/זמינות אינדקס רשויות, שדורש בדיקות תכופות לאורך היום.

הפיכת הדאטה הגולמי ל-API שמיש

איסוף הנתונים הוא רק חצי מהעבודה. קיבלתם ערב רב של HTML, JSON חלקי וטקסט לא מובנה. השלב הבא, והחשוב לא פחות, הוא ניקוי, נרמול וסטנדרטיזציה. זה השלב שבו פרויקט API / קובץ נתונים אינדקס רשויות הופך ממאגר מידע גולמי למוצר בעל ערך. התהליך, המכונה ETL (Extract, Transform, Load), חייב להיות חזק.

השלב הראשון הוא נרמול שדות. לדוגמה, שדה 'קטגוריה' יכול להופיע כ-'ארנונה ועסקים', 'ארנונה', או 'מיסים לעסקים' ברשויות שונות. צריך למפות את כל הווריאציות האלה לערך סטנדרטי אחד, למשל 'ארנונה'. אותו דבר לגבי תאריכים, כתובות ומספרים. השלב השני הוא העשרה (enrichment). אפשר להוסיף לכל רשות מידע גיאוגרפי (קודי אזור, קואורדינטות) ממקור חיצוני. לבסוף, כל המידע הנקי והמובנה הזה נטען למסד נתונים – PostgreSQL הוא בחירה מצוינת פה – ונחשף דרך API פנימי. רק כשהנתונים עוברים את כל התהליך הזה, אפשר באמת להשתמש בהם לניתוחים, כמו ניטור מחירים אינדקס רשויות (למשל, השוואת תעריפי ארנונה) או לצרכי מודיעין מתחרים בין גופים שונים.

איפה הגישה הזו לא תעבוד (ולמה זה בסדר)

חשוב להיות ריאליים. הגישה שתיארתי לא תשיג 100% כיסוי מהיום הראשון, וזה בסדר גמור. תמיד יהיו את ה-5% הבעייתיים: רשויות עם מערכות סגורות שדורשות הזדהות, אתרים ישנים שמסתמכים על טכנולוגיות כמו аплеты של Java או Flash, או כאלה שמגישים קבצי PDF סרוקים במקום טקסט. הניסיון לבנות פתרון אוטומטי לכל מקרי הקצה האלה הוא בזבוז זמן ומאמץ. התשואה על ההשקעה פשוט לא שם.

במקרים האלה, הפתרון הוא לא טכנולוגי אלא תפעולי. אנחנו מזהים את הדפים הבעייתיים אוטומטית (למשל, לפי כותרת HTTP שמכילה Content-Type: application/pdf או כישלון של כל הפרסרים) ומנתבים אותם לתהליך חצי-ידני. זה לא אומר לוותר, אלא לבחור את הכלים הנכונים למשימה. במקום לנסות לפצח CAPTCHA מורכב, לפעמים יעיל יותר לשלוח את המשימה לממשק פנימי שבו מפעיל אנושי יכול להשלים את החסר. המטרה היא מערכת שעובדת ב-95% מהזמן באופן אוטומטי, ויודעת לבקש עזרה כשהיא נתקלת בקיר. הניסיון להגיע ל-100% אוטומציה הוא מתכון בטוח לתסכול ולפרויקט שלא נגמר.

נקודות מרכזיות

אינדקס רשויות הוא לא אתר אחד, אלא שער למאות מערכות שונות. תכננו פרסר גמיש, לא סלקטור קשיח.
השתמשו בגישה היברידית: בקשות HTTP פשוטות לרוב הדפים, ו-Playwright רק כשחובה להריץ JavaScript.
עבדו בקצב נמוך עם רוטציית פרוקסים איכותית כדי למנוע חסימות ולהימנע מהעמסת תשתיות ציבוריות.
איסוף המידע הוא רק ההתחלה. השקיעו מאמץ בנרמול וניקוי הנתונים כדי להפוך אותם ל-API שמיש.
אל תרדפו אחרי 100% כיסוי אוטומטי. זהו את 5% מהמקרים הבעייתיים וטפלו בהם בתהליך חצי-ידני.

שאלות נפוצות

מהי הדרך היעילה ביותר לבצע איסוף קטלוג מלא מ-אינדקס רשויות?▾

הדרך היעילה ביותר לאיסוף קטלוג מלא מ-אינדקס רשויות היא באמצעות גישה היברידית המשלבת סריקת sitemap.xml וגישוש ישיר. התחילו עם קובץ ה-sitemap כדי לקבל 95% מהקישורים הציבוריים במהירות, אך אל תסתמכו עליו בלבד. לאחר מכן, השלימו את החסר באמצעות סריקה רקורסיבית מבוססת תורים (queue-based crawling) החל מעמוד הבית, כדי לגלות דפים שאינם מקושרים או שנוספו לאחרונה. השתמשו ב-Scrapy עם תמיכה ב-middlewares לניהול תורים ו-deduplication כדי למנוע סריקות כפולות ולמקסם את הכיסוי.

כיצד ניתן למדל את הנתונים הלא-עקביים מ-muni-index.co.il לקובץ נתונים אחיד?▾

כדי למדל נתונים לא-עקביים מ-muni-index.co.il לקובץ אחיד, יש להגדיר סכמה קנונית (canonical schema) אחת ולהשתמש בשכבת טרנספורמציה. ראשית, זהו את 10-15 שדות הליבה המשותפים לרוב הרשויות, כמו שם רשות, כתובת ומספר טלפון. לאחר מכן, כתבו פונקציות נרמול ייעודיות לכל שדה כדי לטפל בווריאציות, למשל, המרת פורמטי תאריך שונים ל-ISO 8601. השתמשו בספריית Pydantic ב-Python לאכיפת הסכמה וולידציה של הנתונים לפני שמירתם כ-Parquet או JSONL.

איך לבנות מערכת ניטור מחירים יעילה על בסיס אינדקס רשויות?▾

מערכת ניטור מחירים יעילה על אינדקס רשויות דורשת תזמון חכם וזיהוי שינויים ברמת ה-HTML. במקום לסרוק את כל האתר מחדש, שמרו hash של תוכן הדף הרלוונטי (למשל, ה-div המכיל את המחיר). הריצו סריקות יומיות מהירות שרק בודקות אם ה-hash השתנה. רק כאשר מזוהה שינוי, בצעו full parse של הדף כדי לחלץ את המחיר המעודכן. ארכיטקטורה זו, המבוססת על תזמון עם Celery Beat, מפחיתה את עומס הרשת והעיבוד ב-80% לפחות.

מהן 3 הטעויות הנפוצות ביותר ב-scraping המיועד למודיעין מתחרים באתר?▾

שלוש הטעויות הנפוצות ביותר ב-scraping למודיעין מתחרים הן התעלמות מנתוני מטא, הזנחת היסטוריה ואי-הצלבת מידע. ראשית, מפתחים רבים מפספסים מידע קריטי בקובצי robots.txt ו-sitemaps שמגלים סדרי עדיפויות של המתחרה. שנית, הם לא שומרים צילומי מצב (snapshots) היסטוריים, מה שמונע זיהוי מגמות לאורך זמן. שלישית, הם מסתמכים רק על מקור המידע היחיד במקום להצליב אותו עם 2-3 מקורות נוספים לאימות, מה שמוביל למסקנות שגויות.

כיצד להתמודד עם שינויים במבנה ה-DOM של muni-index.co.il כדי למנוע שבירת scraper?▾

כדי למנוע שבירת scraper עקב שינויי DOM, השתמשו בסלקטורים גמישים ובמערכת התראות אוטומטית. העדיפו סלקטורים מבוססי תכונות יציבות כמו data-testid או aria-label על פני קלאסים של CSS שמשתנים תדיר. בנוסף, הטמיעו בדיקות יחידה (unit tests) על ה-parser שלכם שמריצות אותו על דוגמת HTML קבועה. שלבו את הבדיקות ב-CI/CD pipeline עם התראה אוטומטית ל-Slack או אימייל ברגע שה-parser מחזיר 0 תוצאות, מה שמאפשר תיקון תוך פחות משעה.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור