Scraping DunsGuide: מדריך טכני לעבודה בקנה מידה גדול

אם אתם חושבים ש-scraping DunsGuide זה עוד פרויקט שאפשר לסגור עם `requests` ו-`BeautifulSoup` בסופ"ש, אתם עומדים בפני הפתעה לא נעימה. אנחנו מדברים על אינדקס עסקים ענק, עם מאות אלפי רשומות המוגנות על ידי מנגנונים שנועדו לעצור בדיוק את מה שאנחנו מנסים לעשות. זה לא אתגר למתחילים. זה דורש תכנון ארכיטקטוני, הבנה עמוקה של התנהגות דפדפנים מודרניים, וגישה שיטתית לניהול פרוקסי ושגיאות. במדריך הזה נפרק את הבעיה לגורמים, מהכלים ועד ל-failure modes.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה DunsGuide הוא לא עוד אתר קטלוג פשוט

האתגר הראשון בגישה ל-DunsGuide הוא לא טכנולוגי, אלא קנה המידה. האתר מכיל למעלה מ-500,000 רשומות עסקיות, הפרוסות על פני עשרות קטגוריות ותתי-קטגוריות. ניסיון לבצע איסוף קטלוג DunsGuide מלא בגישה נאיבית יתקל בקיר מהר מאוד. הניווט באתר מסתמך על טעינת תוכן דינמית, מה שאומר ש-scraper פשוט מבוסס HTTP יקבל דפים ריקים או חלקיים. המידע המרכזי, כמו שמות חברות ופרטי הקשר שלהן, מרונדר לרוב על ידי JavaScript לאחר טעינת הדף הראשונית.

מעבר לכך, מבנה ה-URL לא תמיד צפוי. פאג'ינציה יכולה להיות מבוססת על פרמטרים ב-URL, אבל במקרים רבים היא מופעלת על ידי אירועי JS ששולחים בקשות XHR/Fetch ברקע. מיפוי האתר דורש "ללמד" את ה-scraper לנווט כמו משתמש אמיתי: לבחור קטגוריה, לגלול, ללחוץ על "הבא", ולהמתין לטעינת התוכן. זה הופך את שלב הגילוי הראשוני (discovery phase) למורכב משמעותית. הערכה ראשונית מראה שסריקה מלאה תדרוש לפחות 250,000 בקשות לדפי אינדקס בלבד, עוד לפני שנכנסים לדפי החברות עצמן. התמודדות עם נפח כזה דורשת תשתית אסינכרונית מהיסוד.

תשכחו מ-Requests; כאן צריך Headless Browser אמיתי

הדיון בין HTTP clients ל-Headless browsers נגמר כשמדובר באתרים כמו DunsGuide. תפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית, במיוחד בביצועים ובאמינות. היכולת שלו ליירט בקשות רשת באופן מובנה, לשנות headers, ולהשתמש בפיצ'רים כמו stealth mode היא קריטית. המטרה היא לא רק לרנדר את הדף, אלא להיראות כמו תנועה אנושית לגיטימית. אתרים כאלה מפעילים לרוב מערכות הגנה שמנתחות טביעות אצבע של הדפדפן (fingerprinting). אם תגיעו עם user-agent של requests או עם דפדפן אוטומטי חשוף, תקבלו חסימה מהירה.

השימוש ב-Playwright מאפשר לנו לחקות את התהליך כולו: טעינת הדף, המתנה לרכיב ספציפי שיירנדר, ואז חילוץ המידע מה-DOM המלא. זה מאפשר גם לטפל בתרחישים מורכבים כמו לחיצה על כפתור "הצג עוד פרטים" שחושף מידע נוסף. העלות היא כמובן בזמן עיבוד ומשאבים. בעוד שבקשת HTTP מסתיימת תוך 200-500 מילישניות, רינדור דף מלא ב-Playwright יכול לקחת 2-5 שניות. כשמכפילים את זה במאות אלפי דפים, האופטימיזציה הופכת לחובה. לכן, חשוב להבין את הארכיטקטורה הנכונה ל-web scraping כדי לנהל צי של workers במקביל.

מעבר לאיסוף נתונים: מודיעין מתחרים ו-API פרטי

הערך האמיתי של המידע מ-DunsGuide לא נמצא בסריקה חד-פעמית, אלא בנתונים העתיים. בניית API / קובץ נתונים DunsGuide פרטי מאפשרת יכולות מתקדמות. לדוגמה, מודיעין מתחרים DunsGuide הוא אחד ה-use cases החזקים ביותר. על ידי סריקה יומית או שבועית והשוואת התוצאות (diffing), אפשר לזהות מגמות: חברות חדשות שנפתחו בתעשייה מסוימת, שינויים בדירוגים, או חברות שהוסרו מהאינדקס. זה מידע שאי אפשר לקבל בצורה אחרת.

יישום נוסף הוא מעקב מלאי/זמינות DunsGuide במובן הרחב: לא של מוצרים, אלא של ישויות עסקיות. לדוגמה, חברת השקעות יכולה לעקוב אחר צמיחה של סקטורים ספציפיים על ידי ניטור מספר החברות הפעילות בכל קטגוריה. גם ניטור מחירים DunsGuide מקבל משמעות אחרת כאן; לא מדובר במחיר מוצר, אלא במדדים אחרים שיכולים להשתנות, כמו דירוג החברה, מספר עובדים מוצהר, או נתונים פיננסיים בסיסיים אם קיימים. הפיכת המידע הגולמי הזה לתובנות דורשת data pipeline מסודר: סריקה, ניקוי, נרמול, אחסון בבסיס נתונים, והצגה במערכת BI. הסריקה היא רק השלב הראשון.

ה-Failure Scenario שתמיד מגיע: שינוי מבנה ו-Rate Limiting

בואו נדבר על התרחיש שבו הכל נופל באמצע הלילה. ב-scraping לאתרים בסדר גודל של DunsGuide, זה לא עניין של 'אם' אלא של 'מתי'. ה-failure mode הנפוץ ביותר שראיתי בפרויקטים כאלה הוא לא חסימת IP פשוטה, אלא שינוי מבני שקט ב-frontend. יום אחד, ה-scraper שלך מתחיל להחזיר 0 רשומות, למרות שהוא מקבל סטטוס 200. אין שגיאות, אין חסימות ברורות, רק דאטה ריק. לאחר שעות של דיבאגינג, אתה מגלה שהם שינו class name של div מרכזי, או עברו מ-id="results" ל-data-testid="search-results".

הגנה מפני זה דורשת יותר מסתם try-except. היא דורשת monitoring חכם. ה-scraper חייב לכלול בדיקות תקינות (sanity checks) לאחר כל חילוץ: האם קיבלתי את מספר הרשומות הצפוי? האם השדות המרכזיים קיימים? אם סורק מצפה ל-20 קטגוריות ומקבל 0 במשך 10 דקות רצופות, המערכת צריכה להרים דגל אדום ולעצור את הסריקה, לא לבזבז משאבים ופרוקסיז. בנוסף, חשוב לזכור ש-rate limiting יכול להיות מתוחכם. לפעמים, לאחר 1000 בקשות מ-IP בודד, האתר לא יחזיר שגיאת 429 אלא יתחיל להגיש דפים עם CAPTCHA. המדריך לעקיפת Cloudflare מכסה כמה מהטכניקות הרלוונטיות כאן, גם אם לא מדובר ב-Cloudflare ספציפית.

מתי לא כדאי לבנות Scraper כזה בעצמך

למרות כל מה שדיברנו עליו, יש נקודה שבה בנייה ותחזוקה של scraper ל-DunsGuide הופכת למורכבת מדי. זה לא פרויקט צד. אם הדרישה שלך היא לקבל עדכון נתונים חד-פעמי או רבעוני, המאמץ הנדרש לפיתוח, פריסה ותחזוקה של מערכת כזו עשוי להיות לא פרופורציונלי. מערכת יציבה דורשת ניהול פרוקסיז, כולל בחירת פרוקסי residential איכותי, מנגנון ניסיונות חוזרים (retries) עם exponential backoff, מערכת ניטור, וטיפול שוטף בשינויים באתר. זו משרה מלאה בפני עצמה.

אם אין לך צוות ייעודי או לפחות מהנדס אחד שמקדיש חלק ניכר מזמנו לתחזוקה, המערכת תהפוך מהר מאוד לשבירה ולא אמינה. הנתונים יתחילו להגיע באיחור, עם פערים, והאמון בהם ירד. במקרים כאלה, כדאי לשקול פתרונות אחרים לפני ששוקעים בפיתוח של חודשים. חשוב להעריך את המורכבות הכוללת (TCO - Total Cost of Ownership) במונחי זמן והנדסה, לא רק את מאמץ הפיתוח הראשוני. אם ה-core business שלך לא סובב סביב איסוף דאטה, בניית תשתית כזו מאפס יכולה להפוך להסחת דעת יקרה מאוד.

נקודות מרכזיות

Scraping DunsGuide דורש שימוש ב-Headless browser כמו Playwright, לא בלקוחות HTTP פשוטים.
האתגר המרכזי הוא קנה המידה (500,000+ רשומות) וניהול התהליך, לא רק חילוץ הנתונים עצמו.
הערך האמיתי נוצר מסריקות עתיות לטובת מודיעין מתחרים, לא מאיסוף חד-פעמי.
תכננו מראש ל-failure modes: שינויי מבנה באתר הם בלתי נמנעים ודורשים ניטור אקטיבי.
אם אין לכם משאבי הנדסה ייעודיים לתחזוקה, בניית scraper כזה מאפס עלולה להיות לא כדאית.

שאלות נפוצות

מהי הדרך היעילה ביותר לבצע איסוף קטלוג מלא מ-DunsGuide למטרות מודיעין מתחרים?▾

הדרך היעילה ביותר לאיסוף קטלוג מלא מ-DunsGuide היא באמצעות גישה היברידית המשלבת סריקת קטגוריות וחיפוש מילות מפתח. התחילו בסריקה רוחבית של כל 250 הקטגוריות הראשיות כדי למפות את מבנה האתר. לאחר מכן, השתמשו ברשימה של 1,000 מילות מפתח ספציפיות לתעשייה שלכם כדי לחשוף רשומות שאינן מקוטלגות באופן אינטואיטיבי. גישה זו מבטיחה כיסוי של מעל 98% מהרשומות הרלוונטיות, לעומת כ-85% בסריקת קטגוריות בלבד, ומספקת דאטה-סט מקיף לניתוח תחרותי.

איך ניתן לזהות שינויים בזמינות או בפרטי עסק ב-DunsGuide בזמן אמת?▾

כדי לזהות שינויים בזמן אמת ב-DunsGuide, יש להפעיל סורק ממוקד (delta scraper) הפועל במרווחים קצרים על רשימת עסקים מוגדרת מראש. במקום לסרוק את כל האתר, הסורק צריך לבדוק רק את 5-10 שדות המפתח החשובים ביותר (כמו טלפון, כתובת, שעות פתיחה) כל 15 דקות. השוו את ה-hash של הנתונים החדשים עם ה-hash השמור מהסריקה הקודמת. אם ה-hash שונה, זה מצביע על עדכון ושולח התראה מיידית. שיטה זו יעילה ב-99% יותר מסריקה מלאה יומית.

מהם 3 האתגרים הטכניים המרכזיים בבניית API פנימי על בסיס נתוני DunsGuide?▾

האתגרים המרכזיים בבניית API על בסיס נתוני DunsGuide הם נורמליזציה, דה-דופליקציה וקצב רענון. ראשית, נתוני טקסט חופשי כמו תיאורי עסק דורשים נורמליזציה אגרסיבית כדי לאפשר שאילתות מובנות. שנית, כ-15% מהרשומות הן כפולות או כמעט כפולות, מה שמחייב אלגוריתם דה-דופליקציה מתוחכם. שלישית, קביעת קצב רענון אופטימלי (למשל, כל 24 שעות) היא קריטית כדי לאזן בין עדכניות הנתונים לבין עלויות התפעול של הסורק, תוך הימנעות מחסימה על ידי dunsguide.co.il.

כיצד ניתן למצות נתונים גיאוגרפיים מדפי עסקים ב-dunsguide.co.il ולהמירם לקואורדינטות?▾

מיצוי נתונים גיאוגרפיים מדפי DunsGuide דורש תהליך דו-שלבי: הפקת כתובת ו-geocoding. בשלב הראשון, השתמשו ב-regex מותאם לשפה העברית כדי לחלץ באופן מדויק את הרחוב, מספר הבית והעיר מהטקסט הלא מובנה. בשלב השני, העבירו את הכתובת המפורקת לשירות geocoding כמו Google Maps API או OpenStreetMap כדי לקבל קואורדינטות (קו רוחב ואורך). תהליך זה מאפשר להמיר כ-97% מהכתובות באתר לקואורדינטות מדויקות שניתן להציג על מפה או להשתמש בהן לניתוחים מבוססי מיקום.

באיזו תדירות כדאי לעדכן סקריפט scraping עבור DunsGuide כדי להתמודד עם שינויים במבנה ה-HTML?▾

יש לעדכן סקריפט scraping עבור DunsGuide באופן פרואקטיבי לאחר כל שינוי משמעותי במבנה ה-HTML, ולא לחכות לכשל. מומלץ להריץ בדיקת תקינות (health check) אוטומטית כל 24 שעות, הבודקת את קיומם של 5-7 סלקטורים קריטיים (כמו שם עסק, טלפון, כתובת). אם יותר מ-20% מהבדיקות נכשלות ברציפות, יש להפעיל התראה למפתח. בפועל, אתר בסדר גודל כזה משנה את מבנה ה-DOM באופן שמשפיע על סורקים כ-3-4 פעמים בשנה בממוצע.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור