Scraping כללית: המדריך הטכני לדאטה במערכות בריאות

אם אתם חושבים שפרויקט scraping כללית הוא כמו כל אתר איקומרס אחר, אתם צפויים לכאב ראש רציני. אנחנו לא מדברים כאן על קטלוג מוצרים פשוט עם מחירים ותמונות. הדאטה באתרים כמו clalit.co.il הוא דינמי, תלוי-הקשר, ומוגן על ידי לוגיקה מורכבת בצד הלקוח. בניית scraper יציב כאן דורשת גישה שונה לחלוטין, שמתחילה מהבנה עמוקה של ה-user flow ולא של ה-HTML.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה כללית שונה מכל אתר אחר שפגשתם

תשכחו מ-crawling לינארי של קטגוריות ומוצרים. מבנה הנתונים בכללית הוא היררכי ותלוי-הקשר. המידע שאתה מחפש — למשל, זמינות תורים לרופא מסוים — לא קיים בדף סטטי. הוא תוצאה של סדרת פעולות של המשתמש: בחירת עיר, התמחות, מרפאה, ורק אז הצגת לוח הזמנים. כל שלב בדרך משנה את ה-state של האפליקציה, ורוב המידע הזה נטען אסינכרונית דרך קריאות API פנימיות שמופעלות על ידי JavaScript.

האתגר הראשון הוא המיפוי. לפני שכותבים שורת קוד אחת, צריך למפות את ה-user journey המלא. איזה פרמטרים נשלחים בכל שלב? מה נשמר ב-localStorage או ב-sessionStorage? איך קריאות ה-API הפנימיות האלה בנויות? ניסיון לגשת ישירות ל-URL של רופא ספציפי כנראה יחזיר דף ריק או שגיאה. לכן, המשימה הראשונה של איסוף קטלוג כללית אינה איסוף דפים, אלא איסוף ופענוח של הלוגיקה העסקית של האתר. אנחנו מדברים על מאות מרפאות ואלפי רופאים, כשהקשרים ביניהם הם המפתח. בלי להבין את הקשרים האלה, כל ניסיון לחלץ שדות כמו זמינות או סניפים ייכשל ב-90% מהמקרים.

ארכיטקטורת ה-Scraper: למה Requests לא יספיק כאן

אם ברירת המחדל שלכם היא ספריית requests פשוטה ב-Python, הגיע הזמן לחשוב מחדש. רוב התוכן המשמעותי באתר כללית לא קיים ב-HTML הראשוני שהשרת מחזיר. הוא נבנה דינמית על ידי React או פריימוורק דומה. שליחת בקשת GET פשוטה תחזיר לכם שלד HTML עם תג <div id="root"></div> ריק ותגי סקריפט. כל המידע שאתם צריכים יתחיל להופיע רק אחרי שהדפדפן יוריד ויריץ מגהבייטים של JavaScript.

כאן נכנס לתמונה דפדפן אמיתי. תפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית — מהירות, יציבות, ויכולות מתקדמות. הוא מאפשר לא רק לרנדר את הדף, אלא גם ליירט ולנתח את אותן קריאות API פנימיות שהזכרתי. במקום לגרד את ה-DOM המורכב והשביר, גישה חכמה יותר היא להשתמש ב-Playwright כדי להפעיל את הלוגיקה של האתר, להקשיב לתעבורת הרשת, ולתפוס את קריאת ה-API שמחזירה את המידע הנקי כ-JSON. זה מקטין את התלות במבנה ה-HTML המשתנה ומגדיל את יציבות ה-scraper פי עשרה. אם אתם רוצים להיות כמעט בלתי נראים, מומלץ לקרוא את ה-מדריך Playwright stealth כדי להבין איך להימנע ממנגנוני זיהוי בסיסיים.

ניהול סשנים ו-State: ה-Failure Scenario הנפוץ ביותר

פה רוב ה-scrapers נופלים. הם מתייחסים לכל בקשה כיחידה עצמאית וסטרילית, בזמן שבכללית, כל בקשה היא חלק משיחה. לדוגמה, כדי לבצע מעקב מלאי/זמינות כללית של תורים לרופא עור בתל אביב, ה-scraper חייב לבצע את אותם צעדים שמשתמש אנושי היה מבצע: לנווט לדף זימון תורים, לבחור 'תל אביב', לבחור 'רפואת עור', ורק אז לחפש רופאים זמינים. כל בחירה כזו מייצרת state שנשמר בקוקיות או באחסון המקומי של הדפדפן. שליחת בקשה ישירה לדף הרופאים בלי ה-state המתאים תחזיר אפס תוצאות.

הפתרון הוא scraper מבוסס-סשן. כל worker בתהליך ה-scraping צריך לשמור על context משלו — קוקיות, localStorage, ו-headers רלוונטיים. זה הופך את התהליך למורכב יותר מניהול מאגר של בקשות אנונימיות. ראיתי מערכות שנבנו ללא ניהול state והגיעו ל-95% שגיאות, כשהצוות לא הבין למה הבקשות שעובדות להם ידנית בדפדפן נכשלות בקוד. אם תתקלו בכמות גדולה של חסימות, זה לא בהכרח ה-IP שלכם. ייתכן שאתם פשוט מנהלים שיחה לא קוהרנטית עם השרת. כדי למנוע חסימות על קצב בקשות גבוה, חשוב להבין איך טיפול בשגיאות 429 יכול להציל לכם את הסשן.

מידע תחרותי ו-API פרטי: מעבר לנתונים הבסיסיים

אחרי שבניתם scraper יציב, אפשר להתחיל לדבר על הערך האמיתי. מודיעין מתחרים כללית בתחום הבריאות הוא לא על מחירים, אלא על זמינות ושירותים. איפה יש זמני המתנה קצרים יותר למומחים? אילו שירותים חדשים נוספו במרפאות שונות? ניתוח מגמות של זמינות תורים יכול לחשוף תובנות אסטרטגיות על ביקוש והיצע אזוריים. לדוגמה, מעקב אחר שינויים בשדה מפרטים של שירותים רפואיים יכול לאותת על השקת טכנולוגיות חדשות או שינויים בפרוטוקולים.

השלב הבא הוא הפיכת הנתונים האלה למוצר. במקום להריץ את ה-scraper לפי דרישה, המטרה היא לבנות תהליך אוטומטי שמייצר API / קובץ נתונים כללית מעודכן באופן יומי או שבועי. זה מאפשר לצוותים אחרים בארגון (אנליסטים, מנהלי מוצר) לצרוך את המידע בלי להבין את המורכבות של ה-scraping. בניית API פנימי על בסיס הנתונים שחולצו הופכת את הפרויקט ממשימה טכנית חד-פעמית לנכס דאטה אסטרטגי. חשוב לבנות את ה-pipeline בצורה שתאפשר גמישות, כי אתרי בריאות משנים את המבנה שלהם לעיתים קרובות, וצריך להיות מסוגלים להתאים את ה-parser במהירות. חשוב גם לנהל את ה-proxy שלכם נכון, במיוחד בפרויקטים ארוכי טווח. אפשר לקרוא עוד על איך לבחור פרוקסי residential כדי להבטיח יציבות לאורך זמן.

מתי לא כדאי לבנות Scraper ייעודי (ומה האלטרנטיבה)

אני הראשון שאומר ש-scraping הוא כלי אדיר, אבל הוא לא תמיד הפתרון הנכון. אם כל מה שאתם צריכים זה רשימה חד-פעמית של מרפאות כללית באזור המרכז, או ייצוא של שמות הרופאים במחלקה מסוימת, בניית scraper אוטומטי, יציב ומתחזק היא בזבוז זמן ומאמץ. המורכבות של ניהול דפדפן, טיפול ב-state, ורוטציית פרוקסי פשוט לא מצדיקה את עצמה עבור משימה כזו.

במקרים אלו, גישה חצי-אוטומטית היא לרוב יעילה יותר. השתמשו בכלים כמו ה-DevTools של הדפדפן כדי לבצע את הפעולות ידנית, לנטר את קריאות ה-API הרלוונטיות, ולהעתיק את ה-JSON ישירות מה-Network tab. אפשר גם לכתוב סקריפט קצרצר ולהריץ אותו בקונסול של הדפדפן כדי לאסוף את הנתונים מהדף הנוכחי. זה לוקח שעה-שעתיים של עבודה ממוקדת, לעומת ימים או שבועות של פיתוח ותחזוקה של scraper מלא. הכלל שלי הוא פשוט: אם לא תריצו את התהליך לפחות פעם בשבוע, כנראה שעדיף לוותר על אוטומציה מלאה. לפעמים, הפתרון הפשוט והישיר הוא גם החכם ביותר.

נקודות מרכזיות

באתר כללית, אל תגרדו HTML. השתמשו ב-Playwright כדי ליירט קריאות API פנימיות שמחזירות JSON נקי.
האתר דורש ניהול state. כל scraper חייב לשמור על סשן קוהרנטי (קוקיות, localStorage) כדי להימנע משגיאות.
עבור משימות חד-פעמיות, ותרו על scraper אוטומטי. גישה חצי-ידנית עם DevTools תהיה מהירה ויעילה יותר.
הפסיקו להשתמש ב-Selenium לפרויקטים חדשים; Playwright מציע ביצועים ויציבות עדיפים משמעותית.
הערך בנתוני בריאות הוא בזמינות ובשירותים, לא רק במחירים. נתחו מגמות בזמני המתנה ושירותים חדשים.

שאלות נפוצות

כיצד ניתן לייצר קובץ נתונים (JSON/CSV) מקיף מכללית אונליין הכולל מידע על רופאים וזמינות תורים?▾

הדרך היעילה ביותר לייצר קובץ נתונים מכללית היא על ידי יירוט קריאות ה-API הפנימיות של האתר, ולא על ידי גירוד HTML. השתמשו בכלי כמו Playwright כדי לטעון את עמודי חיפוש הרופאים, פתחו את ה-Developer Tools, ובחרו בלשונית Network. סננו לפי XHR/Fetch ומצאו את ה-endpoints שמחזירים את המידע כ-JSON. קריאות אלו, לדוגמה ל-/api/v2/doctors/search, יספקו נתונים מובנים ונקיים שניתן לשמור ישירות לקובץ, תוך עקיפת 90% מהמורכבות של עיבוד HTML.

מהי הגישה המומלצת למעקב אחר זמינות תורים ב-clalit.co.il בזמן אמת בלי להיחסם?▾

מעקב זמינות יעיל דורש גישה ממוקדת API וניהול סשנים חכם, לא סריקה אגרסיבית של כל העמוד. התחברו לחשבון משתמש באופן פרוגרמטי באמצעות Playwright כדי לקבל טוקן אימות (JWT). לאחר מכן, השתמשו בטוקן זה כדי לבצע קריאות ישירות ל-API של קביעת התורים, תוך חיקוי הבקשות שהאפליקציה שולחת. גישה זו מפחיתה את טביעת הרגל שלכם ב-80%, דורשת פחות משאבים, ומורידה משמעותית את הסיכוי לחסימה בהשוואה לרינדור מלא של הדפדפן עבור כל בדיקה.

איך מטפלים באימות דו-שלבי (2FA) בעת ביצוע scraping לאזור האישי באתר כללית?▾

הטיפול באימות דו-שלבי בכללית דורש אסטרטגיה היברידית המשלבת אוטומציה והתערבות ידנית ראשונית. השתמשו ב-Playwright כדי לשמור את קובצי ה-cookies וה-session storage של הדפדפן לאחר התחברות ידנית ראשונה מוצלחת. הגדירו את ה-scraper לטעון את ה-state השמור הזה בכל ריצה עתידית. זה מאפשר לעקוף את הצורך ב-2FA בכל פעם, כל עוד הסשן נשאר בתוקף. לרוב, סשנים אלו תקפים ל-24 שעות או יותר, מה שמאפשר איסוף נתונים רציף.

מהן 3 הטעויות הנפוצות ביותר שגורמות לחסימה מיידית בעת scraping של אתר מבוסס JavaScript כמו כללית?▾

הטעות הראשונה היא שימוש בספריית HTTP סטנדרטית כמו Requests, שאינה מריצה JavaScript ולכן נחשפת מיד. השנייה היא שליחת בקשות מהירות מדי, בקצב של מעל 2 בקשות לשנייה מאותה כתובת IP, מה שמפעיל מנגנוני rate limiting. הטעות השלישית היא הזנחת ה-User-Agent ו-headers אחרים; שליחת בקשות ללא headers תואמי דפדפן מודרני היא דגל אדום ברור למערכות הגנה. הימנעות משלוש אלו פותרת כ-70% מהחסימות.

כיצד ניתן להבדיל בין סוגי שירותים שונים (לדוגמה, רפואת משפחה מול רפואת ילדים) בעת איסוף קטלוג נותני השירות מכללית?▾

ההבחנה מתבצעת על ידי ניתוח פרמטרים בקריאות ה-API ולא על ידי ניתוח טקסטואלי של ה-HTML. בעת סינון באתר, שימו לב ל-query parameters שנשלחים בבקשת ה-API לחיפוש, למשל serviceId=17 או expertise=pedia. יש למפות את המזהים המספריים הללו לסוגי השירות המתאימים על ידי בחינה של 5-10 בקשות שונות. לאחר המיפוי, תוכלו לבצע קריאות ממוקדות לכל סוג שירות בנפרד ולקבל נתונים מסווגים ומדויקים ישירות ממקור המידע.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור