מדריך Scraping ישרוטל למתקדמים: מעבר ל-requests פשוטים

Q: מהי נקודת ה-API המרכזית לקבלת מחירי חדרים בזמן אמת מאתר ישרוטל?

נקודת ה-API המרכזית לקבלת מחירים בישרוטל היא `/v1/search/get-results`, אשר מחזירה אובייקט JSON עם כל המידע הנדרש לניטור מחירים. כדי להשתמש בה, יש צורך לשלוח בקשת POST עם payload המכיל פרמטרים כמו `hotelIds`, `checkIn`, `checkOut`, ו-`composition`. חשוב לשים לב שנדרש גם לשלוח headers ספציפיים, כולל `x-api-key` ו-`Authorization` token, אותם ניתן לחלץ מניתוח תעבורת הרשת של האתר. ללא ה-headers הנכונים, הבקשה תיכשל עם שגיאת 401.

אם אתם חושבים ש-scraping ישרוטל הוא עוד עבודה של שליחת GET request וניתוח HTML עם BeautifulSoup, צפויה לכם הפתעה. אתר ישרוטל הוא אפליקציית צד-לקוח מודרנית וכבדה, והאתגר האמיתי הוא לא לחלץ טקסט סטטי, אלא לדמות מסע משתמש שלם, כולל בחירת תאריכים, הרכב נופשים וניהול סשנים מתמשכים. הנתונים החשובים באמת - זמינות ומחירים - לא קיימים ב-HTML הראשוני. הם נטענים דינמית דרך קריאות API פנימיות, וזה המקום שבו רוב ה-scrapers הפשוטים נכשלים עוד לפני שהתחילו.

Use Cases · 5

ניטור מחירים

High

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

High

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

High

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

High

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

High

ייצוא CSV/API יומי או שבועי

למה Requests ו-BeautifulSoup לא יספיקו לכם כאן

בואו נשים את זה על השולחן: אם ה-stack שלכם לפרויקט הזה הוא requests ו-BeautifulSoup, אתם בדרך לתסכול. אתר ישרוטל, כמו רוב אתרי התיירות המודרניים, הוא למעשה Single Page Application (SPA). המשמעות היא שה-HTML שהשרת שולח בהתחלה הוא מעטפת ריקה כמעט לחלוטין, עם תגי <script> שטוענים את כל הלוגיקה של האפליקציה. התוכן האמיתי, כמו רשימת המלונות, פרטיהם, ובעיקר הזמינות, נשלף מהשרת באופן אסינכרוני באמצעות קריאות XHR/Fetch.

כשתנסו לשלוף את ה-URL של עמוד חיפוש, תקבלו HTML שלא מכיל שום מידע על חדרים או תאריכים. כל האינטראקציה מתרחשת בצד הלקוח. לכן, יש שתי דרכים עיקריות לגשת לבעיה הזו. הראשונה היא שימוש ב-headless browser כמו Playwright או Puppeteer, שיודע להריץ את כל ה-JavaScript, לדמות אינטראקציות משתמש (כמו לחיצה על לוח שנה) ולהמתין לטעינת הנתונים. השנייה, והמועדפת עליי לפרויקטים בסקייל גבוה, היא הנדסה לאחור של ה-API הפנימי שהאתר משתמש בו. גם משימה בסיסית כמו איסוף קטלוג ישרוטל – כלומר, רשימת המלונות והמאפיינים הבסיסיים שלהם – עשויה לדרוש הרצת JavaScript כדי לחשוף את כל הנתונים. נטשתי את Selenium לפני שנים; Playwright מהיר יותר, אמין יותר, וה-API שלו פשוט נקי יותר לעבודה ב-2025.

פיצוח ה-API הפנימי: הגישה היעילה לנתוני זמינות

הגישה היעילה ביותר ל-scraping בסקייל היא תמיד לעקוף את ה-UI ולדבר ישירות עם ה-API הפנימי. פתחו את כלי המפתחים בדפדפן (F12), נווטו ללשונית ה-Network, ובצעו חיפוש זמינות באתר ישרוטל. אתם תראו מיד את קריאות ה-API שאחראיות על שליפת הנתונים. אלו לרוב בקשות POST ל-endpoint כמו /api/search או /api/availability עם גוף JSON המכיל את פרטי החיפוש: תאריכי צ'ק-אין וצ'ק-אאוט, מזהה מלון, ומספר האורחים.

זו הדרך היחידה שמאפשרת מעקב מלאי/זמינות ישרוטל באופן יעיל. דמיינו שאתם צריכים לעקוב אחר זמינות ב-20 מלונות שונים ל-180 הימים הבאים. זה אומר יותר מ-3,600 קומבינציות חיפוש ייחודיות, וזה עוד לפני שדיברנו על הרכבי חדרים שונים. הרצת headless browser לכל אחת מהן היא בזבוז משאבים עצום. קריאת API ישירה יכולה להשיג את אותה תוצאה בשבריר מהזמן ועם צריכת CPU מינימלית. אבל כאן מגיע ה-failure scenario הקלאסי: ה-API כמעט תמיד יהיה מוגן. אתם צפויים להיתקל בטוקנים (CSRF, JWT) שצריך לחלץ מה-HTML או מקריאות קודמות ולצרף כ-headers. ניסיון לפנות ל-API ללא הטוקן הנכון יחזיר שגיאת 401 או 403. ניהול נכון של סשנים וטוקנים הוא מה שמבדיל בין סקריפט שעובד 10 דקות לבין מערכת שעובדת חודשים. אם היקף הבקשות שלכם גבוה, תצטרכו גם איך לבחור פרוקסי residential כדי לפזר את העומס ולהיראות כמו תנועה לגיטימית.

ניהול קצב ו-State: איך לא להיחסם אחרי 100 בקשות

אז פיצחתם את ה-API ואתם מוכנים לשלוח אלפי בקשות. לא כל כך מהר. אתרי תיירות כמו ישרוטל מנטרים מקרוב דפוסי שימוש חריגים. שליחת 20 בקשות בשנייה מאותו IP היא דגל אדום בוהק למערכות ההגנה שלהם. התוצאה תהיה חסימת IP, הצגת CAPTCHA, או במקרה הגרוע, חסימת חשבון אם אתם משתמשים באחד. המפתח הוא סבלנות וחיקוי התנהגות אנושית.

אני מתחיל בדרך כלל עם קצב שמרני של בקשה אחת כל 2-3 שניות פר IP, ורק אז בוחן את הגבולות. בנוסף, חשוב לנהל state. אל תפנו ישירות ל-endpoint של הזמינות. התחילו את הסשן בביקור בעמוד הבית כדי לקבל עוגיות (cookies) חיוניות. שמרו על העוגיות האלה לאורך כל הסשן של אותו "משתמש וירטואלי". המטרה היא לגרום לכל שרשרת בקשות להיראות כמו מסע של משתמש אמיתי. כשאתם מבצעים ניטור מחירים ישרוטל לאורך זמן, אתם לא יכולים להרשות לעצמכם להיחסם. לכן, רוטציית פרוקסי טובה היא חובה, לא מותרות. בנוסף, שלבו לוגיקת retry חכמה. אם קיבלתם שגיאת 429 (Too Many Requests), אל תנסו שוב מיד. המתינו זמן אקספוננציאלי (exponential backoff) לפני הניסיון הבא. זה נושא קריטי, ויש לנו מדריך ייעודי לטיפול בשגיאות 429 ששווה לקרוא.

מתי בכל זאת כדאי להשתמש ב-Headless Browser

אחרי כל מה שאמרתי על יעילות ה-API, יש מצבים שבהם headless browser הוא לא רק אופציה, אלא הכרח. זהו קטע ה-counter-argument שלי. לפעמים, הנדסה לאחור של ה-API פשוט לא מעשית. ייתכן שהלוגיקה לייצור טוקנים או חתימות דיגיטליות (request signing) היא מורכבת מדי, קבורה עמוק בתוך קוד JavaScript שעבר obfuscation, והזמן שייקח לפצח אותה גבוה מהזמן הנדרש לפיתוח scraper מבוסס דפדפן.

תרחיש נוסף הוא כאשר הנתונים שאתם צריכים לא זמינים ב-API מסודר. למשל, חוות דעת של משתמשים, תיאורי מלונות עשירים, או מבנה הדף המדויק כפי שהוא מוצג למשתמש. במקרים אלה, Playwright הוא הבחירה שלי. הוא מאפשר לכם לכתוב קוד שמחכה לאלמנטים ספציפיים שיופיעו, מריץ קטעי JavaScript בעמוד, ומצלם מסך לטובת דיבאגינג. אם אתם הולכים בדרך הזו, אל תפעילו אותו "נקי". השתמשו בספריות stealth כמו puppeteer-extra-plugin-stealth (שניתן להתאים ל-Playwright) כדי להסוות את העובדה שאתם דפדפן אוטומטי. דפדפני headless משאירים עשרות טביעות אצבע (כמו היעדר navigator.webdriver), ומערכות הגנה כמו Cloudflare מזהות אותן בקלות. יש מדריך Playwright stealth מעולה שיכול לחסוך לכם שעות של תסכול.

איסוף והנגשת הנתונים: השלב שאחרי ה-Scraping

הצלחתם לחלץ את הנתונים. יופי. עכשיו מתחילה העבודה האמיתית. המטרה הסופית היא לא טבלה מבולגנת של מחירים, אלא מוצר נתונים שמיש. בין אם זה מודיעין מתחרים ישרוטל או בניית API / קובץ נתונים ישרוטל לשימוש פנימי, הנתונים צריכים להיות נקיים, מובנים ומהימנים. שלב ה-post-processing הוא קריטי.

ראשית, נרמול נתונים. ודאו שכל שמות המלונות אחידים, שתאריכים נשמרים בפורמט ISO 8601, ושהמחירים (אותם אתם מאחסנים כמספרים) נקיים מסמלי מטבע או פסיקים. לדוגמה, איסוף שדה כמו שמות מוצרים/מודעות (במקרה זה, שמות חדרים או חבילות נופש) ידרוש ניקוי של רווחים מיותרים ותווים מיוחדים. שלב שני הוא אחסון. לבניית היסטוריית מחירים, תצטרכו מסד נתונים שיודע להתמודד עם סדרות-זמן (time-series), כמו InfluxDB או פשוט PostgreSQL עם אינדקסים נכונים על עמודת הזמן. לבסוף, חשבו על הנגשה. האם הלקוח הפנימי שלכם צריך דשבורד? ייצוא CSV יומי? נקודת קצה של API? תכנון השלב הזה מראש יחסוך לכם שכתובים רבים בהמשך. הצלחה של 99.5% ב-scraping עדיין משאירה 0.5% שגיאות. אם אתם אוספים מיליון רשומות בחודש, זה 5,000 רשומות שגויות. תכננו מנגנוני ניטור ובקרה שיזהירו אתכם על חריגות או על שינויים במבנה האתר.

נקודות מרכזיות

באתרים כמו ישרוטל, נתחו את ה-API הפנימי במקום להילחם עם headless browser לכל בקשה.
ניהול סשנים, עוגיות וטוקנים הוא קריטי להימנעות מחסימות ב-scraping ארוך טווח.
השתמשו ב-Playwright עם stealth רק כשה-API מורכב מדי לפיצוח או לנתונים שאינם ב-API.
קצב בקשות מבוקר ורוטציית פרוקסי הם חובה, לא המלצה, באתרי תיירות.
הערך האמיתי הוא בנרמול, אחסון והנגשת הנתונים, לא רק באיסוף הגולמי שלהם.

שאלות נפוצות

מהי נקודת ה-API המרכזית לקבלת מחירי חדרים בזמן אמת מאתר ישרוטל?▾

נקודת ה-API המרכזית לקבלת מחירים בישרוטל היא /v1/search/get-results, אשר מחזירה אובייקט JSON עם כל המידע הנדרש לניטור מחירים. כדי להשתמש בה, יש צורך לשלוח בקשת POST עם payload המכיל פרמטרים כמו hotelIds, checkIn, checkOut, ו-composition. חשוב לשים לב שנדרש גם לשלוח headers ספציפיים, כולל x-api-key ו-Authorization token, אותם ניתן לחלץ מניתוח תעבורת הרשת של האתר. ללא ה-headers הנכונים, הבקשה תיכשל עם שגיאת 401.

כיצד ניתן לאסוף את כל קטלוג המלונות של ישרוטל כולל תמונות ומתקנים ביעילות?▾

הדרך היעילה ביותר לאיסוף קטלוג המלונות המלא של ישרוטל היא באמצעות קריאה לנקודת ה-API הפנימית content/hotels/v1/all-hotels, ולא על ידי גירוד דפי ה-HTML. נקודה זו מחזירה מערך JSON מרוכז עם כל 30+ המלונות, כולל מזהים (IDs), שמות, מיקומים, וקישורים לתמונות באיכות גבוהה. שיטה זו חוסכת כ-95% מרוחב הפס וזמן העיבוד בהשוואה לגירוד עמוד-עמוד, ומספקת נתונים מובנים ונקיים ישירות מהמקור, מה שמבטיח דיוק מרבי בקובץ הנתונים הסופי.

איך עוקבים אחר זמינות חדרים ספציפיים בישרוטל בתאריכים מבוקשים באופן אוטומטי?▾

מעקב זמינות חדרים בישרוטל מתבצע על ידי שליחת בקשות מחזוריות ל-API של החיפוש, תוך שינוי פרמטרי התאריכים (checkIn, checkOut) והרכב האורחים. יש לנתח את התגובה ולבדוק אם סוג החדר המבוקש מופיע במערך התוצאות. מומלץ להריץ את הבדיקה כל 15-30 דקות כדי לא להעמיס על השרתים. אם חדר מסוים אינו מופיע, הוא אינו זמין. שימוש ב-webhooks לשליחת התראות כאשר חדר הופך לזמין הוא פרקטיקה יעילה ליישום מוצלח.

מהן 3 הטעויות הנפוצות ביותר שגורמות לחסימה בעת גירוד isrotel.co.il?▾

הטעות הראשונה היא שליחת בקשות בקצב גבוה מדי, מעל 5 בקשות בשנייה מאותה כתובת IP, מה שמפעיל rate limiting. הטעות השנייה היא שימוש ב-User-Agent גנרי של ספריית requests בפייתון במקום לחקות דפדפן אמיתי כמו Chrome 125. הטעות השלישית, והקריטית ביותר, היא אי-רענון של ה-JWT (JSON Web Token) המשמש לאימות. הטוקן פג תוקף לאחר כ-60 דקות, והמשך שימוש בו יוביל לשגיאות 401 וסימון ה-IP כחשוד, מה שמוביל לחסימה מהירה.

איך ניתן לבנות API לא רשמי על בסיס הנתונים של ישרוטל למטרות מודיעין מתחרים?▾

בניית API לא רשמי מתחילה בהנדסה הפוכה של נקודות הקצה הפנימיות של ישרוטל לאיסוף נתוני מחירים, זמינות ותכונות מלונות. לאחר מכן, יש לאחסן את הנתונים שנאספו במסד נתונים כמו PostgreSQL או MongoDB, תוך עדכון תקופתי כל 4-6 שעות. השלב הסופי הוא יצירת שכבת API משלכם (למשל עם FastAPI) שחושפת את הנתונים המעובדים האלה. כך ניתן לספק שירותי מודיעין מתחרים המאפשרים שאילתות מורכבות על בסיס הנתונים שאספתם, ללא צורך לפנות לאתר ישרוטל בכל בקשה.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור