Scraping פתאל: מדריך טכני לדאטה אמין מרשת מלונות

Q: מהם 3 הפרמטרים הקריטיים שיש לשנות ב-headers כדי להימנע מחסימה מיידית ב-scraping?

שלושה headers הם קריטיים כדי להימנע מחסימה מיידית: `User-Agent`, `Accept-Language`, ו-`Referer`. יש להשתמש ב-User-Agent של דפדפן מודרני כמו כרום 125 ולא בברירת המחדל של ספריות כמו requests. הגדרת `Accept-Language` לערך `he-IL,he;q=0.9` מסמנת תעבורה לגיטימית מישראל. לבסוף, הוספת `Referer` עם כתובת URL פנימית מהאתר (למשל, עמוד הבית) בעת ניווט לדפים פנימיים, מפחיתה משמעותית את הסיכוי שהבקשה תסווג כפעילות של בוט.

אם ניסיתם פעם לעשות scraping לפתאל עם ספריית requests ו-BeautifulSoup, בטח נתקלתם בקיר. האתר לא מגיש HTML סטטי. הוא בונה את התוכן בצד הלקוח, מה שאומר שרוב המידע על זמינות ומחירים נטען דינמית. פרויקט scraping פתאל הוא לא תרגיל למתחילים. הוא דורש הבנה של דפדפנים אמיתיים, ניהול state, וארכיטקטורה שיכולה להתמודד עם אתר מודרני. במדריך הזה נדבר טכני. לא על 'מה זה scraping', אלא על מה עובד ומה נכשל כשמנסים לחלץ דאטה אמין מהרשת הגדולה בישראל.

Use Cases · 5

ניטור מחירים

High

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

High

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

High

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

High

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

High

ייצוא CSV/API יומי או שבועי

למה הגישה הקלאסית פשוט לא עובדת כאן

הטעות הראשונה שמהנדסים עושים כשהם ניגשים לאתר כמו פתאל היא לחשוב עליו כעל אוסף של דפי HTML. הם פותחים את ה-DevTools, רואים בקשת רשת ל-API פנימי ומניחים שאפשר פשוט לחקות אותה. הגישה הזו נכשלת תוך שעות, אם לא דקות. הסיבה היא שהאתר בנוי כ-Single Page Application (SPA) שמסתמך בכבדות על JavaScript. התוכן, ובמיוחד נתוני הזמינות והמחירים, לא נמצאים במקור הדף. הם נטענים אסינכרונית לאחר אינטראקציות של המשתמש – בחירת תאריכים, מספר אורחים, סוג חדר.

ניסיון לחקות את קריאות ה-API האלה ישירות הוא משחק חתול ועכבר. טוקנים, cookies, ו-headers מורכבים משתנים כל הזמן. מה שעבד אתמול ב-Postman לא יעבוד מחר בסקריפט. זהו מבוי סתום שרק שורף זמן פיתוח. כדי להשיג איסוף קטלוג פתאל בצורה עקבית, צריך לחשוב כמו דפדפן, לא כמו סקריפט פשוט. אנחנו צריכים כלי שיכול לרנדר JavaScript, לנהל session, ולבצע אינטראקציות אמיתיות. כאן נכנסים כלים כמו Playwright או Puppeteer. הם לא רק מורידים HTML, הם מריצים מנוע דפדפן מלא (Chromium, Firefox) ומאפשרים לנו אוטומציה ברמה שהמשתמש האנושי חווה. זה הבסיס לכל פרויקט scraping רציני על אתרים מודרניים.

Playwright עם Stealth: הסטאק הנכון למשימה

תפסיקו להשתמש ב-Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 כמעט בכל מדד רלוונטי – מהירות, יציבות, ו-API נקי יותר. עבור אתר כמו פתאל, השימוש ב-Headless Browser הוא לא אופציה, הוא חובה. אבל אפילו הפעלת Playwright רגילה לא תמיד מספיקה. מערכות הגנה מזהות בקלות מאפיינים של דפדפן אוטומטי, כמו מאפייני navigator.webdriver.

כאן הפלאגין playwright-extra עם puppeteer-extra-plugin-stealth נכנס לתמונה. הוא מבצע עשרות שינויים קטנים כדי שהדפדפן האוטומטי שלנו ייראה אנושי. זה קריטי כדי לשמור על שיעור הצלחה של מעל 98% לאורך זמן. התהליך נראה כך: מפעילים דפדפן, מנווטים לדף החיפוש, ממלאים תאריכים ומספר אורחים באמצעות לוקטורים יציבים, וממתינים באופן אקטיבי שהרכיב עם התוצאות יטען. לא time.sleep, אלא waitForSelector או waitForResponse שמקשיב לתגובת ה-API הספציפית שמכילה את נתוני החדרים. רק כך אפשר להבטיח שהמידע שאנחנו מחלצים – במיוחד שדות קריטיים כמו זמינות ומחירים – הוא שלם ומדויק. זה דורש יותר מאמץ ראשוני, אבל חוסך שבועות של דיבאגינג בהמשך. אם אתם רוצים שהסקריפט שלכם ירוץ יותר מכמה ימים, קראו את המדריך המלא ל-Playwright stealth כדי להבין את הניואנסים.

תרחישי שימוש קונקרטיים: מניטור מחירים ועד API פרטי

עם תשתית יציבה, אפשר להתחיל לייצר ערך. ניטור מחירים פתאל הוא התרחיש הברור ביותר. הסקריפט יכול לרוץ כל מספר שעות, לבדוק קומבינציות של תאריכים פופולריים במלונות מפתח, ולשמור את התוצאות לדאטהבייס. כך ניתן לזהות מגמות, שינויי מחיר ומבצעים בזמן אמת. מעבר למחירים, מעקב מלאי/זמינות פתאל הוא קריטי. היכולת לדעת מתי חדר מסוג מסוים הופך ללא זמין (או חוזר למלאי) בתאריך מבוקש היא מידע בעל ערך אדיר. זה דורש ריצה על מגוון רחב של תאריכים עתידיים, מה שמעלה את כמות הבקשות באופן משמעותי.

עבור מודיעין מתחרים פתאל, המידע הזה מאפשר ניתוח אסטרטגיות תמחור, זיהוי תקופות שיא ושפל, והבנת היצע החדרים באזורים גיאוגרפיים שונים. לבסוף, כל הדאטה הזה יכול להיאסף ולהיארז לכדי API / קובץ נתונים פתאל פרטי. במקום שהמערכות הפנימיות שלכם יתמודדו עם המורכבות של scraping, הן פשוט צורכות API פנימי נקי ויציב שמחזיר JSON סטנדרטי, או מקבלות ייצוא CSV יומי. זה מפריד את הלוגיקה המורכבת של איסוף המידע מהשימוש בו.

איפה הכל יכול להישבר: מלכודת התמחור המבוסס Session

אחד התרחישים המתסכלים ביותר ב-scraping של אתרי תיירות הוא תמחור דינמי המבוסס על היסטוריית הגלישה של המשתמש. זהו failure mode קלאסי. אתר כמו פתאל עשוי להציג מחיר שונה למשתמש שמגיע ישירות, לעומת משתמש שהגיע דרך מנוע חיפוש, או אפילו לשנות מחירים למשתמש שחוזר לאותו חיפוש בפעם השלישית באותו יום. אם ה-scraper שלכם לא מנהל Sessions בצורה נקייה, אתם תאספו דאטה לא עקבי, או גרוע מזה, דאטה שגוי.

הבעיה מתחילה כשמנסים להריץ בקשות במקביל בלי בידוד מלא. נניח שאתם מריצים 10 workers שחולקים קבוצת פרוקסי. אם Session cookie של worker אחד 'זולג' בטעות ל-worker אחר, פתאום worker שבדק חופשה בתל אביב יקבל תוצאות מוטות שקשורות לחיפוש קודם על אילת. הפתרון הוא בידוד מוחלט. כל ריצה לוגית (למשל, חיפוש אחד עבור תאריכים ומלון ספציפיים) חייבת להתרחש בתוך Browser Context נפרד וחדש, עם פרוקסי ייעודי לאותו session ו-cookies נקיים. זה מעלה את צריכת המשאבים, אבל זה המחיר של דאטה אמין. בלי בידוד כזה, אתם פשוט אוספים רעש. אם אתם נתקלים בחסימות תכופות או מחירים מוזרים, סביר להניח שאתם צריכים לבחון את איך לבחור פרוקסי residential כדי להבטיח שכל בקשה נראית כאילו היא מגיעה ממשתמש ייחודי ונקי.

מעבר לסקריפט בודד: בניית Pipeline דאטה אמין

להריץ את הסקריפט פעם אחת זה קל. להבטיח שהוא ירוץ 24/7 ויספק דאטה נקי זו הנדסה אמיתית. השלב הראשון הוא טיפול בקצבי בקשות. אתר כמו פתאל יכול להתחיל להגביל אתכם עם שגיאות 429 Too Many Requests אם תנסו להריץ מאות בקשות במקביל מאותה כתובת IP. המפתח הוא לא להפציץ, אלא לעבוד חכם. קצב של 30-40 דפים בדקה, מפוזר על פני צי של פרוקסי איכותיים, הוא נקודת פתיחה טובה. זה מאפשר לכסות את כל קטלוג המלונות (כ-200 מלונות ברשת) על פני טווח תאריכים רלוונטי תוך מספר שעות, בלי להפעיל אזעקות.

השלב הבא הוא ניטור ו-retries. בקשות נכשלות. תמיד. רשתות לא יציבות, פרוקסי נופלים, והאתר עצמו יכול להחזיר שגיאות זמניות. כל בקשה שנכשלת צריכה להיכנס לתור ניסיונות חוזרים עם backoff אקספוננציאלי. אם בקשה נכשלת 3 פעמים, היא צריכה להיות מסומנת לבדיקה ידנית. זה קריטי כדי להבין אם מבנה האתר השתנה. ולבסוף, הדאטה הגולמי שחילצתם הוא רק ההתחלה. צריך לבנות תהליך של ניקוי ונירמול. להפוך טקסטים של מחירים למספרים, לתקן קידוד, ולהעביר את הכל למבנה סכמטי אחיד לפני שהוא נכנס לדאטהבייס. בלי צינורות נירמול נתונים חזקים, מהר מאוד תמצאו את עצמכם עם אגם נתונים מזוהם וחסר שימוש.

נקודות מרכזיות

עבור scraping פתאל, השתמשו ב-Playwright עם stealth plugin; ספריות HTTP פשוטות ייכשלו.
כל חיפוש חייב להתבצע ב-Browser Context מבודד ונקי כדי למנוע זליגת session ותמחור מוטה.
האתר דינמי לחלוטין, לכן חובה להמתין לאירועי רשת או רכיבים ספציפיים, לא להסתמך על time.sleep.
תכננו ארכיטקטורה ל-retries וניהול פרוקסי מהיום הראשון; זה לא nice-to-have, זה הכרחי.
במקום לחקות קריאות API פנימיות, בצעו אוטומציה של הדפדפן כדי לדמות אינטראקציית משתמש אמיתית.

שאלות נפוצות

איך מבצעים ניטור מחירים יומי באתר פתאל בלי להפעיל את מנגנוני ההגנה שלהם?▾

כדי לבצע ניטור מחירים יומי יעיל באתר פתאל, יש להתמקד בהפחתת טביעת הרגל הדיגיטלית של הסקרייפר. הפתרון היעיל ביותר הוא שימוש ב-Playwright עם stealth plugin פעיל, אשר מסתיר 95% מהסימנים המעידים על אוטומציה. חשוב לבצע רוטציה בין User-Agents עדכניים ולשנות את רזולוציית המסך הווירטואלי בין ריצות. בנוסף, יש להגביל את קצב הבקשות ללא יותר מ-20 בקשות לדקה מכתובת IP בודדת כדי להימנע מחסימה על בסיס התנהגות חריגה.

מהי הדרך היעילה ביותר לחלץ את כל קטלוג המלונות מ-fattal.co.il לקובץ JSON?▾

הדרך היעילה ביותר לחילוץ קטלוג המלונות המלא מ-fattal.co.il היא באמצעות סריקה דו-שלבית מבוססת Playwright. בשלב הראשון, יש לאסוף את כל כתובות ה-URL של המלונות מעמודי הרישום האזוריים. בשלב השני, יש להריץ תהליכים מקביליים (workers) שיעברו על כל URL ויחלצו את הנתונים הנדרשים, כמו שם המלון, מתקנים וסוגי חדרים. שימוש ב-CSS selectors יציבים כמו [data-testid='hotel-name'] מבטיח שהסקריפט לא יישבר לאחר עדכוני UI קטנים באתר.

כיצד ניתן לעקוב אחר זמינות חדרים בתאריכים ספציפיים באתר פתאל באופן אוטומטי?▾

מעקב אוטומטי אחר זמינות חדרים בפתאל דורש אינטראקציה מורכבת עם רכיבי JavaScript, כמו בוררי תאריכים. הפתרון הוא להשתמש בספריית Playwright כדי לדמות לחיצות משתמש מדויקות על לוח השנה, לבחור את טווח התאריכים הרצוי, ולהמתין לטעינה אסינכרונית של התוצאות באמצעות page.waitForSelector(). ניסיון לחקות את בקשות ה-API ישירות ייכשל ב-90% מהמקרים עקב טוקנים דינמיים והגנות בצד השרת, ולכן סימולציית דפדפן מלאה היא הכרחית.

מהם 3 הפרמטרים הקריטיים שיש לשנות ב-headers כדי להימנע מחסימה מיידית ב-scraping?▾

שלושה headers הם קריטיים כדי להימנע מחסימה מיידית: User-Agent, Accept-Language, ו-Referer. יש להשתמש ב-User-Agent של דפדפן מודרני כמו כרום 125 ולא בברירת המחדל של ספריות כמו requests. הגדרת Accept-Language לערך he-IL,he;q=0.9 מסמנת תעבורה לגיטימית מישראל. לבסוף, הוספת Referer עם כתובת URL פנימית מהאתר (למשל, עמוד הבית) בעת ניווט לדפים פנימיים, מפחיתה משמעותית את הסיכוי שהבקשה תסווג כפעילות של בוט.

איך יוצרים API פרטי מנתוני פתאל אם האתר לא מציע גישה רשמית?▾

יצירת API פרטי מנתוני פתאל מתבצעת על ידי בניית סקרייפר שמריץ שאילתות על האתר בזמן אמת ומחזיר את התוצאות בפורמט JSON. יש להקים שרת ביניים (למשל עם FastAPI או Express.js) שמקבל בקשות API, מתרגם אותן לפעולות Playwright על fattal.co.il, ומחזיר את המידע שחולץ. מומלץ להוסיף שכבת caching (כמו Redis) למשך 60 דקות לפחות כדי למנוע סריקות חוזרות ונשנות עבור אותן שאילתות ולהימנע מעומס יתר.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור