Scraping ארקיע: המדריך הטכני למתקדמים

אם ניגשתם לפרויקט scraping ארקיע עם ספריית requests וציפיתם לתוצאות, כנראה שנתקלתם בקיר. האתר של ארקיע הוא SPA מודרני, מה שאומר שהתוכן שמעניין אתכם – לוחות זמנים, זמינות ומחירים – נטען דינמית דרך קריאות API פנימיות. זה משחק אחר לגמרי. זה לא פרויקט למתחילים, אבל עם הכלים והגישה הנכונים, אפשר לבנות מערכת יציבה שמספקת נתונים אמינים בקנה מידה גדול. במדריך הזה נפרק את האתגרים הספציפיים לאתרים כמו ארקיע ואיך פותרים אותם.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

הארכיטקטורה הנכונה: למה Playwright הוא הבחירה היחידה כאן

בואו נניח את זה על השולחן: אם אתם מתחילים פרויקט חדש על אתר כמו ארקיע ב-2025 ועדיין משתמשים ב-Selenium, אתם עושים לעצמכם חיים קשים. Playwright הוא לא רק "עוד כלי", הוא שינוי פרדיגמה. הסיבה המרכזית היא שהאתר של ארקיע הוא SPA מבוסס JavaScript כבד. התוכן לא קיים ב-HTML הראשוני. הוא מגיע דרך עשרות קריאות XHR שמתרחשות לאחר שהדף נטען. בניסיון לחקות את הקריאות האלה ישירות תמצאו את עצמכם מתחזקים לוגיקה שבירה שתצטרכו לעדכן כל שבוע. זה בזבוז זמן.

Playwright, לעומת זאת, מריץ דפדפן אמיתי (Chromium, Firefox, WebKit) ושולט בו. זה אומר שאתם מקבלים את כל מנוע הרינדור וה-JavaScript "בחינם". הוא יריץ את הקוד של האתר בדיוק כמו משתמש רגיל. היתרון המשמעותי הוא היכולת ליירט ולנתח את תעבורת הרשת. במקום לגרד HTML, אנחנו יכולים להאזין לתגובות ה-JSON מה-API הפנימי של ארקיע. זה נקי יותר, מהיר יותר, והרבה פחות שביר. לדוגמה, במקום לחפש div עם קלאס מסוים שמכיל מחיר, אנחנו פשוט תופסים את ה-JSON response של /api/flights/search ומקבלים את כל המידע מובנה ומוכן. זה מקצר את זמן הפיתוח לפחות ב-50% ומפחית את עלויות התחזוקה באופן דרמטי. אם אתם צריכים גם לעקוף הגנות בסיסיות, מדריך Playwright stealth יכול לתת לכם את ה-20% הנוספים שצריך כדי להיראות אנושיים יותר.

איסוף קטלוג וניטור מחירים בארקיע: אתגר הסשנים והפרמטרים

אחד השימושים המרכזיים ב-scraping לאתר תעופה הוא ניטור מחירים ארקיע בזמן אמת. המשימה נשמעת פשוטה: מכניסים מוצא, יעד ותאריכים, ואוספים את התוצאות. אבל השטן נמצא בפרטים. המערכת של ארקיע, כמו רוב מערכות התעופה, מבוססת סשנים (sessions). החיפוש הראשון שלכם יוצר סשן בצד השרת עם מזהה ייחודי. כל בקשה נוספת, כמו סינון או מעבר לעמוד הבא, חייבת לכלול את אותו מזהה סשן, אחרת תקבלו שגיאה או פשוט דף ריק. זהו failure mode קלאסי שראיתי מהנדסים נופלים בו שוב ושוב.

הפתרון הוא לנהל state לכל worker. כל תהליך שמבצע סריקה חייב להתחיל מאפס: לנווט לדף הבית, לבצע חיפוש ראשוני, לחלץ את טוקן הסשן (מ-cookie או מ-header), ורק אז להמשיך לבצע את סדרת הבקשות הנדרשת. אי אפשר פשוט לקפוץ ישירות ל-URL של דף התוצאות. כשמבצעים איסוף קטלוג ארקיע מלא, שכולל מאות צירופי תאריכים ויעדים, זה אומר לנהל מאות סשנים במקביל. אנחנו מדברים על תהליך שיכול לרוץ על פני 50,000 "דפים" וירטואליים ביום. אם לא תנהלו סשנים נכון, 90% מהבקשות שלכם ייכשלו בשקט, ותקבלו דאטה חלקי ולא שמיש. הגישה הזו קריטית גם למעקב אחר זמינות, שכן המלאי משתנה בתוך אותו סשן חיפוש.

כיצד להתמודד עם Rate Limiting וחסימות IP

ברגע שתתחילו להריץ את ה-scraper שלכם בקצב משמעותי, נאמר, מעל 200-300 בקשות בדקה, תתקלו בהגנות. זה בלתי נמנע. המערכות של ארקיע יזהו את הפעילות החריגה ויגיבו, בדרך כלל עם שגיאות 429 (Too Many Requests) או CAPTCHA. בשלב הזה, IP בודד מהמשרד או מ-AWS כבר לא מספיק.

הפתרון הוא proxy rotation. אבל לא כל פרוקסי יעבוד. פרוקסים של דאטה סנטר הם זולים ומהירים, אבל קל מאוד לזהות ולחסום אותם. עבור אתר כמו ארקיע, הבחירה הנכונה היא רשת של residential proxies. אלה כתובות IP של משתמשים אמיתיים, מה שהופך את הבקשות שלכם לכמעט בלתי ניתנות להבחנה מתעבורה לגיטימית. המפתח הוא לבצע רוטציה חכמה: לא להחליף IP על כל בקשה, כי זה חשוד. גישה טובה יותר היא להשתמש ב-sticky sessions, כלומר להצמיד IP מסוים לסשן חיפוש שלם (למשל, 5-10 דקות) ורק אז להחליף. זה מדמה התנהגות אנושית. המטרה היא להגיע לקצב הצלחה של 98% ומעלה. אם אתם רואים יותר מ-2% שגיאות 4xx/5xx, משהו במנגנון הפרוקסי שלכם לא עובד נכון. למידע נוסף על בחירת הספק והתצורה הנכונה, קראו את המדריך על איך לבחור פרוקסי residential.

ממודיעין מתחרים ועד בניית API פרטי

מעבר לאיסוף נתונים גולמיים, הערך האמיתי מגיע מהעיבוד וההנגשה שלהם. עבור מודיעין מתחרים ארקיע, לא מספיק לאסוף את המחירים פעם ביום. צריך לעקוב אחר שינויי מחיר לאורך זמן, לזהות מבצעים חדשים תוך דקות מרגע עלייתם לאוויר, ולנטר שינויים בלוחות הזמנים. זה דורש scraper שרץ בתדירות גבוהה, אולי כל 30 דקות עבור קווים מרכזיים, ומערכת שיודעת להשוות בין סריקות ולזהות דלתאות.

השלב הבא הוא הפיכת הנתונים המובנים האלה למוצר. במקום לייצא קבצי CSV ענקיים, לקוחות רבים מעדיפים לקבל API / קובץ נתונים ארקיע שהם יכולים לצרוך ישירות. זה אומר לבנות שכבת API מעל בסיס הנתונים שאספתם. לדוגמה, נקודת קצה כמו GET /api/v1/flights?from=TLV&to=ETH&date=YYYY-MM-DD שמחזירה JSON נקי עם כל הטיסות הזמינות לאותו יום. זה הופך את ה-scraper שלכם מפעולת איסוף חד פעמית לנכס דאטה מתמשך. פרויקט כזה יכול לייצר מאות מגה-בייטים של נתונים מובנים מדי יום, וחשוב לתכנן את ארכיטקטורת הדאטה בהתאם.

מתי הגישה הזו היא Overkill (ומה לעשות במקום)

למרות כל מה שכתבתי, חשוב להיות כנים. שימוש ב-Playwright עם רשת פרוקסים איכותית הוא פתרון מורכב. הוא דורש משאבי שרת לא מבוטלים ותחזוקה שוטפת. אם כל מה שאתם צריכים זה לבדוק מחיר של טיסה ספציפית פעם בשבוע, אל תבנו מערכת כזאת. זה כמו להשתמש בטנק כדי לפצח אגוז. במקרים של צורך נקודתי וחד-פעמי, פתרון ידני או סקריפט פשוט יכול להספיק.

הגישה שתוארה כאן מיועדת לפרויקטים בקנה מידה גדול: מעקב מלאי/זמינות ארקיע על כלל היעדים, ניטור דינמי של אלפי צירופי טיסות, או בניית מאגר נתונים היסטורי. אם אתם לא צריכים לעבור את סף ה-1,000 בקשות ביום, סביר להניח שלא תתקלו בחסימות משמעותיות ותוכלו להסתפק בפתרון פשוט יותר, אולי אפילו ללא פרוקסים. המורכבות צריכה להיות פרופורציונלית לבעיה. להתחיל עם התותחים הכבדים עלול לבזבז זמן פיתוח יקר שאפשר היה להשקיע בניתוח הנתונים עצמם. לפעמים, הדרך הנכונה להתמודד עם טיפול בשגיאות 429 היא פשוט להאט את הקצב, במקום לבנות מערך פרוקסים מורכב.

נקודות מרכזיות

עבור scraping של ארקיע, השתמשו ב-Playwright כדי להתמודד עם ה-SPA; ספריות HTTP פשוטות ייכשלו.
ניהול סשנים (sessions) הוא קריטי; כל worker חייב להתחיל חיפוש מאפס כדי לקבל טוקן תקף.
השתמשו ב-residential proxies עם sticky sessions כדי לעקוף rate limiting בקנה מידה גדול.
אל תגרדו HTML. יירטו את קריאות ה-API הפנימיות של האתר לקבלת JSON נקי ונתונים מובנים.
הגישה המורכבת הזו מתאימה רק לאיסוף דאטה בקנה מידה גדול; למשימות קטנות, פתרון פשוט יספיק.

שאלות נפוצות

איך אני יכול לעשות scraping לזמינות מושבים בטיסות ארקיע בזמן אמת?▾

כדי לעקוב אחר זמינות מושבים בארקיע בזמן אמת, יש צורך להשתמש בכלי שיודע להריץ JavaScript, כמו Playwright, מכיוון שהנתונים נטענים באופן דינמי. יש להתמקד ביירוט בקשות הרשת (XHR/Fetch) שהאתר שולח כדי לקבל את מפת המושבים לאחר בחירת טיסה ספציפית. על ידי ניתוח התגובה של בקשת ה-API הזו, בדרך כלל בפורמט JSON, ניתן לחלץ את מצב כל מושב (פנוי, תפוס, שמור) בדיוק של 99% ללא צורך בעיבוד ויזואלי של כל הדף.

מהי הדרך היעילה ביותר לחלץ את כל מסלולי הטיסות והתאריכים מאתר arkia.co.il?▾

הדרך היעילה ביותר לחילוץ כלל המסלולים והתאריכים מאתר ארקיע היא באמצעות אסטרטגיה היברידית. ראשית, השתמש בספריית requests פשוטה כדי לבצע scraping של נקודות הקצה הסטטיות או ה-sitemap כדי לקבל את רשימת היעדים המלאה. לאחר מכן, עבור כל זוג יעדים, השתמש ב-Playwright כדי להפעיל את רכיב בחירת התאריכים (date picker) ולחלץ את כל התאריכים הזמינים שמוצגים. גישה זו מפחיתה את זמן הריצה בכ-70% בהשוואה לשימוש ב-Playwright בלבד לכל השלבים.

כיצד ניתן לבנות API פרטי למחירי טיסות בארקיע באמצעות web scraping?▾

בניית API פרטי למחירי ארקיע דורשת שלושה רכיבים מרכזיים. ראשית, סקריפט scraping מבוסס Playwright שרץ על שרת, מקבל כפרמטרים יעד ותאריכים, ומחזיר את המחירים בפורמט JSON. שנית, מסד נתונים (למשל, PostgreSQL) לשמירת התוצאות וניהול מטמון (cache) כדי למנוע בקשות חוזרות. שלישית, שכבת API פשוטה (כמו FastAPI או Express) שחושפת endpoint אחד או שניים, מקבלת בקשות מהאפליקציה שלך, בודקת את המטמון, ואם צריך מפעילה את הסקרייפר ומחזירה את הנתונים המעודכנים.

מהן 3 הטעויות הנפוצות ביותר שגורמות לחסימה בעת ניטור מחירים בארקיע?▾

הטעות הראשונה היא שימוש בכתובות IP של מרכזי נתונים (datacenter proxies), אשר מזוהות ונחסמות באופן מיידי על ידי מערכות ההגנה של ארקיע. הטעות השנייה היא שליחת בקשות בקצב קבוע ומהיר מדי, מה שיוצר תבנית התנהגות רובוטית ברורה. יש להוסיף השהיות אקראיות של בין 1.5 ל-4 שניות בין בקשות. הטעות השלישית היא הזנחת ה-user-agent ו-HTTP headers אחרים, אשר צריכים להיות זהים לאלו של דפדפן מודרני אמיתי כדי להימנע מחסימה ברמת ה-WAF.

איך מבצעים scraping לנתוני טיסות מארקיע הדורשים התחברות לאזור האישי?▾

כדי לבצע scraping לנתונים הדורשים התחברות, יש לנהל סשן (session) מתמשך. הדרך המומלצת היא להשתמש ב-Playwright כדי לבצע התחברות חד-פעמית באופן אוטומטי, ולשמור את קבצי העוגיות (cookies) או את ה-storage state של הדפדפן לקובץ. בבקשות עתידיות, טוענים את הסשן השמור במקום להתחבר מחדש בכל פעם. גישה זו עוקפת את הצורך להתמודד עם אימות דו-שלבי (2FA) בכל ריצה ומפחיתה את הסיכוי לחסימת החשבון בכ-80%.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור