Scraping לאן: מדריך טכני עמוק לאיסוף נתוני כרטיסים

פרויקט scraping לאן הוא לא עוד משימת איסוף קטלוג סטנדרטית. אם אתם מגיעים מרקע של איקומרס קלאסי, תצטרכו לשנות גישה. האתגר כאן הוא לא רק לחלץ מידע, אלא לנהל state, לדמות אינטראקציה אנושית בצורה משכנעת ולהתמודד עם מבנה נתונים שמשתנה בזמן אמת. זה אתר שבו זמינות כרטיסים יכולה להשתנות תוך שניות, מה שהופך כל בקשת HTTP פשוטה לחסרת תועלת כמעט מיד. במדריך הזה נפרק את הבעיות האמיתיות שתפגשו ואיך פותרים אותן עם הכלים הנכונים, בלי לבזבז שבועות על ניסוי וטעייה.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

למה בקשות HTTP פשוטות נכשלות מול לאן

בואו נשים את זה על השולחן: אם הגישה הראשונית שלכם ל-scraping לאן היא ספריית requests בפייתון, אתם בדרך לכאב ראש. האתר בנוי על לוגיקה כבדה בצד הלקוח. המידע החשוב, כמו זמינות מושבים או מחירים דינמיים, לא יושב ומחכה ב-HTML סטטי שמגיע מהשרת. הוא נטען אסינכרונית, לרוב אחרי סדרה של קריאות API פנימיות שהדפדפן מריץ. ניסיון לשחזר את הקריאות האלה ידנית הוא סיוט מתמשך. תצטרכו לעשות reverse engineering ללוגיקה של ה-JavaScript, לנהל cookies, טוקנים של CSRF, ולוודא שה-headers שלכם מושלמים בכל שלב.

הבעיה מחמירה כשהאתר דורש אינטראקציה. למשל, בחירת תאריך בלוח שנה או לחיצה על אזור ישיבה מסוים כדי לראות את המלאי. הפעולות האלה מפעילות event listeners שמריצים קוד בצד הלקוח, מעדכנים את ה-state של האפליקציה ושולחים בקשות רשת חדשות. לנסות לדמות את כל השרשרת הזאת עם requests זה כמו לנסות להרכיב מנוע עם עיניים קשורות. זה אפשרי תיאורטית, אבל המורכבות והשבריריות של הפתרון פשוט לא מצדיקות את המאמץ. כל שינוי קטן ב-frontend של לאן ישבור לכם את ה-scraper. לכן, הפתרון הנכון הוא להשתמש בכלים שמריצים דפדפן אמיתי. תפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית, במיוחד בביצועים ובאמינות.

הארכיטקטורה הנכונה: Playwright, תור, ו-Proxy Rotation

אז איך בונים מערכת שתעמוד במשימה? ה-stack המנצח מורכב משלושה חלקים. ראשית, Playwright. הוא מהיר, תומך ב-async из коробки, וה-API שלו פשוט נקי יותר. בשילוב עם תוספי stealth, הוא יכול לעקוף את רוב ההגנות הבסיסיות מבוססות ה-fingerprinting. שנית, מערכת תורים כמו RabbitMQ או Redis. אל תריצו את ה-scrapers שלכם ישירות. המפיק (producer) שלכם צריך רק לאסוף את רשימת האירועים וההופעות ולדחוף אותם לתור. הצרכנים (consumers) הם ה-workers שמריצים את מופעי ה-Playwright, שולפים משימה מהתור, מבקרים בדף, אוספים את הנתונים ומכניסים אותם לדאטהבייס. המודל הזה מאפשר סקיילביליות אופקית קלה ושרידות גבוהה. אם worker אחד נופל, המשימה פשוט חוזרת לתור ומטופלת על ידי worker אחר.

החלק השלישי והקריטי הוא ניהול פרוקסי. אתר כמו לאן, עם תעבורה גבוהה, יזהה ויחסום בקלות IP בודד שמבצע מאות בקשות בדקה. אתם חייבים proxy rotation. הפתרון היציב ביותר הוא להשתמש בשירות איך לבחור פרוקסי residential איכותי. פרוקסי ממרכזי נתונים (datacenter proxies) נחסמים מהר מדי באתרים כאלה. המטרה היא להגיע ליחס הצלחה של מעל 95% באופן עקבי. עם ארכיטקטורה כזו, אפשר לבנות מערכת אמינה לאיסוף קטלוג לאן המכסה אלפי אירועים מדי יום, או מערכת ניטור מחירים לאן שבודקת שינויים כל כמה דקות.

תרחיש כישלון קלאסי: הזנחת ניהול State

ראיתי את זה קורה יותר מדי פעמים. מהנדס בונה scraper שנראה שעובד. הוא מריץ אותו על אירוע אחד, מקבל את הנתונים, וחוגג. ואז, הוא מנסה להריץ אותו במקביל על 100 אירועים שונים, והכל מתחיל להתרסק. הבעיה? ניהול state לקוי. באתר כמו לאן, ה-session של המשתמש מכיל מידע קריטי. למשל, אם הוספתם כרטיס לסל, המידע הזה נשמר ב-session בצד השרת או ב-localStorage בצד הלקוח. אם ה-scraper שלכם משתמש באותו פרופיל דפדפן (browser context) לכמה משימות במקביל, אתם יוצרים זליגת state. משימה אחת תשפיע על השנייה, ותקבלו נתונים שגויים או שגיאות בלתי צפויות.

הפתרון הוא בידוד מוחלט. כל משימת scraping, כלומר ביקור בדף של אירוע ספציפי, חייבת להתבצע בתוך BrowserContext חדש ונקי ב-Playwright. זה מבטיח שלכל משימה יש session, cookies ו-storage משלה. כן, יש לזה overhead קטן, אבל הוא זניח לעומת האמינות שתקבלו. כישלון בבידוד state הוא הסיבה מספר אחת לנתונים לא עקביים בפרויקטי scraping מורכבים. כשאתם בונים מערכת מעקב מלאי/זמינות לאן, אתם לא יכולים להרשות לעצמכם לקבל מידע על זמינות של אירוע א' כשבעצם בדקתם את אירוע ב'. זה הופך את כל הדאטה שלכם לחסר ערך.

מעבר לאיסוף: בניית API ופיד נתונים שימושי

איסוף הנתונים הוא רק חצי מהעבודה. בסופו של דבר, מישהו צריך להשתמש במידע הזה. בין אם זה לצורך מודיעין מתחרים לאן או לאפליקציה פנימית, הדאטה הגולמי מה-scraper הוא רק ההתחלה. המטרה הסופית היא לספק API / קובץ נתונים לאן נקי, מובנה ואמין. זה אומר שתצטרכו לבנות שכבת עיבוד (processing layer) אחרי שלב האיסוף. השכבה הזו אחראית על ניקוי הנתונים (למשל, נרמול שמות אמנים), ולידציה (לוודא שכל השדות הנדרשים קיימים), והעשרה (למשל, הוספת מידע גיאוגרפי על מיקום האירוע).

בסוף התהליך, אתם רוצים לחשוף את הנתונים דרך API פנימי או לייצא אותם בקבצי CSV/JSON קבועים. לדוגמה, ייצוא CSV יומי עם כל שינויי המחיר והזמינות מה-24 שעות האחרונות. חשוב לתכנן את סכמת הדאטה מראש. אילו שדות חובה לאסוף? מה ה-primary key של כל אירוע? איך תטפלו באירועים שנמחקו מהאתר? בניית ה-pipeline הזה דורשת מחשבה, אבל היא זו שהופכת פרויקט scraping חד-פעמי לנכס דאטה אסטרטגי. אם אתם נתקלים ב-rate limiting בשלב הזה, כדאי לקרוא על טיפול בשגיאות 429 כדי להבטיח שה-pipeline שלכם לא ייעצר.

מתי לא להשקיע ב-Scraper מורכב (ומה לעשות במקום)

למרות כל מה שכתבתי, יש מצבים שבהם בניית מערכת scraping מורכבת עבור לאן היא פשוט overkill. אם כל מה שאתם צריכים זה רשימה של כל ההופעות החדשות פעם בשבוע, או ניטור מחיר של אירוע ספציפי אחד, המאמץ הנדרש לבניית מערכת מבוססת Playwright עם תור ופרוקסיז אולי לא מצדיק את עצמו. לפעמים, פתרון פשוט יותר, גם אם ידני למחצה, הוא הבחירה הנכונה. למשל, סקריפט פשוט שיכול לרוץ מקומית ולשלוח התראה.

השאלה שצריך לשאול היא מה רמת ה-freshness והכיסוי שאתם צריכים. אם התשובה היא "נתונים מעודכנים כל 5 דקות על כל הקטלוג", אז אין מנוס מבניית המערכת המלאה. אבל אם התשובה היא "דוח שבועי מספיק לי", ייתכן שפתרון פשוט יותר יספיק. חשוב גם לבדוק אם קיימות אלטרנטיבות. האם לאן מציעים פיד RSS? האם יש להם sitemap.xml מפורט שמכיל את כל האירועים? לעיתים קרובות, אפשר למצוא פתרונות פשוטים ב-80% מהמקרים. הבעיה היא שאנחנו כמהנדסים נוטים לקפוץ ישר לפתרון המורכב והמעניין ביותר. ההחלטה הנכונה היא להתאים את רמת המורכבות של הפתרון לדרישות העסקיות, ולא להיפך. בניית scraper יציב זה מאמץ משמעותי, וצריך לוודא שההשקעה הזו נדרשת.

נקודות מרכזיות

עבור scraping לאן, השתמשו ב-Playwright עם stealth; ספריות HTTP פשוטות ייכשלו.
כל משימת איסוף חייבת לרוץ ב-BrowserContext מבודד למניעת זליגת state.
ארכיטקטורה מבוססת תור (כמו RabbitMQ) הכרחית לסקלביליות ואמינות המערכת.
השתמשו ב-residential proxies ולא ב-datacenter proxies כדי למנוע חסימות תכופות.
התאימו את מורכבות ה-scraper לדרישות; לא כל שימוש מצדיק מערכת מלאה.

שאלות נפוצות

איך אני יכול לבצע ניטור מחירים יעיל באתר לאן בלי להפעיל את מנגנוני ההגנה?▾

ניטור מחירים יעיל באתר לאן דורש גישה המדמה משתמש אמיתי, ולא סקריפטים מהירים. השתמש ב-Playwright או Puppeteer כדי לנווט באתר, לחפש אירועים ולחלץ מחירים, תוך שמירה על המתנה אקראית של 2-5 שניות בין פעולה לפעולה. במקום לבדוק כל אירוע כל 5 דקות, בצע סריקה מלאה פעם ב-6 שעות וסריקות ממוקדות על אירועים פופולריים כל 30 דקות. גישה מדורגת זו מפחיתה את טביעת הרגל הדיגיטלית שלך ב-80% ומונעת חסימות אוטומטיות.

מהי הדרך הטובה ביותר לעקוב אחר זמינות כרטיסים לאירוע ספציפי ב-leaan.co.il?▾

הדרך היעילה ביותר למעקב זמינות היא על ידי מיקוד הבקשות ל-API הפנימי של האתר, אליו ניגשת פונקציית ה-JavaScript שבוחרת מקומות ישיבה. פתח את כלי המפתחים בדפדפן, עקוב אחר בקשות הרשת (XHR) בעת בחירת מושב, וזהה את ה-endpoint שמחזיר את מצב הזמינות. לאחר מכן, תוכל לשלוח בקשות ישירות ל-endpoint זה, תוך שימוש ב-cookies וב-headers שנאספו מהסשן. זה חוסך כ-95% ממשאבי העיבוד בהשוואה לרינדור עמוד מלא.

איך אני בונה סקרייפר שיודע להתמודד עם תהליך הרכישה מרובה השלבים של לאן?▾

כדי להתמודד עם תהליך רכישה מרובה שלבים, יש לבנות סקרייפר מבוסס state machine המשתמש בספריית אוטומציה כמו Playwright. כל שלב בתהליך (בחירת אירוע, בחירת תאריך, בחירת מקומות) צריך להיות מצב (state) נפרד בקוד שלך. הסשן של הדפדפן, כולל קוקיז ו-local storage, חייב להישמר בין המצבים. חשוב לטפל במצבי קצה כמו אירועים שאזלו או שגיאות בבחירת מושב, עם לוגיקה שמנסה שוב עד 3 פעמים לפני שהיא מוותרת.

כיצד ניתן לאסוף את כל קטלוג האירועים מלאן לקובץ נתונים מובנה?▾

איסוף קטלוג מלא דורש ניווט דרך כל הקטגוריות והעמודים באתר. הגישה המומלצת היא להתחיל מעמוד הבית, לאסוף את כל הקישורים לקטגוריות, ובכל קטגוריה לנווט בין דפי התוצאות (pagination) עד הגעה לעמוד האחרון. השתמש ב-CSS selectors יציבים כמו [data-event-id] כדי לחלץ מידע על כל אירוע. שמור את הנתונים בפורמט JSON או CSV, והפעל את הסקרייפר פעם ב-24 שעות כדי לתפוס אירועים חדשים ולהסיר אירועים שהסתיימו.

מהן 3 הטעויות הנפוצות ביותר ב-scraping של אתרי כרטיסים דינמיים כמו לאן?▾

הטעות הראשונה היא שימוש בספריית HTTP פשוטה כמו requests, במקום כלי אוטומציה לדפדפן כמו Playwright שמריץ JavaScript. השנייה היא אי שימוש ב-proxy איכותי וסיבוב כתובות IP, מה שמוביל לחסימה מהירה. הטעות השלישית היא חוסר טיפול ב-state של המשתמש; אתרים כמו לאן דורשים שמירת קוקיז וסשן בין בקשות כדי להתקדם בתהליך בחירת הכרטיסים. התעלמות מאחד משלושת אלו תוביל לכישלון של 90% מהניסיונות.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור