Scraping Quik: ארכיטקטורה לדאטה אמין מסופר אונליין

אם ניגשתם לפרויקט scraping Quik עם `requests` ו-`BeautifulSoup` ונתקעתם, אתם לא לבד. אתרים מודרניים כמו Quik, הבנויים על frameworks של single-page application, דורשים גישה מתוחכמת יותר. הנתונים לא יושבים ב-HTML סטטי שמחכה לכם. הם נטענים דינמית דרך קריאות API פנימיות, מוגנים על ידי מנגנונים שמצפים לאינטראקציה של דפדפן אמיתי. במאמר הזה לא נדבר על היסודות. נדבר על בניית מערכת אמינה שמטפלת בקטלוג של עשרות אלפי מוצרים, מתמודדת עם שינויי מחיר ומלאי תכופים, ומספקת דאטה נקי ומוכן לשימוש.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

מעבר ל-API הפנימי: למה `requests` פשוט לא יספיק

האינסטינקט הראשון של כל מהנדס הוא לפתוח את ה-DevTools, ללכת לטאב ה-Network ולמצוא את קריאות ה-API שמביאות את המידע על המוצרים. ב-Quik, הגישה הזו תחשוף בפניכם רשת של endpoints שמספקים JSON נקי. זה נראה כמו ניצחון קל. הבעיה היא שהקריאות האלה כמעט תמיד מאובטחות. זה יכול להיות token ב-header שמתחדש כל כמה דקות, פרמטרים שדורשים חישוב בצד הלקוח, או בדיקה של טביעת אצבע של הדפדפן. ניסיון לשחזר את הלוגיקה הזו ידנית הוא קרב אבוד מראש. גם אם תצליחו היום, שינוי קטן בקוד של האתר מחר ישבור לכם את הכל. זו הסיבה שגישה המבוססת על שליחת בקשות HTTP ישירות נידונה לכישלון בפרויקטים ארוכי טווח מול אתרים כאלה. המורכבות בתחזוקה פשוט לא שווה את זה. במקום לבזבז שבועות על הנדסה לאחור, עדיף להשקיע את הזמן בבניית תשתית שתדמה משתמש אמיתי. זה אולי נראה כמו מאמץ גדול יותר בהתחלה, אבל זה מה שמבדיל בין פרויקט חד-פעמי למערכת דאטה אמינה. לכן, אנחנו אפילו לא מתחילים עם requests.

Playwright במקום Selenium: ארכיטקטורה לאיסוף קטלוג מלא

תפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית, במיוחד במהירות, יציבות ויכולות ניהול רשת. כשמדובר על איסוף קטלוג Quik המונה כ-25,000 מוצרים, יעילות היא שם המשחק. המטרה היא לאסוף את כל המוצרים, כולל שדות כמו שמות מוצרים וקטגוריות, בצורה מהירה ואמינה. הארכיטקטורה שאני מעדיף מתבססת על Playwright עם הגדרות stealth מתקדמות כדי להיראות כמו משתמש אמיתי. אנחנו לא מפעילים דפדפן מלא לכל בקשה. במקום זאת, אנחנו מריצים תהליך עובד (worker) שמנהל תור של כתובות URL (קטגוריות ומוצרים). כל worker משתמש ב-instance בודד של דפדפן כדי לעבד עשרות או מאות דפים, מה שמצמצם משמעותית את ה-overhead. חשוב מאוד לחסום טעינה של משאבים לא רלוונטיים כמו תמונות, פונטים ו-scripts של מעקב. עם Playwright, אפשר לעשות את זה בקלות עם page.route. פעולה זו לבדה יכולה לקצץ 50-70% מזמן טעינת העמוד ולהקטין את צריכת רוחב הפס. במקום לגרד את ה-HTML, אנחנו יכולים ליירט את תגובות ה-API ישירות מהדפדפן, מה שנותן לנו את ה-JSON הנקי בלי להתמודד עם parsing מסורבל.

התרחיש שבו הכל נופל: זמינות לפי סניף

הנה failure mode קלאסי באתרים כמו Quik: אתה בונה scraper מושלם, מריץ אותו על כל הקטלוג, ואוסף מחירים ומלאי. הכל נראה תקין. ואז אתה מגלה שהנתונים שאספת רלוונטיים רק לסניף ברירת המחדל של תל אביב, בזמן שהעסק שלך צריך נתונים מהסניף בחיפה. אתרי סופרמרקט אונליין מציגים זמינות ומבצעים שונים בהתאם למיקום המשתמש או לסניף המשלוח שנבחר. המידע הזה נשמר בדרך כלל ב-cookie או ב-localStorage. אם ה-scraper שלך לא מנהל את הסשן בצורה נכונה ולא מגדיר את המיקום הרצוי לפני תחילת הריצה, אתה אוסף דאטה שגוי. זה לא שגיאת 403 או CAPTCHA, זה כישלון שקט ומסוכן. הפתרון דורש הבנה של התהליך: צריך לנווט תחילה לעמוד בחירת הסניף, לבצע את הפעולה הנדרשת (לחיצה על כפתור, שליחת טופס), ורק אז להתחיל את ה-crawl. בנוסף, כל worker בתהליך ה-scraping חייב להשתמש בפרופיל דפדפן נפרד (browser context) עם ה-cookies וה-storage המתאימים כדי להבטיח בידוד מלא בין סשנים של סניפים שונים. בלי זה, אתם פשוט אוספים זבל.

ניטור מחירים בקנה מידה: פרוקסי, קצב וטיפול בשגיאות

ברגע שיש לנו את הקטלוג המלא, השלב הבא הוא ניטור מחירים Quik באופן שוטף. כאן המשחק משתנה מאיסוף חד-פעמי לפעולה מתמשכת. המטרה היא לזהות שינויי מחיר ומבצעים כמה שיותר קרוב לזמן אמת. זה דורש ריצות תכופות על עשרות אלפי עמודי מוצר. הפעלה של 30,000 בקשות ממכונה אחת תוך שעה היא דרך בטוחה להיחסם. לכן, בחירת שירות פרוקסי אמין היא קריטית. אני ממליץ על רשת residential proxies איכותית המאפשרת rotation של כתובות IP בכל בקשה או כל כמה דקות. קצב הבקשות צריך להיות מנוהל בזהירות. אנחנו לא רוצים להפציץ את השרתים של Quik. קצב של 20-30 בקשות מקבילות, מפוזרות על פני מאות כתובות IP, הוא נקודת פתיחה טובה. המטרה היא להגיע לכיסוי מלא של הקטלוג תוך שעות בודדות, לא דקות. שגיאות הן חלק בלתי נפרד מהתהליך. צריך לטפל באופן ספציפי בשגיאות 429 (Too Many Requests) על ידי הפחתת הקצב באופן דינמי, ובשגיאות 5xx על ידי ניסיון חוזר עם backoff אקספוננציאלי. כל בקשה שנכשלת צריכה לחזור לתור לניסיון נוסף. רק כך אפשר לשאוף לאחוזי הצלחה של מעל 98%.

השלב האחרון: הפיכת הדאטה הגולמי ל-API שימושי

איסוף הנתונים הוא רק חצי מהעבודה. דאטה גולמי שיושב במסד נתונים הוא לא שימושי עד שהוא נגיש. השלב הסופי הוא לספק את המידע הזה בצורה שקל לצרוך אותה, בין אם זה עבור מודיעין מתחרים Quik או להזנת מערכות פנימיות. הדרך הנכונה לעשות זאת היא לחשוף את הנתונים דרך API / קובץ נתונים פנימי. אנחנו בונים שכבת API פשוטה מעל מסד הנתונים של ה-scraping. ה-API הזה מאפשר לשאול שאלות כמו: 'מה המחיר הנוכחי של מוצר X?', 'הצג לי את כל המוצרים בקטגוריה Y שהמלאי שלהם השתנה היום', או 'יצא לי את כל המבצעים החדשים כקובץ CSV'. זה הופך את תוצרי ה-scraping לנכס אמיתי לארגון. חשוב לכלול ב-API גם מטא-דאטה על תהליך האיסוף עצמו: מתי כל פריט מידע נאסף לאחרונה (timestamp), מאיזה מקור (URL), והאם האיסוף האחרון הצליח. השקיפות הזו בונה אמון בנתונים ומאפשרת למשתמשי הקצה להבין את מגבלות המידע שהם צורכים. בסופו של דבר, המטרה היא לא רק לאסוף דפים, אלא לספק תובנות.

נקודות מרכזיות

עבור Quik, דלגו על `requests` ועברו ישירות ל-Playwright עם stealth.
זמינות ומחירים תלויי מיקום; נהלו סשנים ו-cookies פר סניף כדי למנוע איסוף דאטה שגוי.
ניטור מחירים דורש תשתית פרוקסי חזקה וניהול קצב בקשות חכם.
חסמו משאבים לא רלוונטיים (תמונות, פונטים) כדי להאיץ את ה-scraping בעשרות אחוזים.
הפכו את הדאטה הגולמי לנגיש באמצעות API פנימי כדי למקסם את הערך שלו.

שאלות נפוצות

איך אני מבצע ניטור מחירים ב-Quik עבור 3 כתובות שונות במקביל?▾

כדי לבצע ניטור מחירים ב-Quik עבור כתובות שונות, יש להגדיר 3 sessions נפרדים של Playwright, כל אחד עם קונטקסט דפדפן ו-storage state משלו. לפני כל ריצה, נווט לכתובת הרצויה באתר, הגדר אותה כלוקיישן למשלוח, ושמור את ה-cookies וה-localStorage הרלוונטיים. זה מבטיח שה-API הפנימי יחזיר את המחירים והמבצעים הנכונים לאותו אזור ספציפי. שימוש ב-session יחיד יגרום ל-data pollution ויציג נתונים לא עקביים שכן המידע מבוסס מיקום נשמר ברמת הדפדפן.

מהי הדרך היעילה ביותר לאיסוף קטלוג מלא מ-Quik כולל וריאציות מוצר?▾

הדרך היעילה ביותר לאיסוף קטלוג מלא מ-Quik היא באמצעות ניתוח בקשות ה-XHR/Fetch שהאתר שולח ל-API הפנימי שלו בזמן ניווט בין קטגוריות. במקום לעבד HTML, יש ליירט את תגובות ה-JSON המכילות את רשימות המוצרים. שיטה זו מהירה בכ-80% מ-parsing של DOM ומספקת נתונים מובנים, כולל מזהי מוצר, מחירים, וריאציות משקל או אריזה. השתמשו ב-page.on('response', ...) של Playwright כדי ללכוד את הנתונים ישירות מהרשת.

כיצד אוכל לעקוב אחר זמינות ומלאי של מוצרים ספציפיים ב-quik.co.il?▾

מעקב מלאי יעיל ב-quik.co.il דורש התמקדות בשינויים ספציפיים ב-DOM או בתגובות ה-API של דף המוצר. במקום לסרוק את כל הדף בכל פעם, יש לנטר את האלמנט המציין 'אזל מהמלאי' או את ערך ה-isAvailable בתגובת ה-JSON של המוצר. ניתן להגדיר סריקה בתדירות גבוהה, כל 5-10 דקות, שמכוונת רק ל-endpoint או ל-selector הזה. גישה ממוקדת זו מפחיתה את טביעת הרגל של הסורק ומספקת התראות כמעט בזמן אמת.

איך אני בונה API פרטי על בסיס הנתונים של Quik למטרות מודיעין מתחרים?▾

בניית API פרטי על בסיס נתוני Quik מתחילה בהקמת scraper מבוסס Playwright שאוסף את המידע הנדרש ומאחסן אותו במסד נתונים מובנה כמו PostgreSQL. יש לתכנן סכמה שתכיל שדות כמו שם מוצר, מחיר, קטגוריה, מבצעים ותאריך הסריקה. לאחר מכן, יש לחשוף את הנתונים האלו באמצעות endpoint של REST API (למשל, עם FastAPI או Express.js) המאפשר שליפת מידע היסטורי והשוואתי. זה מאפשר ניתוח מגמות מחיר וזמינות לאורך זמן.

מהן 3 הטעויות הנפוצות ביותר ב-scraping של אתרי SPA כמו quik.co.il?▾

הטעות הראשונה היא שימוש בספריות כמו Requests או BeautifulSoup, שאינן מריצות JavaScript ולכן לא יראו את התוכן הדינמי. השנייה היא אי-המתנה מספקת לטעינת רכיבים אסינכרוניים, מה שמוביל לאיסוף דפים ריקים; יש להשתמש ב-waitForSelector עם timeout של לפחות 5 שניות. הטעות השלישית היא התעלמות מ-state שנשמר ב-localStorage, כמו מיקום המשתמש, מה שגורם לקבלת נתונים שגויים או לא רלוונטיים. ניהול נכון של ה-state קריטי להצלחה.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור