Scraping Story: המדריך המלא לאיסוף נתוני אופנה

Q: אילו headers ו-cookies חיוניים לשליחה כדי למנוע חסימה מיידית ב-scraping של Story?

כדי למנוע חסימה מיידית, יש לשלוח לפחות 4 headers קריטיים: `User-Agent` של דפדפן מודרני (למשל, Chrome 120+), `Accept-Language` (כמו 'he-IL,he;q=0.9'), `Referer` המצביע על עמוד קטגוריה רלוונטי, ו-`Sec-CH-UA`. בנוסף, חובה לנהל cookies של סשן. בביקור הראשון, שמרו את ה-cookies שהשרת מחזיר והעבירו אותם בכל הבקשות העוקבות באותו סשן. התעלמות מניהול cookies היא הסיבה לכ-70% מהחסימות האוטומטיות באתרי מסחר מודרניים.

אם ניסיתם פעם לעשות scraping ل-Story, בטח גיליתם שזה לא עוד אתר WordPress פשוט. אחרי 8 שנים בתחום, ראיתי אינספור פרויקטים נתקעים על אתרים כאלה. הם דינמיים, בנויים על JavaScript, וה-markup שלהם משתנה בלי התראה. המטרה שלנו כאן היא לא לדבר על היסודות, אלא לצלול ישר לטקטיקות שעובדות ספציפית עבור אתרי אופנה מודרניים כמו Story. נדבר על הכלים הנכונים, על נקודות הכשל הצפויות, ואיך להפוך את הכאוס הזה לדאטה סט מובנה ושימושי.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

ארכיטקטורת האתר: למה requests פשוט לא יספיק

הטעות הראשונה שרוב המהנדסים עושים כשהם ניגשים ל-Story היא להניח שמדובר ב-server-side rendering פשוט. פותחים את ה-source, לא רואים את המוצרים, ומרימים ידיים. האמת היא ש-Story, כמו רוב אתרי האיקומרס המודרניים, טוען את הקטלוג שלו באופן דינמי באמצעות JavaScript. בקשת GET פשוטה ל-URL של קטגוריה תחזיר לכם שלד HTML כמעט ריק, ואת כל התוכן האמיתי יטען קוד ה-JS שרץ בדפדפן.

זה אומר שכל ניסיון לבצע איסוף קטלוג Story עם ספריות כמו requests או HTTPX ב-Python נידון לכישלון. אתם פשוט לא תראו את הנתונים. כאן נכנסים לתמונה כלים כמו Playwright או Puppeteer. אנחנו צריכים לדמות דפדפן אמיתי, להריץ את ה-JS, ולחכות שה-DOM יתעדכן עם רשימת המוצרים, המחירים והזמינות. רק אז אפשר להתחיל לחלץ מידע. לפעמים אפשר למצוא את קריאות ה-API הפנימיות ברשת (XHR/Fetch) ולחסוך את עלות הרינדור, אבל באתרים כמו Story, שלעיתים קרובות משתמשים ב-GraphQL או ב-endpoints לא מתועדים, גישת ה-headless browser היא נקודת פתיחה הרבה יותר יציבה. היא אולי איטית יותר פר-בקשה, אבל חוסכת שעות של הנדסה הפוכה. השתמשו בכלים הנכונים מההתחלה, וראו ב-מדריך Playwright stealth איך לעשות את זה נכון כדי להיראות כמו משתמש אמיתי.

נקודות הכשל הנפוצות ב-Scraping של אתרי אופנה

אז החלטתם להשתמש ב-Playwright. מעולה. אבל העבודה רק התחילה. הנה תרחיש כשל קלאסי שראיתי קורה שוב ושוב עם אתרים בסגנון של Story: ה-scraper רץ מצוין במשך 20 דקות, אוסף 400-500 מוצרים, ואז מתחיל לקבל דפים ריקים או שגיאות 403. הסיבה? חסימת IP בסיסית. אתרי איקומרס מנטרים בקשות מהירות מאותו IP ורואים בזה פעילות חשודה.

הקטלוג של Story מכיל אלפי פריטים. סריקה מלאה שלו בקצב סביר (נניח, 2-3 שניות בין בקשה לבקשה) תייצר אלפי בקשות תוך זמן קצר. בלי אסטרטגיית פרוקסי חכמה, אתם תיחסמו לפני שתגיעו לעמוד העשירי. הפתרון הוא לא להאט את הקצב בצורה דרסטית, אלא להשתמש ב-proxy rotation. אבל לא כל פרוקסי יעבוד. Datacenter proxies זולים ומהירים, אבל קל מאוד לזהות ולחסום אותם. עבור אתרי קמעונאות ברמה הזו, הבחירה הנכונה היא כמעט תמיד residential proxies. הם יקרים יותר מבחינת מאמץ ניהולי, אבל הם מאפשרים לכם להיראות כמו תנועה של משתמשים אמיתיים ממקומות שונים. קראו עוד על איך לבחור פרוקסי residential כדי להבין את ה-trade-offs. כישלון בנקודה הזו הוא הסיבה ש-90% מהפרויקטים לאיסוף נתונים מאתרי איקומרס נכשלים בשבוע הראשון.

מעקב מלאי וניטור מחירים: אתגר הנתונים הדינמיים

שני ה-use cases המרכזיים ביותר עבור Story הם ניטור מחירים ו-מעקב מלאי/זמינות. אלו גם שניים מהשדות הכי קשים לייצוב. מחירים יכולים להשתנות מספר פעמים ביום, במיוחד סביב אירועי מכירות. מלאי, במיוחד בפריטי אופנה פופולריים, יכול לרדת מ-"זמין" ל-"אזל מהמלאי" תוך דקות. לכן, scraper שרץ פעם ביום פשוט לא יספק נתונים אמינים.

כדי לבנות מערכת אמינה, צריך להתמקד בשני היבטים: תדירות ודיוק. ראשית, תצטרכו scraper שיכול לרוץ בתדירות גבוהה על פריטים נבחרים, אולי כל 15-30 דקות. זה דורש תשתית יעילה וניהול תורים חכם. שנית, ה-selector-ים שלכם חייבים להיות עמידים. אל תתפסו אלמנט לפי ה-class שלו, כמו css=.price-tag. שמות קלאסים משתנים כל הזמן בפריסות קוד חדשות. במקום זאת, חפשו selectors יציבים יותר, כמו data-testid="product-price" או מבנים היררכיים שפחות סביר שישתנו. כשאתם חולצים מבצעים, שימו לב שאתם תופסים גם את המחיר המקורי וגם את מחיר המבצע, כדי שתוכלו לחשב את אחוז ההנחה. פרויקט מוצלח בתחום הזה מגיע ל-99.5% הצלחה בחילוץ נתונים, עם latency ממוצע של 5-7 שניות לדף שעובר רינדור מלא.

בניית API פרטי על בסיס נתוני Story

איסוף הנתונים הוא רק חצי מהסיפור. בסופו של דבר, המטרה היא להפוך את המידע הגולמי הזה למוצר שמיש, בין אם זה לצורך מודיעין מתחרים או יצירת API / קובץ נתונים לשימוש פנימי. אחרי שחילצתם את שם המוצר, המחיר, הקטגוריה והזמינות, אתם צריכים לנרמל את הנתונים. למשל, 'כחול נייבי' ו'כחול כהה' צריכים להיות ממופים לאותו ערך. מידות כמו 'L' ו-'Large' צריכות לעבור סטנדרטיזציה.

השלב הבא הוא לבנות מאגר נתונים שמתעדכן באופן קבוע. PostgreSQL הוא בחירה מצוינת כאן, עם תמיכה חזקה ב-JSONB לאחסון מפרטים גמישים. לכל מוצר חייב להיות מפתח ייחודי ועמיד, בדרך כלל ה-SKU או מזהה פנימי אחר. אל תשתמשו ב-URL כמפתח ראשי – הם משתנים. על בסיס מאגר הנתונים הזה, אפשר לחשוף API פנימי פשוט (למשל, עם FastAPI) שמאפשר לשאול שאלות כמו: 'הצג לי את כל המוצרים של מותג X שהמחיר שלהם ירד ב-24 השעות האחרונות', או 'החזר את כל הפריטים בקטגוריית Y שאזלו מהמלאי השבוע'. זה הופך את ה-scraper מכלי טקטי לנכס אסטרטגי עבור הארגון.

מתי לא כדאי להשתמש ב-Scraping מלא

למרות כל מה שאמרתי, יש מצבים שבהם בניית scraper מורכב עבור Story היא פשוט Overkill. חשוב לדעת מתי לעצור. אם כל מה שאתם צריכים זה לעקוב אחרי המחיר של חמישה מוצרים ספציפיים, בניית מערכת מבוזרת עם Playwright ו-proxy rotation היא בזבוז זמן ומאמץ. במקרה כזה, סקריפט פשוט שירוץ פעם בשעה מהשרת שלכם כנראה יעשה את העבודה מבלי לעורר חשד.

תרחיש נוסף הוא כאשר האתר מוגן על ידי מערכות מתקדמות כמו Cloudflare Bot Management או Akamai. במקרים כאלה, המאמץ הנדרש כדי לעקוף את ההגנות עולה באופן אקספוננציאלי. לפעמים, ניסיון עיקש לעקוף את ההגנות האלה יכול להוביל לחסימה קבועה של טווחי IP שלמים. לפני שאתם נכנסים לפרויקט scraping Story בקנה מידה גדול, תמיד כדאי לבדוק אם אין דרך אחרת להשיג את המידע. האם יש פיד נתונים שהספק מציע? האם יש API ציבורי, אפילו מוגבל? לפעמים התשובה היא לא, אבל תמיד שווה לשאול את השאלה. גם אם אתם מתמודדים עם אתר מוגן, יש טכניקות, כפי שמפורט ב-מדריך לעקיפת Cloudflare, אבל הן דורשות מומחיות וכלים ספציפיים.

נקודות מרכזיות

Story הוא אתר מבוסס JS; אל תנסו לגשת אליו עם `requests`, השתמשו ב-Headless Browser כמו Playwright.
עבור מעקב מלאי וזמינות, התמקדו ב-XHR requests שהדפדפן מייצר ולא בעיבוד HTML מלא.
הקטלוג מכיל אלפי מוצרים, תכננו ארכיטקטורה שיודעת להתמודד עם סריקה מלאה תוך 3-4 שעות.
בניית proxy rotation יציב עם residential proxies היא קריטית להצלחה; בלעדיו, צפו לחסימות IP.

שאלות נפוצות

איך אני מבצע איסוף קטלוג מלא מ-Story בלי להפעיל את מנגנוני ה-rate limiting שלהם?▾

כדי לאסוף קטלוג מלא מ-Story, יש לחקות התנהגות משתמש אנושי על ידי פיזור הבקשות בזמנים אקראיים, בין 2.5 ל-5 שניות בין כל טעינת עמוד קטגוריה. השתמשו ב-headless browser כמו Playwright עם stealth plugin כדי לטעון JavaScript באופן מלא, מכיוון שבקשות HTTP פשוטות יחזירו דף חלקי. מומלץ לבצע את הסריקה דרך רשת פרוקסי מסוג residential עם לפחות 50 כתובות IP מתחלפות כדי למנוע חסימה המבוססת על זיהוי כתובת. גישה זו מפחיתה את סיכויי הזיהוי ב-80% ומבטיחה איסוף נתונים אמין.

מהי הדרך היעילה ביותר למעקב מלאי וזמינות ב-storyonline.co.il ברמת המידה והצבע?▾

הדרך היעילה ביותר למעקב מלאי ב-Story היא באמצעות ניטור ישיר של קריאות ה-API הפנימיות שהאתר מבצע בעת בחירת מידה או צבע בדף המוצר. פתחו את כלי המפתחים בדפדפן (Network tab), סננו לפי XHR, ובחרו מידה. תזהו קריאת API שמחזירה אובייקט JSON עם נתוני המלאי המדויקים, לרוב כולל שדה כמו quantity או isAvailable. גישה זו מהירה ב-95% יותר מרינדור מלא של הדף עבור כל וריאציה וחוסכת משאבי עיבוד משמעותיים.

כיצד ניתן לבנות API / קובץ נתונים מעודכן מחירי מבצע מאתר Story?▾

כדי לבנות קובץ נתונים של מחירי מבצע, יש לזהות את ה-selectors הספציפיים למחיר המקורי ולמחיר לאחר הנחה. באתר Story, המחיר המקורי נמצא לרוב בתוך תג <del> או אלמנט עם class כמו original-price. לאחר استخراج שני הערכים, חשבו את אחוז ההנחה ושמרו את הנתונים בפורמט JSON או CSV. הרצת הסקריפט כל 6 שעות תספק נתונים מעודכנים מספיק לרוב מקרי השימוש, כמו מודיעין מתחרים, תוך הימנעות מהעמסת יתר על שרתי האתר.

אילו headers ו-cookies חיוניים לשליחה כדי למנוע חסימה מיידית ב-scraping של Story?▾

כדי למנוע חסימה מיידית, יש לשלוח לפחות 4 headers קריטיים: User-Agent של דפדפן מודרני (למשל, Chrome 120+), Accept-Language (כמו 'he-IL,he;q=0.9'), Referer המצביע על עמוד קטגוריה רלוונטי, ו-Sec-CH-UA. בנוסף, חובה לנהל cookies של סשן. בביקור הראשון, שמרו את ה-cookies שהשרת מחזיר והעבירו אותם בכל הבקשות העוקבות באותו סשן. התעלמות מניהול cookies היא הסיבה לכ-70% מהחסימות האוטומטיות באתרי מסחר מודרניים.

מהי הגישה המומלצת לטיפול בטעינה עצלה (lazy loading) של תמונות מוצר באתר?▾

הגישה המומלצת לטיפול ב-lazy loading היא להשתמש בספריית אוטומציה כמו Puppeteer או Playwright כדי לדמות גלילה של משתמש. לאחר טעינת הדף הראשונית, בצעו גלילה מבוקרת לחלקו התחתון באמצעות פקודת JavaScript כמו window.scrollTo(0, document.body.scrollHeight). יש להמתין כ-2-3 שניות לאחר כל גלילה כדי לאפשר לכל התמונות להיטען. רק לאחר השלמת מספר גלילות כאלה ניתן לבצע את איסוף ה-HTML המלא, מה שמבטיח שכל כתובות ה-URL של התמונות יהיו זמינות.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור