Scraping אקדמון: המדריך הטכני המלא למהנדסים

ביצוע scraping לאקדמון נשמע כמו משימה פשוטה על הנייר. אתר ספרים, כמה כבר יכול להיות מסובך? ובכן, אם אתה כאן, אתה כבר יודע שהתשובה היא 'מאוד'. זה לא אתר סטטי שאפשר לגרד עם בקשת GET פשוטה. אנחנו מדברים על מערכת מבוססת JavaScript, עם לוגיקת frontend מורכבת וסביר להניח שגם עם כמה הגנות בסיסיות. המטרה שלנו היא לא לכתוב סקריפט שירוץ פעם אחת, אלא לבנות מערכת אמינה שתספק דאטה מדויק על קטלוג, מחירים וזמינות לאורך זמן. במדריך הזה נדלג על היסודות ונקפוץ ישר לטקטיקות שעובדות בשטח.

Use Cases · 5

ניטור מחירים

Medium

מחירים, מבצעים, שינויי מחיר

איסוף קטלוג

Medium

שמות מוצרים/מודעות, קטגוריות, מפרטים

מעקב מלאי/זמינות

Medium

זמינות, סניפים, מלאי לפי מוצר

מודיעין מתחרים

Medium

שינויים במוצרים, מבצעים, שוק

API / קובץ נתונים

Medium

ייצוא CSV/API יומי או שבועי

ארכיטקטורת היעד: למה requests פשוט לא יספיק

הטעות הראשונה שמהנדסים עושים כשהם ניגשים ל-scraping של אתר כמו אקדמון היא לפתוח את Postman או לכתוב סקריפט פייתון עם requests. הם שולחים בקשת GET ל-URL של קטגוריה, מקבלים HTML בחזרה, ומגלים שהוא כמעט ריק. איפה המוצרים? איפה המידע? התשובה נמצאת ב-bundle של JavaScript. אקדמון, כמו רוב אתרי האיקומרס המודרניים, הוא Client-Side Rendered. ה-HTML הראשוני הוא רק שלד, והתוכן האמיתי נטען דינמית באמצעות JavaScript שמדבר עם API פנימי.

זה אומר שתצטרך לוותר על requests ו-BeautifulSoup מהר מאוד. הם פשוט לא יראו את מה שהמשתמש רואה. כאן נכנסים לתמונה כלים כמו Playwright או Puppeteer. אני מעדיף את Playwright. הוא מהיר יותר, ה-API שלו נקי יותר והוא תומך בכל המנועים הגדולים. תפסיקו עם Selenium לפרויקטים חדשים. Playwright מנצח אותו ב-2025 בכל מטריקה רלוונטית.

הגישה הנכונה היא להתחיל עם headless browser. זה מאפשר לנו לראות את ה-DOM המלא, בדיוק כפי שהדפדפן מרנדר אותו אחרי שכל הסקריפטים רצו. זה אמנם דורש יותר משאבים, אבל זה תנאי הכרחי כדי להתחיל בכלל לאסוף נתונים אמינים. משם, המשימה הופכת להיות ניתוח ה-DOM כדי למצוא את הסלקטורים הנכונים עבור שמות מוצרים, מחירים וזמינות.

איסוף קטלוג מלא: התמודדות עם Pagination וניהול State

אחרי שהבנו שאנחנו צריכים headless browser, האתגר הבא הוא איסוף קטלוג מלא. באתר אקדמון יש אלפי פריטים הפרוסים על פני עמודים רבים. ה-pagination כאן הוא לא לינק פשוט של ?page=2. לרוב מדובר בכפתור "הבא" או גלילה אינסופית שמפעילים קריאת JavaScript ברקע. אם תנסה פשוט לולאה על מספרי עמודים ב-URL, אתה תקבל את אותו עמוד ראשון שוב ושוב.

כאן ראיתי פרויקטים נופלים. מהנדס בנה סקרייפר שנראה שעובד, אבל בפועל הוא אסף רק את 20 הספרים הראשונים מכל קטגוריה. כישלון שקט, המסוכן מכולם. הנתונים נראו תקינים, אבל היו חסרים 95% מהקטלוג. הדרך הנכונה היא כפולה: או שאתה ממדל את האינטראקציה האנושית במלואה (לחיצה על כפתור, המתנה לטעינת התוכן, חילוץ, ושוב לחיצה), או שאתה עושה את מה שמהנדס אמיתי עושה: פותח את ה-DevTools.

בטאב ה-Network, בזמן שאתה לוחץ על "הבא", תראה את קריאת ה-XHR/Fetch שהדפדפן מבצע כדי לקבל את הנתונים עבור העמוד הבא. לרוב זו תהיה קריאת API שמחזירה JSON נקי. זה הגביע הקדוש. אם תצליח לפרק את הקריאה הזו - להבין את ה-headers, ה-payload, ואת טוקן האימות אם יש כזה - תוכל לעקוף את כל ה-headless browser ולדבר ישירות עם ה-API. זה מהיר פי 10, צורך פחות משאבים, והרבה יותר יציב. כך הופכים פרויקט של 'איסוף קטלוג אקדמון' ממשימה איטית ומסורבלת לפעולה כירורגית ומהירה.

כש-אקדמון משיב מלחמה: Rate Limiting וניהול פרוקסי

ברגע שתתחיל לשלוח בקשות בקצב גבוה, תפגוש את החבר הכי טוב של כל scraper: שגיאת 429 Too Many Requests, או פשוט חסימה שקטה. אתרים כמו אקדמון לא אוהבים שמכונה אחת שולחת 50 בקשות בשנייה. זה נראה כמו התקפה, והמערכות שלהם מתוכננות לחסום את זה. כאן נכנס לתמונה ניהול פרוקסי חכם. אם אתה לא משתמש בפרוקסי, אתה לא רציני.

השאלה היא לא אם להשתמש בפרוקסי, אלא איך. רוב האנשים קונים רשימה של 100 פרוקסי datacenter זולים, מריצים את הסקרייפר, ומגלים ש-80 מהם נחסמו תוך שעה. זה לא עובד. אתה צריך מערכת proxy rotation דינמית. כזו שיודעת לזהות שגיאות 429 או CAPTCHA, להוציא את ה-IP הבעייתי מהמאגר לפרק זמן קצוב (cooldown), ולנסות שוב עם IP אחר. בניתי מערכות כאלה שנכשלו כי לא טיפלו נכון ב-state של ה-session. החלפת IP באמצע תהליך רכישה מדומיין, למשל, תזרוק אותך החוצה. לכן, חשוב להשתמש ב-sticky sessions עבור תהליכים מורכבים. למידע נוסף, קראו את המדריך לבחירת פרוקסי residential.

הגישה המתוחכמת יותר היא לא רק להחליף IP, אלא גם לשנות טביעת אצבע של הדפדפן. דברים כמו User-Agent, רזולוציית מסך, ושפות נתמכות. ספריות כמו playwright-extra עם תוסף ה-stealth עושות עבודה טובה בזה. המטרה היא שכל בקשה תיראה כאילו היא מגיעה ממשתמש לגיטימי אחר, ולא משרת בודד ב-AWS.

מניטור מחירים ועד מודיעין מתחרים: ה-Use Cases

אז למה אנחנו עושים את כל זה? כי הנתונים מאתר אקדמון הם בעלי ערך אדיר. הנה כמה מהיישומים המרכזיים:

ניטור מחירים אקדמון: זה היישום הברור ביותר. מעקב יומי או שעתי אחרי שינויי מחיר, מבצעים, והנחות מאפשר להגיב במהירות לתחרות או לזהות הזדמנויות. חשוב לאסוף לא רק את המחיר הסופי, אלא גם את 'מחיר המחירון' וההנחה, אם קיימים. שני השדות האלה, מחירים ומבצעים, הם קריטיים לניתוח.
מעקב מלאי/זמינות אקדמון: האם ספר מסוים חזר למלאי? האם מהדורה חדשה זמינה? סקרייפר יכול לענות על השאלות האלה באופן אוטומטי. זה קריטי עבור חנויות מתחרות או עבור לקוחות שמחכים לפריט ספציפי. לעיתים, מידע על מלאי לא מוצג ישירות, וצריך להסיק אותו מלוגיקה עסקית (למשל, כפתור "הוסף לסל" הופך ל-"אזל מהמלאי").
מודיעין מתחרים: מעבר למחיר, אפשר לאסוף מידע על קטלוג המוצרים המלא של אקדמון. אילו ספרים חדשים נוספו? אילו קטגוריות צומחות? ניתוח כזה לאורך זמן מספק תמונה רחבה על האסטרטגיה של המתחרה.
בניית API / קובץ נתונים: בסופו של דבר, כל הנתונים האלה צריכים להיות נגישים. התוצר הסופי של פרויקט scraping מוצלח הוא לא סקריפט, אלא API פנימי או ייצוא CSV/JSON יומי שצוותים אחרים בחברה יכולים לצרוך בקלות. בניית צינור נתונים אמין, כולל ניקוי וסטנדרטיזציה, היא 90% מהעבודה.

מתי לא כדאי לבנות סקרייפר בעצמך

דיברנו הרבה על איך לבנות, אבל חשוב לא פחות לדבר על מתי לא. יש נקודה שבה המורכבות של התחזוקה עולה על התועלת. אם אתה צריך רק 100 מוצרים פעם בחודש, סקריפט פשוט יעשה את העבודה. אבל אם אתה צריך דאטה מעודכן מכל הקטלוג של אקדמון כל שעה, 24/7, הסיפור משתנה.

האתר ישנה את המבנה שלו. סלקטורים ישברו. הגנות חדשות יתווספו. מישהו צריך לתחזק את הקוד, לעדכן אותו, ולטפל בהתראות כשהוא נשבר בשלוש לפנות בוקר. זה לא פרויקט של 'שגר ושכח'. ניהול מערך פרוקסי איכותי, פתרון CAPTCHAs, ושמירה על אחוזי הצלחה של מעל 99% דורשים השקעת זמן ומומחיות משמעותית. אם אין לך את המשאבים האלה בצוות, או שהפרויקט הוא לא ליבת העיסוק שלך, המאמץ עלול להיות גדול מדי.

לפעמים, הגישה הנכונה היא לא לבנות הכל מאפס. לפני שאתה צולל לפרויקט של חודשים, כדאי לבחון אם קיימים פתרונות שמספקים את הדאטה הזה בצורה מנוהלת. אם המטרה שלך היא הדאטה עצמו, ולא האתגר ההנדסי של חילוצו, ייתכן שמיקור חוץ של ה-scraping הוא הדרך היעילה ביותר. זה לא כישלון, זו החלטה עסקית חכמה שמאפשרת לצוות שלך להתמקד במה שהוא עושה הכי טוב. אל תיתן לאגו של מהנדס למנוע ממך לקבל את ההחלטה הנכונה.

נקודות מרכזיות

עבור אתר מודרני כמו אקדמון, התחילו ישירות עם Playwright, אל תבזבזו זמן על requests.
מצאו את קריאות ה-API הפנימיות שה-frontend משתמש בהן כדי לעקוף את הצורך ב-headless browser.
ניהול פרוקסי דינמי עם rotation ו-cooldown הוא חובה, לא אופציה, לסריקה בקנה מידה גדול.
הערך האמיתי הוא לא הסקריפט, אלא צינור נתונים אמין שמספק API או קובץ נתונים נקי.
תחזוקת סקרייפר היא מחויבות ארוכת טווח; שקלו את עלות התחזוקה לפני שאתם בונים.

שאלות נפוצות

איך אני יכול לעשות scraping לנתוני זמינות ומלאי מאתר academon.co.il בזמן אמת?▾

כדי לעקוב אחר מלאי בזמן אמת באתר אקדמון, יש להתמקד בקריאות ה-API הפנימיות שהאתר מבצע ולא בניתוח ה-HTML. השתמש בכלי כמו Puppeteer כדי לנטר את תעבורת הרשת (Network tab) ולזהות את ה-endpoint הספציפי שמחזיר את נתוני המלאי, לרוב בפורמט JSON. לאחר זיהוי ה-endpoint, תוכל לשלוח בקשות ישירות אליו כל 30-60 שניות, מה שמפחית את העומס ב-95% בהשוואה לטעינת עמוד מלא ומספק נתונים מדויקים יותר. ודא שאתה משכפל את ה-headers הנדרשים מהבקשה המקורית.

מהי הדרך היעילה ביותר לבנות API פרטי על בסיס קטלוג המוצרים של אקדמון?▾

הדרך היעילה ביותר לבנות API פרטי על בסיס קטלוג אקדמון היא להריץ סקריפט סריקה יומי (daily batch) שאוסף את כל המידע הנדרש ומאחסן אותו במסד נתונים משלך, כמו PostgreSQL. לאחר מכן, חשוף את הנתונים האלו דרך ה-API שלך. גישה זו מונעת שליחת בקשות חיות לאקדמון עבור כל קריאת API, מה שמבטיח latency נמוך של פחות מ-50ms ומונע חסימות. עדכון הנתונים פעם ב-24 שעות מספיק עבור 90% מהשימושים.

כיצד ניתן לאסוף את כל קטלוג המוצרים של אקדמון מבלי להיחסם על ידי מנגנוני ה-rate limiting שלהם?▾

כדי לאסוף את כל קטלוג המוצרים מאקדמון, יש לשלב שלוש טכניקות עיקריות. ראשית, השתמש ב-proxy pool עם לפחות 50 כתובות IP מתחלפות (rotating residential proxies). שנית, החלף את ה-User-Agent שלך כל 100-200 בקשות כדי לדמות משתמשים שונים. שלישית, והחשוב ביותר, הוסף השהייה אקראית (random delay) של בין 2 ל-5 שניות בין כל בקשה כדי לחקות התנהגות אנושית. גישה זו מפחיתה את הסיכוי לחסימה ביותר מ-80% בהשוואה לבקשות מהירות ורציפות.

מהם האתגרים הספציפיים בניטור מחירים באתר מבוסס JavaScript כמו אקדמון?▾

האתגר המרכזי בניטור מחירים באתר כמו אקדמון הוא שהמחירים נטענים באופן אסינכרוני באמצעות JavaScript לאחר טעינת ה-HTML הראשוני. סקריפטים המבוססים על ספריות כמו requests יקבלו עמוד ריק מנתונים. הפתרון הוא להשתמש ב-headless browser כמו Playwright או Selenium, שיודע להריץ את ה-JavaScript ולהמתין עד שאלמנט המחיר הספציפי יופיע ב-DOM. השתמש ב-selector יציב, כמו [data-testid='product-price'], כדי למנוע שבירה של הסקריפט בעדכוני עיצוב.

איך אני מבצע אימות שהנתונים שאספתי מאקדמון עבור מודיעין מתחרים הם מדויקים ועדכניים?▾

כדי להבטיח את דיוק הנתונים, יש ליישם תהליך אימות דו-שלבי. ראשית, עבור כל ריצת סריקה, דגום באופן אקראי 1% מהמוצרים ופתח אותם ידנית בדפדפן כדי להשוות את המחיר והמלאי לנתונים שנאספו. שנית, הוסף לסקריפט שלך בדיקת checksum או hash על מבנה ה-HTML של דף המוצר. שינוי פתאומי ב-hash על פני 10% מהעמודים או יותר יכול להצביע על שינוי מבני באתר שדורש התאמה של הסקרייפר שלך, ובכך למנוע איסוף נתונים שגויים.

הערת ציות

רק מידע פומבי; לבדוק robots.txt, תנאי שימוש, עומס, זכויות יוצרים, ולתעד מקור