ארכיטקטורת פרוקסי לבנייה בסקייל | scraping.co.il

למה רוב מערכות הפרוקסי פשוט נשברות

בוא נהיה כנים. לקחת רשימה של 50 פרוקסיז, לשים אותה בקונפיג של Scrapy ולצפות שזה יעבוד בסקייל זה כמו לקחת אופניים למירוץ פורמולה 1. זה יעבוד לדקות ספורות, אולי שעות, ואז הכל יתחיל להתפרק. שגיאות 403, 429, CAPTCHAs, חסימות IP — ראיתי את הכל, בדרך כלל בסביבות 3 לפנות בוקר.

הגישה הנאיבית של "פשוט נעשה רוטציה בין IP-ים" מתעלמת מהמציאות. אתרים מודרניים לא חוסמים רק IP. הם מסתכלים על טביעות אצבע של הדפדפן, על התנהגות הגולש, ועל המוניטין של תת-רשת שלמה. מערכת פרוקסי טובה היא לא רשימה של כתובות. היא מערכת חיה, נושמת ואינטליגנטית שיודעת איך לנווט במים העכורים האלה. היא הופכת את ה-scraping שלך מפעולה שברירית למבצע תעשייתי יציב.

אבני הבניין של ארכיטקטורה שעובדת

מערכת פרוקסי מקצועית מורכבת מכמה חלקים שמשתלבים יחד. זה לא פרויקט של סוף שבוע, אבל זה ההבדל בין הצלחה של 70% ל-99.5%. כל רכיב פותר בעיה ספציפית וכואבת.

Proxy Gateway: זוהי דלת הכניסה היחידה. כל בקשות ה-scraping עוברות דרכה. היא אחראית על load balancing, ניתוב ראשוני, ו-failover. כלים כמו HAProxy או Envoy הם הבחירה הטבעית כאן.
Pool Manager: המוח של המבצע. זה הרכיב שמכיל את הלוגיקה המותאמת אישית. הוא מחזיק את כל מאגר הפרוקסיז, עוקב אחרי הסטטוס של כל אחד מהם (פעיל, במנוחה, חסום), ומחליט איזה פרוקסי לתת לבקשה ספציפית.
Health Checker: העיניים והאוזניים שלך. רכיב זה בודק באופן אקטיבי ופסיבי את תקינות הפרוקסיז. הוא זה שמזהה שספק מסוים נחסם על ידי אתר יעד ומוציא אותו מהרוטציה באופן אוטומטי.
Metrics & Cost Tracker: אי אפשר לשפר מה שלא מודדים. הרכיב הזה אוסף נתונים על אחוזי הצלחה, זמני תגובה, וחשוב מכל — עלות. הוא עונה על שאלות כמו "כמה עלה לי כל scrape מוצלח מאתר X דרך ספק Y".

איפה הגישה הפשוטה קורסת: תרחיש כשל קלאסי

דמיין את זה: אתה מריץ scraper על 10,000 מוצרים. יש לך pool של 200 פרוקסיז מספק מסוים. באמצע הלילה, מערכת ההגנה של אתר היעד מזהה פעילות חריגה ומכניסה לרשימה שחורה את כל טווח ה-IP של ספק הפרוקסי שלך. מה קורה עכשיו?

במערכת פשוטה, ה-scraper שלך יתחיל לקבל שגיאות 403 או 429 על כל בקשה. הוא ימשיך לנסות, יבזבז את כל ה-pool, ייכשל שוב ושוב, ובסוף יקרוס. בבוקר תתעורר ל-0 נתונים חדשים, והרבה כסף שנזרק לפח על פרוקסיז שרופים. הבעיה היא שלא הייתה שום אינטליגנציה. המערכת לא זיהתה את התבנית, לא עצרה להעריך מחדש, ולא ניתבה את התעבורה לספק אחר. היא פשוט המשיכה ללכת עם הראש בקיר.

השער: Gateway חכם עם חוקי ניתוב

ה-Gateway הוא קו ההגנה הראשון והנקודה שבה אנחנו מכניסים סדר בבלאגן. במקום לתת לכל scraper לגשת ישירות ל-pool, אנחנו מכריחים אותם לעבור דרך נקודה מרכזית. אני מעדיף את Envoy בגלל הגמישות שלו, אבל HAProxy הוא סוס עבודה מוכח.

הכוח האמיתי מגיע מהיכולת להגדיר חוקי ניתוב מותאמים. לא כל הפרוקסיז נולדו שווים, ולא כל האתרים דורשים את אותה רמת התחכום. חוקי ניתוב מאפשרים לנו להתאים את הנשק למטרה.

חוקי ניתוב לפי יעד (Per-Target Routing)

הרעיון פשוט: בקשות לאתרים שונים ינותבו ל-pools של פרוקסיז שונים. לדוגמה, אתר פשוט בלי הגנות יכול להשתמש בפרוקסיז זולים מ-datacenter. אתר עם הגנות מתקדמות כמו Cloudflare ידרוש פרוקסיז מסוג residential, שהם יקרים יותר אבל יעילים בהרבה. הניתוב הזה חוסך המון כסף ומשפר דרמטית את אחוזי ההצלחה.

הנה דוגמה פשטנית לאיך לוגיקה כזו יכולה להיראות בקוד של ה-Gateway (בפועל זה יהיה בקונפיגורציה של Envoy/HAProxy):


def get_proxy_for_request(target_url):
    hostname = urlparse(target_url).hostname

    if "hard-target.com" in hostname:
        # אתר קשה דורש פרוקסי פרימיום
        return pool_manager.get_premium_residential_proxy()
    elif "api.some-service.com" in hostname:
        # API פנימי יכול להשתמש ב-IP יציב
        return pool_manager.get_static_isp_proxy()
    else:
        # ברירת מחדל: פרוקסי זול
        return pool_manager.get_datacenter_proxy()

המוח: Pool Manager ובדיקות בריאות אובססיביות

אם ה-Gateway הוא השרירים, ה-Pool Manager הוא המוח. זהו שירות פנימי שאתה כותב, והוא אחראי על הלוגיקה העסקית של עולם הפרוקסי שלך. הוא מנהל את המצב של כל פרוקסי ב-pool: מתי השתמשו בו לאחרונה, לאיזה אתר, האם הוא נכשל, והאם הוא זקוק ל"מנוחה".

בדיקות בריאות הן קריטיות כאן. יש שני סוגים:

בדיקות אקטיביות: שירות שרץ ברקע ושולח בקשות קטנות דרך כל פרוקסי לאתר בדיקה נייטרלי (כמו httpbin.org) כל כמה דקות. זה מוודא שהפרוקסי בכלל חי ומחובר לאינטרנט. פרוקסי שלא עובר בדיקה זו מושבת מיידית.
בדיקות פסיביות: למידה מכישלונות בזמן אמת. אם scraper מקבל שגיאת rate limit או חסימה דרך פרוקסי מסוים, ה-Pool Manager מסמן את הפרוקסי כ"בעייתי" עבור אותו אתר יעד ספציפי למשך זמן קצוב (למשל, 15 דקות). זה מונע ממנו "לשרוף" את אותו IP על ידי ניסיונות חוזרים ונשנים.

אצלנו, פרוקסי שמייצר 3 שגיאות רשת רצופות או שגיאת 4xx אחת מאתר היעד, נכנס אוטומטית ל-cooldown של 20 דקות עבור אותו דומיין ספציפי.

בידוד, Session Caching, ומדדים

בסקייל, כמה פרויקטים של scraping רצים במקביל. הדבר האחרון שאתה רוצה זה שפרויקט אחד, אגרסיבי במיוחד, ישרוף את כל ה-pool ויפגע בפרויקטים אחרים. כאן נכנס לתמונה בידוד (Multi-tenancy). כל פרויקט או "tenant" מקבל תת-קבוצה לוגית של פרוקסיז, או לפחות הגבלת קצב משלו, כדי למנוע השפעה הדדית.

הכוח של Session Caching

זה אחד הטריקים הכי יעילים שקיימים. אתרים רבים קושרים את ה-IP שלך ל-session cookies ול-user agent. אם אתה מחליף IP בכל בקשה אבל משתמש באותם קוקיז, זה דגל אדום ענק. במקום זה, אנחנו שומרים "סשן מוצלח": שילוב של פרוקסי IP + קוקיז + User Agent שעבד עבור אתר מסוים. בבקשה הבאה לאותו אתר, נעדיף להשתמש שוב באותו סשן בדיוק. זה נראה הרבה יותר אנושי ומעלה את אחוזי ההצלחה ב-30-40% באתרים רגישים.

איך לא לטוס עיוור: Observability

כל הארכיטקטורה הזו לא שווה כלום אם אין לך דרך לראות מה קורה. אתה חייב מדדים. אנחנו משתמשים ב-Prometheus לאיסוף וב-Grafana להצגה. הנה כמה מהמדדים שאנחנו עוקבים אחריהם באדיקות:

אחוז הצלחה: מחולק לפי אתר יעד, ספק פרוקסי, וסוג פרוקסי.
זמן תגובה (Latency): ממוצע ואחוזון 95.
מספר ניסיונות חוזרים (Retries): כמה פעמים נאלצנו לנסות שוב בקשה עד שהצליחה.
עלות ל-1,000 בקשות מוצלחות: המדד העסקי החשוב ביותר.

דשבורד טוב יראה לך מיידית שמשהו לא בסדר. למשל, קפיצה פתאומית ב-latency מספק מסוים, או צניחה באחוזי ההצלחה מול אתר ספציפי. זה המפתח לעבור מתגובה איטית לפתרון בעיות פרואקטיבי. בסופו של דבר, כל המרכיבים האלה יחד מהווים חלק קריטי מתוך ארכיטקטורת web scraping מודרנית וסקיילבילית. זה לא קסם, זו הנדסה.

שאלות נפוצות

ההבדל המרכזי הוא בגמישות ובמודרניות. HAProxy הוא ותיק, מהיר מאוד ויציב בצורה בלתי רגילה עבור load balancing של TCP/HTTP, אבל הקונפיגורציה שלו סטטית יחסית. Envoy, פרויקט מבית Lyft, תוכנן מהיסוד לעידן המיקרו-שירותים. הוא תומך בקונפיגורציה דינמית דרך APIs, מה שמאפשר שינויים בזמן אמת בלי ריסטרט, ומציע יכולות observability מתקדמות יותר out-of-the-box. עבור ארכיטקטורת פרוקסי מורכבת עם חוקים שמשתנים לעיתים קרובות, הגמישות של Envoy היא יתרון משמעותי.

אסטרטגיית cooldown טובה מתבססת על סוג השגיאה ועל היעד. שגיאת רשת (timeout) יכולה להצביע על בעיה זמנית בפרוקסי עצמו, ודורשת cooldown קצר של 2-5 דקות. לעומת זאת, שגיאת 429 (Too Many Requests) מהיעד היא סימן ברור לחסימת קצב, ודורשת cooldown ארוך יותר, למשל 15-30 דקות, ספציפית עבור אותו יעד. אנחנו משתמשים במנגנון exponential backoff: הכשל הראשון גורר cooldown של 10 דקות, השני 20, השלישי 40, וכן הלאה, כדי להפחית לחץ על היעד.

המעבר כדאי כשהעלות והמגבלות של שירותים חיצוניים עולות על המורכבות של בנייה פנימית. זה קורה בדרך כלל כשחוצים רף של עשרות מיליוני בקשות בחודש. בשלב הזה, העלות פר בקשה בשירות חיצוני הופכת למשמעותית, וחסרה לך הגמישות ליישם לוגיקת ניתוב ו-caching מותאמת אישית. אם אתה מוצא את עצמך מנסה "לרמות" את ספק הפרוקסי שלך כדי לקבל את הביצועים שאתה צריך, זה סימן ברור שהגיע הזמן לבנות מערכת משלך.

הדרך היעילה ביותר היא להשתמש במאגר נתונים מהיר כמו Redis. עבור כל יעד (hostname), אנחנו שומרים Hash ב-Redis. המפתח הוא ה-hostname, ובתוכו כל שדה הוא session ID (למשל, ה-IP של הפרוקסי) והערך הוא אובייקט JSON המכיל את הקוקיז, ה-User-Agent, וחותמת זמן של השימוש האחרון. לפני כל בקשה, ה-scraper מבקש מה-Pool Manager סשן פנוי עבור היעד. המנהל בודק ב-Redis, מוצא סשן שלא היה בשימוש בדקה האחרונה, נועל אותו ומחזיר אותו ל-scraper.

ניהול עלויות רוחב פס דורש מעקב צמוד והחלטות מבוססות נתונים. המערכת שלנו אוספת את حجم התגובה (response size) עבור כל בקשה מוצלחת ומשייכת אותה לספק הפרוקסי. בדשבורד ה-Grafana שלנו, יש לנו מדד של 'עלות ל-GB' עבור כל ספק. זה מאפשר לנו לנתב בקשות "כבדות" (כמו הורדת תמונות או קבצים גדולים) דרך ספקים עם תמחור רוחב פס זול יותר, בעוד שבקשות קטנות ורגישות ל-latency עוברות דרך ספקים יקרים ומהירים יותר. זה אופטימיזציה מתמדת.

ארכיטקטורת פרוקסי: המדריך המלא לבניית מערכת בסקייל