בניית Custom API Scraping | scraping.co.il

למה בכלל לבנות API? ה-Scraping כבר עובד

אז סיימת פרויקט scraping מורכב. יש לך DB מלא בנתונים יקרי ערך, והכל רץ אוטומטית. הפיתוי הראשון הוא פשוט לזרוק ללקוח קובץ CSV או לתת לו גישת read-only לדאטהבייס. זה עובד, אבל זה לא מוצר. זה דאטה גולמי.

בניית API היא הצעד שהופך אותך מספק נתונים לספק שירות. במקום לתת ללקוח לדאוג איך הוא מתממשק, מנרמל, ומעדכן את הנתונים, אתה נותן לו נקודת קצה (endpoint) יציבה, מתועדת ונקייה. זה הבדל תהומי. API מאפשר לך לשלוט בגישה, לנטר שימוש, לגבות תשלום לפי קריאות, ולשנות את מקור הנתונים או את לוגיקת ה-scraping בלי שהלקוח ירגיש בכלל.

במילים פשוטות: ה-API הוא החוזה שלך עם המשתמש. הוא מבטיח מבנה נתונים מסוים, זמינות מסוימת, וקצב רענון מסוים. זה הופך את הדאטה שלך מאוסף עובדות לפתרון אמין.

בחירת הטכנולוגיה: REST מול GraphQL

השאלה הראשונה היא תמיד "באיזה פורמט לחשוף את הנתונים?". שתי הגישות הדומיננטיות היום הן REST ו-GraphQL.

REST: הסטנדרט שפשוט עובד

REST (Representational State Transfer) הוא סגנון ארכיטקטוני שמבוסס על משאבים. יש לך "מוצרים", "ביקורות", "מחירים". כל אחד מהם הוא משאב עם URL ייחודי. למשל, /api/v1/products/481516 יחזיר את המוצר עם המזהה הספציפי. זה פשוט, צפוי, וכל מפתח מכיר את זה. רוב ה-frameworks המודרניים, כמו FastAPI בפייתון, הופכים את בניית REST API למשימה של שעות, לא שבועות.

מתי לבחור REST? כמעט תמיד. אם הנתונים שלך מובנים היטב (כמו מוצרים בחנות, טיסות, משרות), REST הוא ברירת המחדל המצוינת.

GraphQL: כשהלקוח צריך גמישות

GraphQL היא שפת שאילתות ל-API. במקום שהשרת יגדיר אילו נתונים חוזרים מכל endpoint, הלקוח שולח שאילתה ומבקש בדיוק את השדות שהוא צריך. זה פותר בעיות של "over-fetching" (קבלת יותר מדי מידע) ו-"under-fetching" (צורך בקריאות מרובות כדי לקבל את כל המידע).

נניח שאתה צריך פרטי מוצר, חמש הביקורות האחרונות עליו, ופרטי המוכר. ב-REST, זה כנראה ידרוש 3 קריאות API שונות. ב-GraphQL, זו קריאה אחת. זה חזק, אבל גם מורכב יותר למימוש בצד השרת. צריך להגדיר סכמה, resolvers, ולהתמודד עם שאילתות שעלולות להיות כבדות מאוד. התחל עם REST, אלא אם יש לך לקוח אנטרפרייז שדורש במפורש את הגמישות של GraphQL.

ארכיטקטורת הליבה: דאטהבייס, Caching, ומה שביניהם

API טוב הוא יותר מסתם קוד שמריץ שאילתת SQL. הוא מערכת שלמה. הנה הרכיבים המרכזיים:

API Gateway: רכיב קצה שמקבל את כל הבקשות. הוא אחראי על ניתוב, אימות ראשוני, ולפעמים גם rate limiting. זה יכול להיות שירות מנוהל (כמו ב-AWS) או שרת כמו Nginx.
API Server: המוח של הפעולה. זה הקוד שאתה כותב (למשל, אפליקציית FastAPI) שמכיל את הלוגיקה העסקית, מבצע אימות, ומתקשר עם הדאטהבייס ושירותים אחרים.
Caching Layer: הרכיב החשוב ביותר לביצועים. במקום לפנות לדאטהבייס על כל בקשה, שומרים תוצאות של שאילתות נפוצות בזיכרון מהיר כמו Redis. זה יכול להוריד את זמן התגובה הממוצע מ-400ms ל-40ms, ולהפחית את העומס על הדאטהבייס ביותר מ-80%.
Database: איפה שהנתונים שגירדת חיים. PostgreSQL הוא בחירה מעולה לנתונים מובנים. אם יש לך כמויות אדירות של נתונים פחות מובנים, אולי תסתכל על משהו כמו Elasticsearch.

# דוגמה פשוטה של Caching עם FastAPI ו-Redis

import redis
from fastapi import FastAPI, Depends, HTTPException

# התחברות ל-Redis
cache = redis.Redis(host='localhost', port=6379, db=0)
app = FastAPI()

async def get_product_from_db(product_id: str):
    # פונקציה שמדמה קריאה איטית מהדאטהבייס
    print(f"Querying DB for product {product_id}...")
    # ... לוגיקה של קריאה מ-PostgreSQL ...
    return {"id": product_id, "name": "Sample Product", "price": 99.9}

@app.get("/products/{product_id}")
async def get_product(product_id: str):
    # 1. בדוק אם המידע קיים ב-cache
    cached_product = cache.get(f"product:{product_id}")
    if cached_product:
        print("Cache HIT!")
        return json.loads(cached_product)

    # 2. אם לא, פנה לדאטהבייס
    print("Cache MISS!")
    product_data = await get_product_from_db(product_id)
    if not product_data:
        raise HTTPException(status_code=404, detail="Product not found")

    # 3. שמור את התוצאה ב-cache לפעם הבאה (עם תפוגה של 10 דקות)
    cache.set(f"product:{product_id}", json.dumps(product_data), ex=600)
    return product_data

איפה רוב המהנדסים נופלים: אבטחה וניהול גישה

בנית API מדהים, הוא מהיר, מחזיר את הדאטה הנכון... ואז הוא קורס כי לא חשבת על הגנה. זה קורה כל הזמן. הנה שני דברים שאסור לוותר עליהם:

אימות (Authentication)

מי יכול לגשת ל-API שלך? התשובה לא יכולה להיות "כולם". הסטנדרט הפשוט והיעיל ביותר הוא מפתחות API (API Keys). כל לקוח מקבל מחרוזת ייחודית, והוא חייב לשלוח אותה בכל בקשה, בדרך כלל ב-Header (למשל, X-API-Key: <your_key>). זה מאפשר לך לדעת מי מבצע כל קריאה, לחסום משתמשים בעייתיים, ולעשות חשבונאות.

הגבלת קצב (Rate Limiting)

זה קריטי. בלעדיו, לקוח אחד עם סקריפט תקול יכול להפיל לך את כל המערכת. המטרה היא להגביל כל משתמש (כל מפתח API) למספר סביר של בקשות בפרק זמן נתון, למשל "100 בקשות בדקה". אם הוא חורג, ה-API מחזיר שגיאת 429 Too Many Requests. זה מגן על התשתיות שלך ומונע שימוש לרעה. כלי כמו slowapi עבור FastAPI עושה את זה פשוט להפליא.

סיפור כישלון מהחיים: באחד הפרויקטים הראשונים שלי, לפני שנים, נתנו גישה ל-API ללקוח גדול. לא הטמענו rate limiting. ביום שישי בערב, מפתח אצלם העלה בטעות לולאה אינסופית שביצעה 500 בקשות בשנייה ל-endpoint שביצע שאילתה כבדה. תוך 10 דקות, חיבורי הדאטהבייס שלנו הגיעו למקסימום והאתר קרס לכל הלקוחות. למדנו בדרך הקשה.

גרסאות וטריות נתונים: איך מבטיחים שה-API לא מתיישן?

השקת את ה-API, ועכשיו? שני אתגרים מרכזיים הם אבולוציה של ה-API ומבנה הנתונים, והבטחה שהנתונים עצמם עדכניים.

ניהול גרסאות (Versioning)

מה קורה כשאתה רוצה לשנות שדה ב-API? למחוק שדה, או לשנות את המבנה שלו? אם פשוט תעשה את השינוי, תשבור את האינטגרציה לכל הלקוחות הקיימים. הפתרון הוא ניהול גרסאות. הדרך הנפוצה ביותר היא דרך ה-URL: /api/v1/products ו-/api/v2/products. זה מאפשר לך להשיק את v2 עם השינויים החדשים, בזמן ש-v1 ממשיך לעבוד כרגיל עבור לקוחות ותיקים. אתה נותן להם זמן לעבור, ובסופו של דבר מודיע על הוצאת v1 משימוש (deprecation).

ניטור טריות נתונים

ה-API שלך טוב רק כמו הנתונים שהוא מגיש. אם ה-scraper שלך נשבר או נחסם, ה-API ימשיך להגיש נתונים ישנים. לקוח שמסתמך על מידע עדכני יאבד אמון. הפתרון הוא ניטור אקטיבי. צור endpoint ייעודי, למשל /api/v1/status, שמחזיר JSON עם מידע על מצב המערכת, ובמיוחד את חותמת הזמן של ה-scrape המוצלח האחרון עבור כל מקור נתונים.

{
  "status": "ok",
  "data_freshness": {
    "source_amazon_bestsellers": {
      "last_successful_scrape": "2025-10-26T08:15:30Z",
      "status": "operational"
    },
    "source_ebay_daily_deals": {
      "last_successful_scrape": "2025-10-25T23:50:00Z",
      "status": "degraded_performance"
    }
  }
}

עכשיו אתה יכול לחבר לזה מערכת התראות (כמו Prometheus עם Alertmanager) שתשלח לך סלאק או אימייל אם last_successful_scrape ישן מדי. זה הופך את התגובה שלך לתקלות מפסיבית לאקטיבית. זהו חלק קריטי בבניית ארכיטקטורת scraping אמינה בסקייל.

המעבר לייצור: Monitoring ו-Logging

ה-API באוויר. העבודה לא נגמרה, היא רק התחילה. כדי לתחזק אותו בצורה מקצועית, אתה צריך נראות מלאה למה שקורה.

Monitoring: אתה צריך לדעת את הדופק של המערכת. שלושת המדדים החשובים ביותר הם: Latency (כמה זמן לוקח לענות לבקשה? עקוב אחר ממוצע, P95 ו-P99), Traffic (כמה בקשות בשנייה אתה מקבל?), ו-Error Rate (איזה אחוז מהבקשות נכשלות עם שגיאות 4xx או 5xx?). כלים כמו Prometheus ו-Grafana הם הסטנדרט בתעשייה לכך.
Logging: כשמשהו משתבש, לוגים הם החברים הכי טובים שלך. אל תדפיס סתם טקסט. השתמש בלוגים מובנים (structured logs) בפורמט JSON. כל שורת לוג צריכה להכיל מידע קונטקסטואלי: מזהה הבקשה, מפתח ה-API של המשתמש, ה-endpoint, זמן התגובה, וקוד הסטטוס. זה הופך את החיפוש והניתוח של בעיות לקל פי 100.

בניית API על גבי נתוני scraping היא לא רק אתגר טכני, היא שינוי תפיסתי. זה המעבר מלייצר דאטה גולמי ללספק מוצר נתונים אמין, יציב ומוכן לשימוש. זה קשה, אבל זה מה שמפריד בין חובבנים למקצוענים.

שאלות נפוצות

הדרך הטובה והנפוצה ביותר היא באמצעות מפתחות API (API Keys). כל לקוח מקבל מפתח ייחודי, מחרוזת ארוכה ורנדומלית, שאותו הוא שולח בכל בקשה ב-HTTP Header, למשל `X-API-Key`. זה מאפשר לך לזהות כל משתמש, לעקוב אחר השימוש שלו, להפעיל הגבלות קצב (rate limiting) פר-לקוח, ולבטל גישה ספציפית במידת הצורך. JWT מתאים יותר למערכות עם משתמשי קצה אנושיים, אך עבור גישת שרת-לשרת, מפתחות API הם פשוטים, מאובטחים ויעילים.

השתמש במערכת caching בזיכרון כמו Redis כדי לאחסן תוצאות של בקשות נפוצות. המפתח הוא לזהות את ה-endpoints הכי "יקרים" או פופולריים. לדוגמה, בקשה לרשימת כל המוצרים בקטגוריה מסוימת. לאחר קבלת התוצאה מהדאטהבייס, שמור אותה ב-Redis עם מפתח ייחודי (למשל, `products:category:electronics`) וזמן תפוגה (TTL) סביר, נניח 10-15 דקות. בקשות עתידיות לאותו משאב יקבלו תשובה ישירות מ-Redis תוך פחות מ-50 מילישניות, במקום להעמיס על הדאטהבייס.

תדירות הרענון תלויה לחלוטין במקור הנתונים ובציפיות הלקוח. עבור נתוני מחירי מניות, הרענון צריך להיות כמעט בזמן אמת. עבור רשימת מוצרים בחנות איקומרס, רענון כל 6-12 שעות עשוי להספיק. חשוב להגדיר את ציפיות הרענון מול הלקוח ולהתחייב אליהן. בנוסף, חובה לממש endpoint של `status` שחושף את זמן ה-scrape המוצלח האחרון, כך שהלקוח יוכל לוודא בעצמו את טריות המידע שהוא צורך.

ההבדל המרכזי הוא בגמישות ובשליטה. ב-REST, השרת מגדיר מבנה תגובה קבוע לכל endpoint (למשל, `GET /products/123` תמיד יחזיר את כל פרטי המוצר). ב-GraphQL, הלקוח שולח שאילתה ומבקש רק את השדות הספציפיים שהוא צריך. זה אידיאלי כשיש לך נתונים מורכבים ומקושרים (למשל, מוצר, ביקורות, ופרטי מוכר) והלקוח רוצה לקבל הכל בקריאה אחת. עם זאת, REST פשוט משמעותית לפיתוח ותחזוקה, ולכן הוא נקודת התחלה טובה יותר ב-90% מהמקרים.

הפתרון הוא הטמעת Rate Limiting בצד השרת. מגדירים חוקים ברורים, למשל "כל מפתח API יכול לבצע עד 100 בקשות בדקה". אם לקוח חורג מהמגבלה הזו, השרת יפסיק לעבד את בקשותיו ויחזיר לו באופן מיידי שגיאת HTTP 429 (Too Many Requests). זה מגן על המשאבים שלך (CPU, דאטהבייס) ומונע מלקוח בודד, בין אם בזדון או בטעות, לפגוע בזמינות השירות עבור כל שאר הלקוחות. ספריות כמו `slowapi` עבור FastAPI מאפשרות לממש זאת בקלות.

בניית API מותאם אישית מעל מקורות נתונים שגירדת