LiteLLM: Flexibler und sicherer LLM-Zugriff für Organisationen


Bicycle

Einleitung

Mit der zunehmenden Nutzung von KI-gestützten Lösungen in Unternehmen wird es immer wichtiger, sicheren und flexiblen Zugriff auf Large Language Models (LLMs) zu ermöglichen. LiteLLM ist ein Open-Source-Werkzeug, das darauf ausgelegt ist, LLM-Zugriff für Teams, Plattform- und DevOps-Organisationen zu vereinheitlichen. Es fungiert als zentrales Gateway und erlaubt es, Cloud- und On-Premise-Modelle zu kombinieren, zu steuern und zu überwachen.

Warum LiteLLM in Ihrer Organisation einsetzen?

1. Einheitliche API für mehrere LLM-Anbieter

LiteLLM bietet einen einzigen OpenAI-kompatiblen Endpunkt – Anwendungen können dadurch ohne Codeänderungen zwischen OpenAI, Azure, Anthropic, Google, Cohere und weiteren Anbietern wechseln oder diese kombinieren.

2. Unterstützung lokaler & privater Modelle

Über die Integration lokaler Modelle (z. B. via Ollama) lassen sich sensible oder regulierte Daten intern verarbeiten:

  • Schutz vertraulicher Informationen
  • Erfüllung von Compliance- und Datenschutzanforderungen
  • Reduzierte Abhängigkeit von externen Cloud-Anbietern

3. Kostenoptimierung & Nutzungssteuerung

LiteLLM bringt Funktionen für Ratenbegrenzung, Quoten und Nutzungsmetriken mit:

  • Limits pro Nutzer oder Team
  • Modellwahl optimieren (Qualität vs. Kosten)
  • Missbrauch und ungeplante Ausgaben verhindern

4. Entwicklerfreundlich

Da die Schnittstelle OpenAI-kompatibel ist, können bestehende SDKs einfach weiterverwendet werden. So wird es leichter:

  • Von OpenAI auf lokale Modelle umzuschwenken
  • Modelle systematisch zu vergleichen
  • Eine konsistente Developer Experience zu bieten

Praxisbeispiel: Internes LLM-Gateway (OpenAI + Ollama)

Ein minimales Setup, das (1) OpenAI für hochwertige Reasoning-Aufgaben, (2) lokale Ollama-Modelle für kostensensitive oder vertrauliche Workloads bereitstellt, (3) Routing + Fallback nutzt und (4) einen einzigen OpenAI-kompatiblen Endpunkt exponiert.

Ziele

  1. Eine Basis-URL für alle Apps: http://llm-gateway.internal/v1
  2. Entwickler behalten ihre OpenAI-SDKs (nur base_url ändern).
  3. Automatischer Fallback bei Rate Limits teurer Modelle.
  4. Sensible Inhalte nur lokal verarbeiten.
  5. Grundlage für Kosten- & Governance-Mechanismen.

Verzeichnisstruktur (Vorschlag)

llm-gateway/
  .env
  docker-compose.yml
  litellm_config.yaml

.env (Beispiel)

OPENAI_API_KEY=sk-live-openai-xxxxxxxxxxxxxxxx
LITELLM_MASTER_KEY=sk-internal-master-key   # Master-Token für Service-/Admin-Aufrufe
LITELLM_PORT=4000
ENABLE_METRICS=true        # /metrics (Prometheus)
# Optional: Benutzer-/Team-Tokens separat verwalten (DB / Vault)

litellm_config.yaml

 1# Logische Modellnamen
 2model_list:
 3  - model_name: gpt-enterprise
 4    litellm_params:
 5      model: openai/gpt-4o
 6  - model_name: summarizer
 7    litellm_params:
 8      model: openai/gpt-4o-mini
 9      caching: true
10  - model_name: secure-private
11    litellm_params:
12      model: ollama/llama3
13      api_base: http://ollama:11434
14      api_key: null
15  - model_name: classification
16    litellm_params:
17      model: ollama/mistral
18      api_base: http://ollama:11434
19
20router_settings:
21  routing_strategy: usage_based_routing
22  fallback_strategy:
23    - openai/gpt-4o -> openai/gpt-4o-mini -> ollama/llama3
24
25team_config:
26  - team_id: marketing
27    max_budget: 20
28    models: [gpt-enterprise, summarizer]
29  - team_id: engineering
30    max_budget: 50
31    models: [secure-private, gpt-enterprise, classification]
32
33general_settings:
34  enable_langfuse: false
35  enable_otel: false

docker-compose.yml

 1version: '3.9'
 2services:
 3  litellm:
 4    image: ghcr.io/berriai/litellm:latest
 5    ports:
 6      - "4000:4000"
 7    env_file: .env
 8    volumes:
 9      - ./litellm_config.yaml:/app/litellm_config.yaml:ro
10    command: ["--config", "/app/litellm_config.yaml", "--port", "4000"]
11    depends_on:
12      - ollama
13  ollama:
14    image: ollama/ollama:latest
15    ports:
16      - "11434:11434"
17    volumes:
18      - ollama:/root/.ollama
19    restart: unless-stopped
20    entrypoint: ["/bin/sh","-c"]
21    command: >
22      "ollama serve & sleep 4 && \
23       ollama pull llama3 && \
24       ollama pull mistral && \
25       wait -n"
26volumes:
27  ollama: {}

Start:

docker compose up -d

Gateway: http://localhost:4000/v1 (OpenAI-kompatibel)

Requests (cURL)

Cloud-Modell:

curl -s -X POST http://localhost:4000/v1/chat/completions \
  -H "Authorization: Bearer sk-internal-master-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gpt-enterprise",
    "messages": [{"role": "user", "content": "Gib mir einen Satz zu aktuellen KI-Trends."}],
    "max_tokens": 150
  }' | jq '.choices[0].message.content'

Lokales privates Modell:

curl -s -X POST http://localhost:4000/v1/chat/completions \
  -H "Authorization: Bearer sk-internal-master-key" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "secure-private",
    "messages": [{"role": "user", "content": "Fasse diese interne Richtlinie in 3 Bullet Points zusammen: <REDACTED TEXT>"}],
    "temperature": 0.2
  }' | jq '.choices[0].message.content'

Python (OpenAI SDK)

 1from openai import OpenAI
 2client = OpenAI(api_key="sk-internal-master-key", base_url="http://localhost:4000/v1")
 3
 4resp = client.chat.completions.create(
 5    model="gpt-enterprise",
 6    messages=[{"role": "user", "content": "Erstelle eine kurze Release Note für unser neues AI-Gateway."}],
 7    max_tokens=200
 8)
 9print(resp.choices[0].message.content)
10
11secure = client.chat.completions.create(
12    model="secure-private",
13    messages=[{"role": "user", "content": "Fasse internes Dokument zusammen: <CONFIDENTIAL TEXT>"}],
14    temperature=0.3
15)
16print(secure.choices[0].message.content)

Fallback-Verhalten

Wenn openai/gpt-4o rate-limitiert wird, greift die Fallback-Kette (gpt-4o-mini → lokales Modell) – Verfügbarkeit bleibt erhalten und Kosten bleiben unter Kontrolle.

Governance & Observability – Nächste Schritte

  • Benutzer-/Team-Tokens & Quoten (z. B. Postgres + API)
  • Budgetierung & Rate Limits per Middleware
  • /metrics via Prometheus sammeln, Dashboard in Grafana
  • Redact Logging + Audit Trails (ELK / OpenTelemetry)

Warum das wichtig ist

Cloud + lokale Modelle hinter einem Gateway erlauben bewusste Modellwahl (Latenz, Kosten, Datenschutz) ohne Re-Integrationsaufwand für Entwickler.

Tipp: Starten Sie mit zwei Modellnamen (standard, secure) und erweitern Sie später.


Schneller Vergleich: Vor vs. Nach LiteLLM

ThemaOhne GatewayMit LiteLLM
API-LandschaftJeder Provider eigenes SDKEin einziger kompatibler Endpunkt
ModellwechselCode ändernKonfiguration anpassen
Lokal vs. CloudGetrennte IntegrationenVereinheitlicht
FallbackManuelle FehlerlogikDeklarative Strategie
GovernanceSkripte / Ad hocZentraler Middleware-Punkt
ObservabilityVerstreute LogsVereinheitlichte Metriken/Logs

Produktionsreif durch: TLS (Reverse Proxy), persistente Nutzungsdaten, Secret-Management (Vault / KMS), robustes Monitoring.

LiteLLM vs OpenRouter (Wenn Sie nicht selbst hosten möchten)

Falls Sie kein eigenes Gateway betreiben wollen, kann ein gehosteter Multi-Model-Broker wie OpenRouter sinnvoll sein. Kurzfassung:

Wenn Sie brauchenWahlBegründung
Lokale / private Modelle (Ollama, Air-Gap)LiteLLMRouting zu selbst gehosteten Laufzeiten nur hier möglich
Null Infrastruktur / schnellster StartOpenRouterKomplett verwaltet – ein API Key reicht
Volle Kontrolle über Logs & NetzwerkLiteLLMEigenes Deployment + eigene Compliance
Konsolidierte Abrechnung vieler ProviderOpenRouterEinheitliche Rechnung & Kostenübersicht
Custom Routing / Richtlinien (PII, Budgets)LiteLLMErweiterbar via Config & Middleware
Schnelles Modell-ExperimentierenOpenRouterGroße Modellpalette ohne Einzel-Onboarding

Hybrid-Pragmatik: LiteLLM betreiben und OpenRouter als zusätzlichen Upstream einbinden; sensible Workloads lokal halten.

DSGVO & Datenschutz-Aspekte

Der Einsatz von LiteLLM kann helfen, technische und organisatorische Maßnahmen für die DSGVO umzusetzen – er ersetzt jedoch keine rechtliche Bewertung. Wichtige Punkte:

1. Rechtsgrundlage & Zweckbindung

  • Pro Anwendungsfall (z. B. Wissensrecherche, Entwicklerassistenz) Zweck dokumentieren.
  • Personenbezogene Daten nur senden, wenn zwingend erforderlich – bevorzugt vorher anonymisieren oder pseudonymisieren.

2. Datenminimierung & Prompt-Hygiene

  • PII (Namen, E-Mails, Kundennummern) vor dem Senden filtern / maskieren.
  • Eingehende Systeme auf eine Allowlist setzen.

3. Verarbeitungsort & Datenflüsse

  • Sensible / regulierte Inhalte nur an lokale Modelle routen (secure-private).
  • Routing-Policy dokumentieren: Welche Modellklasse darf welche Datenkategorie sehen?

4. Speicherung & Aufbewahrung

  • Standard: Keine dauerhafte Speicherung von Roh-Prompts / Antworten.
  • Für Audits: Reduzierte / gehashte Logs mit definierter Löschfrist (z. B. 30–90 Tage).

5. Zugriffskontrolle

  • Pro Benutzer / Team eigene API Keys; RBAC / Least Privilege anwenden.
  • Trennung sensibler Workloads über dedizierte Modellnamen.

6. Transparenz & Betroffenenrechte

  • Interne Datenschutzinformationen um Einsatz von generativer KI ergänzen.
  • Technische Rückverfolgbarkeit (Prompt-ID / Korrelation) für Auskunfts- und Löschanfragen sicherstellen.

7. Drittanbieter & Auftragsverarbeitung

  • Für jeden externen Provider (OpenAI, Anthropic etc.): Speicherort, Logik der Weiterverarbeitung, Trainingsnutzung dokumentieren.
  • Auftragsverarbeitungsverträge (AVV/DPA) prüfen und ablegen.

8. Sicherheit

  • TLS erzwingen (intern optional mTLS) zwischen Diensten und Gateway.
  • API Keys ausschließlich in Secret Stores (Vault / KMS / Secrets Manager) vorhalten.
  • Rate Limiting + Anomalieerkennung gegen Missbrauch implementieren.

9. Logging & Observability

  • Operative Metriken (Token, Latenz) getrennt von Inhaltsdaten erfassen.
  • Identifikatoren (User-ID, Ticket-Nummern) vor Export hashen oder entfernen.

10. Lösch- / Auskunftsprozesse

  • Persistente Artefakte (Embeddings, Cache) mit reversiblen Pseudonymen taggen.
  • Admin-Tooling bereitstellen, das alle zu einer User-ID gehörenden Artefakte entfernt.

Kurz-Checkliste

KontrolleUmsetzung
Prompt-RedaktionPre-Middleware (Regex + Entity-Erkennung)
DatenresidenzRouting auf lokales Modell secure-private
ZugriffTeam-/User-Key Mapping in DB
AufbewahrungLogs mit TTL (z. B. Loki / Elasticsearch Retention)
Provider-DokumentationRegister + AVV-Ablage

Hinweis: Keine Rechtsberatung – bitte mit Datenschutzbeauftragten abstimmen.

Fazit

LiteLLM verschiebt den Fokus von einzelnen Provider-Integrationen hin zu einer steuerbaren internen Plattform für LLM-Nutzung. In Kombination mit selektivem Einsatz von OpenRouter oder direkten Provider-APIs können Sie Modellwahl exakt an Daten-Sensitivität, Latenzbedarf und Kosten ausrichten – ohne wiederholte Re-Integrationen.

Zentrale Erkenntnisse

  • Vereinheitlichung: Ein OpenAI-kompatibler Endpunkt abstrahiert Cloud-, lokale und experimentelle Modelle.
  • Steuerung: Governance (Quoten, Routing, Fallback) wandert in Konfiguration statt in Anwendungslogik.
  • Compliance: Sensible / regulierte Workloads bleiben strikt lokal, während Experimente extern möglich bleiben.
  • Resilienz & Kosten: Deklarative Fallback-Ketten + lokale Modelle puffern Ausfälle und senken Token-Kosten.

Schrittweiser Einführungspfad

Statt eines starren Zeitplans empfiehlt sich ein iteratives Reifegradmodell. Beginnen Sie schlank: Gateway mit genau einem hochwertigen Cloud-Modell und einem lokalen Datenschutz-/Kosten-Modell, lediglich zwei logische Modellnamen (z. B. standard und secure), begrenzte Metriken (Tokens, Latenz, Fehlerquoten) sowie erste API Keys pro Team. Eine einfache Prompt-Redaktion (Regex / Entity-Erkennung) reduziert frühe Risiken, während ein fokussierter Pilot-Use-Case den geschäftlichen Nutzen rasch validiert.

Anschließend horizontal erweitern – nicht überoptimieren: Deklaratives Routing und Fallback einführen, damit hochwertige Anfragen bei Engpässen automatisch auf kostengünstigere oder lokale Varianten fallen. Budgetierung, Anomalie-Alerts und ausgereiftere Observability (Dashboards, Sampling, Request-Metadaten) ergänzen Governance und Transparenz. Den Modellkatalog nur bei konkretem Bedarf ausbauen (Embeddings, Klassifikation, Zusammenfassung) und parallel Provider-Steckbriefe (Regionen, Aufbewahrung, Trainingsnutzung) sowie DSGVO-Datenflüsse dokumentieren.

Ist der Betrieb stabil und die Governance verankert, folgt die strategische Weiterentwicklung: Domänenspezifische Anpassungen oder Fine-Tuning lokaler Modelle, Retrieval-Augmentation mit Caching und Guardrails, adaptives Routing auf Basis realer Latenz-/Kosten-/Qualitätsmetriken sowie ein Self-Service-Portal für Entwickler (Schlüsselverwaltung, Quoten, Modellstatus, Nutzungsanalytik). So entsteht schrittweise eine belastbare KI-Plattform, deren Ausbau stets durch beobachteten Mehrwert statt durch spekulative Vorab-Investitionen getrieben ist.

Wenn Sie von verstreuten KI-Experimenten zu einer skalierbaren, kontrollierten Plattform übergehen wollen, bietet LiteLLM die passende Balance aus Flexibilität und Governance – bei gleichzeitig offenem Pfad für schnelle Modell-Exploration über gehostete Aggregatoren.

Zurück Unsere Trainings entdecken

Wir sind für Sie da

Sie interessieren sich für unsere Trainings oder haben einfach eine Frage, die beantwortet werden muss? Sie können uns jederzeit kontaktieren! Wir werden unser Bestes tun, um alle Ihre Fragen zu beantworten.

Hier kontaktieren