LiteLLM: Flexibler und sicherer LLM-Zugriff für Organisationen
Einleitung Mit der zunehmenden Nutzung von KI-gestützten Lösungen in Unternehmen wird es immer wichtiger, sicheren und flexiblen Zugriff auf Large Language
Mit der zunehmenden Nutzung von KI-gestützten Lösungen in Unternehmen wird es immer wichtiger, sicheren und flexiblen Zugriff auf Large Language Models (LLMs) zu ermöglichen. LiteLLM ist ein Open-Source-Werkzeug, das darauf ausgelegt ist, LLM-Zugriff für Teams, Plattform- und DevOps-Organisationen zu vereinheitlichen. Es fungiert als zentrales Gateway und erlaubt es, Cloud- und On-Premise-Modelle zu kombinieren, zu steuern und zu überwachen.
LiteLLM bietet einen einzigen OpenAI-kompatiblen Endpunkt – Anwendungen können dadurch ohne Codeänderungen zwischen OpenAI, Azure, Anthropic, Google, Cohere und weiteren Anbietern wechseln oder diese kombinieren.
Über die Integration lokaler Modelle (z. B. via Ollama) lassen sich sensible oder regulierte Daten intern verarbeiten:
LiteLLM bringt Funktionen für Ratenbegrenzung, Quoten und Nutzungsmetriken mit:
Da die Schnittstelle OpenAI-kompatibel ist, können bestehende SDKs einfach weiterverwendet werden. So wird es leichter:
Ein minimales Setup, das (1) OpenAI für hochwertige Reasoning-Aufgaben, (2) lokale Ollama-Modelle für kostensensitive oder vertrauliche Workloads bereitstellt, (3) Routing + Fallback nutzt und (4) einen einzigen OpenAI-kompatiblen Endpunkt exponiert.
http://llm-gateway.internal/v1
base_url
ändern).llm-gateway/
.env
docker-compose.yml
litellm_config.yaml
.env
(Beispiel)OPENAI_API_KEY=sk-live-openai-xxxxxxxxxxxxxxxx
LITELLM_MASTER_KEY=sk-internal-master-key # Master-Token für Service-/Admin-Aufrufe
LITELLM_PORT=4000
ENABLE_METRICS=true # /metrics (Prometheus)
# Optional: Benutzer-/Team-Tokens separat verwalten (DB / Vault)
litellm_config.yaml
1# Logische Modellnamen
2model_list:
3 - model_name: gpt-enterprise
4 litellm_params:
5 model: openai/gpt-4o
6 - model_name: summarizer
7 litellm_params:
8 model: openai/gpt-4o-mini
9 caching: true
10 - model_name: secure-private
11 litellm_params:
12 model: ollama/llama3
13 api_base: http://ollama:11434
14 api_key: null
15 - model_name: classification
16 litellm_params:
17 model: ollama/mistral
18 api_base: http://ollama:11434
19
20router_settings:
21 routing_strategy: usage_based_routing
22 fallback_strategy:
23 - openai/gpt-4o -> openai/gpt-4o-mini -> ollama/llama3
24
25team_config:
26 - team_id: marketing
27 max_budget: 20
28 models: [gpt-enterprise, summarizer]
29 - team_id: engineering
30 max_budget: 50
31 models: [secure-private, gpt-enterprise, classification]
32
33general_settings:
34 enable_langfuse: false
35 enable_otel: false
docker-compose.yml
1version: '3.9'
2services:
3 litellm:
4 image: ghcr.io/berriai/litellm:latest
5 ports:
6 - "4000:4000"
7 env_file: .env
8 volumes:
9 - ./litellm_config.yaml:/app/litellm_config.yaml:ro
10 command: ["--config", "/app/litellm_config.yaml", "--port", "4000"]
11 depends_on:
12 - ollama
13 ollama:
14 image: ollama/ollama:latest
15 ports:
16 - "11434:11434"
17 volumes:
18 - ollama:/root/.ollama
19 restart: unless-stopped
20 entrypoint: ["/bin/sh","-c"]
21 command: >
22 "ollama serve & sleep 4 && \
23 ollama pull llama3 && \
24 ollama pull mistral && \
25 wait -n"
26volumes:
27 ollama: {}
Start:
docker compose up -d
Gateway: http://localhost:4000/v1
(OpenAI-kompatibel)
Cloud-Modell:
curl -s -X POST http://localhost:4000/v1/chat/completions \
-H "Authorization: Bearer sk-internal-master-key" \
-H "Content-Type: application/json" \
-d '{
"model": "gpt-enterprise",
"messages": [{"role": "user", "content": "Gib mir einen Satz zu aktuellen KI-Trends."}],
"max_tokens": 150
}' | jq '.choices[0].message.content'
Lokales privates Modell:
curl -s -X POST http://localhost:4000/v1/chat/completions \
-H "Authorization: Bearer sk-internal-master-key" \
-H "Content-Type: application/json" \
-d '{
"model": "secure-private",
"messages": [{"role": "user", "content": "Fasse diese interne Richtlinie in 3 Bullet Points zusammen: <REDACTED TEXT>"}],
"temperature": 0.2
}' | jq '.choices[0].message.content'
1from openai import OpenAI
2client = OpenAI(api_key="sk-internal-master-key", base_url="http://localhost:4000/v1")
3
4resp = client.chat.completions.create(
5 model="gpt-enterprise",
6 messages=[{"role": "user", "content": "Erstelle eine kurze Release Note für unser neues AI-Gateway."}],
7 max_tokens=200
8)
9print(resp.choices[0].message.content)
10
11secure = client.chat.completions.create(
12 model="secure-private",
13 messages=[{"role": "user", "content": "Fasse internes Dokument zusammen: <CONFIDENTIAL TEXT>"}],
14 temperature=0.3
15)
16print(secure.choices[0].message.content)
Wenn openai/gpt-4o
rate-limitiert wird, greift die Fallback-Kette (gpt-4o-mini
→ lokales Modell) – Verfügbarkeit bleibt erhalten und Kosten bleiben unter Kontrolle.
/metrics
via Prometheus sammeln, Dashboard in GrafanaCloud + lokale Modelle hinter einem Gateway erlauben bewusste Modellwahl (Latenz, Kosten, Datenschutz) ohne Re-Integrationsaufwand für Entwickler.
Tipp: Starten Sie mit zwei Modellnamen (
standard
,secure
) und erweitern Sie später.
Thema | Ohne Gateway | Mit LiteLLM |
---|---|---|
API-Landschaft | Jeder Provider eigenes SDK | Ein einziger kompatibler Endpunkt |
Modellwechsel | Code ändern | Konfiguration anpassen |
Lokal vs. Cloud | Getrennte Integrationen | Vereinheitlicht |
Fallback | Manuelle Fehlerlogik | Deklarative Strategie |
Governance | Skripte / Ad hoc | Zentraler Middleware-Punkt |
Observability | Verstreute Logs | Vereinheitlichte Metriken/Logs |
Produktionsreif durch: TLS (Reverse Proxy), persistente Nutzungsdaten, Secret-Management (Vault / KMS), robustes Monitoring.
Falls Sie kein eigenes Gateway betreiben wollen, kann ein gehosteter Multi-Model-Broker wie OpenRouter sinnvoll sein. Kurzfassung:
Wenn Sie brauchen | Wahl | Begründung |
---|---|---|
Lokale / private Modelle (Ollama, Air-Gap) | LiteLLM | Routing zu selbst gehosteten Laufzeiten nur hier möglich |
Null Infrastruktur / schnellster Start | OpenRouter | Komplett verwaltet – ein API Key reicht |
Volle Kontrolle über Logs & Netzwerk | LiteLLM | Eigenes Deployment + eigene Compliance |
Konsolidierte Abrechnung vieler Provider | OpenRouter | Einheitliche Rechnung & Kostenübersicht |
Custom Routing / Richtlinien (PII, Budgets) | LiteLLM | Erweiterbar via Config & Middleware |
Schnelles Modell-Experimentieren | OpenRouter | Große Modellpalette ohne Einzel-Onboarding |
Hybrid-Pragmatik: LiteLLM betreiben und OpenRouter als zusätzlichen Upstream einbinden; sensible Workloads lokal halten.
Der Einsatz von LiteLLM kann helfen, technische und organisatorische Maßnahmen für die DSGVO umzusetzen – er ersetzt jedoch keine rechtliche Bewertung. Wichtige Punkte:
secure-private
).Kontrolle | Umsetzung |
---|---|
Prompt-Redaktion | Pre-Middleware (Regex + Entity-Erkennung) |
Datenresidenz | Routing auf lokales Modell secure-private |
Zugriff | Team-/User-Key Mapping in DB |
Aufbewahrung | Logs mit TTL (z. B. Loki / Elasticsearch Retention) |
Provider-Dokumentation | Register + AVV-Ablage |
Hinweis: Keine Rechtsberatung – bitte mit Datenschutzbeauftragten abstimmen.
LiteLLM verschiebt den Fokus von einzelnen Provider-Integrationen hin zu einer steuerbaren internen Plattform für LLM-Nutzung. In Kombination mit selektivem Einsatz von OpenRouter oder direkten Provider-APIs können Sie Modellwahl exakt an Daten-Sensitivität, Latenzbedarf und Kosten ausrichten – ohne wiederholte Re-Integrationen.
Statt eines starren Zeitplans empfiehlt sich ein iteratives Reifegradmodell. Beginnen Sie schlank: Gateway mit genau einem hochwertigen Cloud-Modell und einem lokalen Datenschutz-/Kosten-Modell, lediglich zwei logische Modellnamen (z. B. standard
und secure
), begrenzte Metriken (Tokens, Latenz, Fehlerquoten) sowie erste API Keys pro Team. Eine einfache Prompt-Redaktion (Regex / Entity-Erkennung) reduziert frühe Risiken, während ein fokussierter Pilot-Use-Case den geschäftlichen Nutzen rasch validiert.
Anschließend horizontal erweitern – nicht überoptimieren: Deklaratives Routing und Fallback einführen, damit hochwertige Anfragen bei Engpässen automatisch auf kostengünstigere oder lokale Varianten fallen. Budgetierung, Anomalie-Alerts und ausgereiftere Observability (Dashboards, Sampling, Request-Metadaten) ergänzen Governance und Transparenz. Den Modellkatalog nur bei konkretem Bedarf ausbauen (Embeddings, Klassifikation, Zusammenfassung) und parallel Provider-Steckbriefe (Regionen, Aufbewahrung, Trainingsnutzung) sowie DSGVO-Datenflüsse dokumentieren.
Ist der Betrieb stabil und die Governance verankert, folgt die strategische Weiterentwicklung: Domänenspezifische Anpassungen oder Fine-Tuning lokaler Modelle, Retrieval-Augmentation mit Caching und Guardrails, adaptives Routing auf Basis realer Latenz-/Kosten-/Qualitätsmetriken sowie ein Self-Service-Portal für Entwickler (Schlüsselverwaltung, Quoten, Modellstatus, Nutzungsanalytik). So entsteht schrittweise eine belastbare KI-Plattform, deren Ausbau stets durch beobachteten Mehrwert statt durch spekulative Vorab-Investitionen getrieben ist.
Wenn Sie von verstreuten KI-Experimenten zu einer skalierbaren, kontrollierten Plattform übergehen wollen, bietet LiteLLM die passende Balance aus Flexibilität und Governance – bei gleichzeitig offenem Pfad für schnelle Modell-Exploration über gehostete Aggregatoren.
Sie interessieren sich für unsere Trainings oder haben einfach eine Frage, die beantwortet werden muss? Sie können uns jederzeit kontaktieren! Wir werden unser Bestes tun, um alle Ihre Fragen zu beantworten.
Hier kontaktieren