vLLM

KI & Machine Learning advanced

vLLM ist eine quelloffene Library für hocheffizientes Serving großer Sprachmodelle mit hohem Durchsatz – mit Techniken wie PagedAttention und einer OpenAI-kompatiblen API für selbstgehostete Inferenz.

Kurzfassung

vLLM ist eine quelloffene Library, um große Sprachmodelle mit hohem Durchsatz und effizientem Speichereinsatz zu betreiben. Ursprünglich an der UC Berkeley entwickelt, wird sie breit eingesetzt, um Open-Weight-Modelle in Produktion selbst zu hosten, und stellt eine OpenAI-kompatible HTTP-API bereit, sodass bestehende Anwendungen mit minimalen Änderungen darauf zeigen können.

Was ist vLLM?

Die Kerninnovation von vLLM ist PagedAttention – eine Technik, die den Attention-Key/Value-Cache des Modells ähnlich verwaltet wie virtueller Speicher den RAM, Verschwendung reduziert und es erlaubt, viele Anfragen gleichzeitig zu bedienen. In Kombination mit Funktionen wie Continuous Batching, Speculative Decoding und Prefix-Caching erreicht vLLM so hohen Durchsatz für produktive Inferenz-Workloads.

Es läuft auf einer breiten Palette von Hardware (NVIDIA, AMD, Intel, Arm und dedizierte Beschleuniger) und unterstützt verteilte Inferenz über mehrere GPUs und Nodes hinweg, was es für souveränes LLM-Serving nützlich macht, das nicht an einen einzelnen Hyperscaler gebunden ist. Da es eine OpenAI-kompatible API spricht, kann eine ursprünglich gegen ein Cloud-LLM geschriebene Anwendung oft auf ein selbstgehostetes vLLM-Backend wechseln, indem kaum mehr als die Base-URL geändert wird. Während Ollama auf einfaches lokales Experimentieren zielt, zielt vLLM auf produktionsreifes Serving mit hohem Durchsatz.

Warum ist vLLM relevant?

  • Hoher Durchsatz: PagedAttention und Continuous Batching bedienen viele gleichzeitige Anfragen effizient
  • Selbstgehostet und souverän: Open-Weight-Modelle auf eigener Hardware betreiben, frei von Hyperscaler-Abhängigkeit
  • Drop-in-API: Ein OpenAI-kompatibler Endpunkt lässt bestehende Apps mit minimaler Änderung das Backend wechseln
  • Hardware-Flexibilität: Breite Beschleuniger-Unterstützung und verteilte Inferenz zur Skalierung

Wir sind für Sie da

Sie interessieren sich für unsere Trainings oder haben einfach eine Frage, die beantwortet werden muss? Sie können uns jederzeit kontaktieren! Wir werden unser Bestes tun, um alle Ihre Fragen zu beantworten.

Hier kontaktieren