Technique Aktualisiert 2026-04
KI-Inferenz
AI Inference
Definition
Inferenz ist der Prozess, bei dem ein trainiertes KI-Modell verwendet wird, um aus neuen Daten Vorhersagen oder Antworten zu generieren.
Siehe auch im Glossar
L
LLM (Large Language Model)
Ein LLM ist ein KI-Modell, das auf Milliarden von Texten trainiert wurde und in der Lage ist, menschliche Sprache zu verstehen und zu generieren.
T
Token
Ein Token ist die grundlegende Einheit, die ein LLM verarbeitet. Es handelt sich um ein Wortteil, ein Satzzeichen oder ein Zeichen, das das Modell nutzt, um Text zu verstehen und zu generieren.
K
KI-API
Eine KI-API ermöglicht Entwicklern, künstliche Intelligenz in ihre Anwendungen zu integrieren.
G
GPU Cloud
GPU Cloud stellt On-Demand-Grafikprozessoren zum Trainieren und Betreiben von KI-Modellen bereit – ganz ohne eigene Hardware-Investitionen.
Tools, die ki-inferenz verwenden
Häufig gestellte Fragen
Was ist der Unterschied zwischen Training und Inferenz?
Beim Training wird das Modell erstellt (aufwendig, einmalig). Bei der Inferenz wird das Modell genutzt, um zu antworten (günstiger, pro Anfrage). Wenn Sie ChatGPT eine Frage stellen, ist das Inferenz.
Warum kostet Inferenz Geld?
Jede Anfrage erfordert GPU-Rechenleistung. Je länger die Antwort und je größer das Modell, desto teurer. Deshalb berechnen APIs Kosten pro Token.