Technique Aktualisiert 2026-04

KI-Inferenz

AI Inference

Definition

Inferenz ist der Prozess, bei dem ein trainiertes KI-Modell verwendet wird, um aus neuen Daten Vorhersagen oder Antworten zu generieren.

Siehe auch im Glossar

LLM (Large Language Model)

Ein LLM ist ein KI-Modell, das auf Milliarden von Texten trainiert wurde und in der Lage ist, menschliche Sprache zu verstehen und zu generieren.

Token

Ein Token ist die grundlegende Einheit, die ein LLM verarbeitet. Es handelt sich um ein Wortteil, ein Satzzeichen oder ein Zeichen, das das Modell nutzt, um Text zu verstehen und zu generieren.

KI-API

Eine KI-API ermöglicht Entwicklern, künstliche Intelligenz in ihre Anwendungen zu integrieren.

GPU Cloud

GPU Cloud stellt On-Demand-Grafikprozessoren zum Trainieren und Betreiben von KI-Modellen bereit – ganz ohne eigene Hardware-Investitionen.

Tools, die ki-inferenz verwenden

ChatGPT

Der weltweit meistgenutzte KI-Konversationsassistent

4.6/5

Claude

Die KI, die Nuancen versteht – von Anthropic

4.7/5

RunPod

GPU-Cloud für das Deployment Ihrer KI-Anwendungen

4.6/5

DeepSeek

Das chinesische Open-Source-Modell auf GPT-4-Niveau

4.7/5

Häufig gestellte Fragen

Was ist der Unterschied zwischen Training und Inferenz?

Beim Training wird das Modell erstellt (aufwendig, einmalig). Bei der Inferenz wird das Modell genutzt, um zu antworten (günstiger, pro Anfrage). Wenn Sie ChatGPT eine Frage stellen, ist das Inferenz.

Warum kostet Inferenz Geld?

Jede Anfrage erfordert GPU-Rechenleistung. Je länger die Antwort und je größer das Modell, desto teurer. Deshalb berechnen APIs Kosten pro Token.