Glossar · KI Film Agentur

Glossar KI-Video — Begriffe, die im Briefing wirklich fallen.

Von Diffusion bis EU AI Act: 35 kuratierte Definitionen, geschrieben für Geschäftsführung, Marketing und Einkauf. Verlinkt aus unserem Pillar-Guide KI-Video.

Modelle

Veo 3 (Google)Cineastisches Top-Modell mit nativem Ton.
Aktuell stärkstes Modell für Hero- und Imagefilm. Liefert 4K, Kamerafahrten und nativen Sound im selben Render.

Detail: Veo 3 im Überblick.

Kling 2.0 (Kuaishou)Lange kohärente Einstellungen, starke Physik.
Chinesisches Modell mit besonderer Stärke bei realistischer Bewegung, Wasser, Stoff und Industrie-Mechanik.

Detail: Kling 2 im Überblick.

Runway Gen-4Bester Editor und Style-Reference-Workflow.
Marktführer im westlichen Markt für Werbung und Performance-Cuts.

Detail: Runway Gen-4 im Überblick.

Seedance (ByteDance)Preisleistung für Volumen-Produktion.
Schnell und günstig, ideal für Social-Cuts und Animatics.

Detail: Seedance im Überblick.

Sora (OpenAI)Wegbereiter der aktuellen Generation.
Erstes Modell mit kinoreifer Bildqualität. Heute eines von mehreren Top-Modellen, nicht mehr eindeutig führend.
HeyGen / SynthesiaAvatar-Plattformen für Talking-Head-Videos.
Spezialisiert auf sprechende Avatare. Sinnvoll für Tutorials und Onboarding, nicht für cineastische Filme.

Technik

Text-to-Video (T2V)Aus Textprompt entsteht ein Video.
Eingabe eines natürlichsprachigen Prompts erzeugt einen Videoclip ohne weiteres Ausgangsmaterial. Stärke: schnelle Iteration. Schwäche: weniger Kontrolle über exakte Komposition.
Image-to-Video (I2V)Aus einem Standbild wird ein bewegter Clip.
Ausgangsbild (Foto, Render, Storyboard-Frame) wird animiert. Standardmethode in der professionellen Produktion, weil sie maximale Kontrolle über Look und Komposition bietet.

Detail: Image-to-Video erklärt.

Video-to-Video (V2V)Bestehender Clip wird stilistisch transformiert.
Real- oder Render-Footage wird in einen neuen Look übersetzt (Stilisierung, Restyling, Re-Lighting). Bewegung bleibt erhalten, Optik ändert sich.
Diffusion-ModellLernt Bildgenerierung durch schrittweises Entrauschen.
Trainiert wird, Rauschen aus Bildern zu entfernen. In der Inferenz startet das Modell mit reinem Rauschen und erzeugt Frame für Frame ein kohärentes Bild. Basis der meisten Video-Modelle.
Transformer (DiT)Architektur hinter Sora, Veo und Kling.
Diffusion-Transformer-Modelle ersetzen klassische U-Nets durch Attention-Mechanismen. Sie skalieren besser mit Datenmenge und liefern längere kohärente Sequenzen.
Negative PromptWas im Bild explizit vermieden werden soll.
Eingabe von unerwünschten Elementen (z. B. extra Finger, Wasserzeichen, verwaschene Texturen), die das Modell aktiv vermeidet.
SeedZufalls-Startwert für reproduzierbare Outputs.
Ein numerischer Seed fixiert die Zufallskomponente. Gleicher Prompt + gleicher Seed = (annähernd) gleiches Ergebnis. Essenziell für gezielte Iterationen statt Glücksspiel.
ControlNetSteuert die Geometrie eines generierten Frames.
Zusatzmodell, das Bildkomposition über Tiefenkarten, Kantenbilder oder Skelette vorgibt. Macht aus 'kreativer Lotterie' reproduzierbare Bildregie.
LoRALeichtgewichtiges Spezialtraining auf Marken-Look.
Low-Rank Adaptation trainiert ein Basismodell auf einen spezifischen Stil, eine Person oder ein Produkt, ohne das gesamte Modell neu zu trainieren.
Frame-InterpolationZusätzliche Zwischenbilder für flüssigere Bewegung.
Aus 24 fps werden 60 oder 120 fps berechnet. Notwendig bei Slow-Motion oder hochfrequenten Displays.
Voice-CloningKI-Stimme aus Sprachprobe einer realen Person.
Rechtlich nur mit ausdrücklicher Einwilligung. Lizenzierte Stimmen sind die DSGVO-konforme Standardroute.
RenderBerechnung eines Frames oder Clips durch das Modell.
Ein Render dauert 30 Sekunden bis 10 Minuten pro Clip.

Workflow

KI-VideoBewegtbild aus generativen KI-Modellen.
Sammelbegriff für Videos, die mit generativen Modellen (Diffusion, Transformer) erzeugt werden — vollständig synthetisch oder hybrid mit realem Material.

Tiefer einsteigen: Pillar-Guide KI-Video oder direkt KI-Video Beispiele.

KI-FilmLängere, narrativ aufgebaute KI-Produktion.
Im Markt häufig verwendet für Imagefilme, Kurzfilme oder Stories mit cineastischer Bildsprache. Technisch identisch zu KI-Video, sprachlich akzentverschoben.

Cineastische Beispiele aus unserer Produktion: KI-Filmbeispiele ansehen.

Prompt-EngineeringGezielte Formulierung der Modell-Eingaben.
Beschreibt Szene, Kamera, Licht, Stil und Bewegung präzise genug, damit das Modell den gewünschten Frame erzeugt. In der Produktion mindestens so wichtig wie klassische Bildregie.

Vorlage: Prompt-Sheet.

UpscalingKI-gestützte Vergrößerung auf höhere Auflösung.
Erzeugte Frames (typisch 720p–1080p) werden auf 4K hochskaliert, ohne sichtbare Unschärfe. Topaz Video AI und ähnliche Tools sind Branchenstandard.
Konsistenz-PipelineHält Personen/Produkte über mehrere Szenen identisch.
Kombination aus LoRA, Reference-Image-Conditioning und manueller Nacharbeit.

Praxisbeispiel: KI-Produktvideo Industrie.

VFX / CompositingNachträgliche Bildbearbeitung und Ebenen-Komposition.
Kombination aus KI-Renders, Real-Footage, Grafik und Text. Standardtools: DaVinci Fusion, After Effects, Nuke.
Color-GradingFarbliche Gestaltung des fertigen Films.
Bestimmt Stimmung und Markenanmutung. KI-Renders werden in DaVinci Resolve gegradet wie klassisches Footage.
Sound-DesignAtmo, SFX, Musik und Stimme.
Mindestens 30 % der wahrgenommenen Qualität eines Films.
Lip-SyncLippensynchronität bei Lokalisierung.
Tools wie Sync.so oder Rask passen Mundbewegungen an die Zielsprache an.

Detail: Lip-Sync erklärt.

StoryboardBild-für-Bild-Skizze des Films vor der Produktion.
Jedes Storyboard-Panel wird später zum I2V-Startframe.
SzeneInhaltlich zusammenhängende Bildfolge an einem Ort.
Eine Szene besteht aus mehreren Einstellungen (Shots).
Shot / EinstellungEin durchgehender Clip von Schnitt zu Schnitt.
Bei aktuellen KI-Modellen 4–10 Sekunden stabil.

Recht

EU AI ActEU-Verordnung 2024/1689 zu KI-Systemen.
Artikel 50 (ab August 2026) verlangt Kennzeichnung synthetischer Inhalte.
C2PAStandard für Content-Provenance-Metadaten.
Eingebettete Metadaten dokumentieren Herkunft und Bearbeitungsschritte.
DSGVO bei KI-VideoVerarbeitung personenbezogener Daten bei KI-Renders.
Erkennbare reale Personen brauchen eine Rechtsgrundlage. Datenhaltung in der EU, AVV, Trainings-Opt-out sind Pflicht.
AVVAuftragsverarbeitungsvertrag nach DSGVO Art. 28.
Vertrag zwischen Auftraggeber und Agentur.

Marketing

Aspect RatioBildformat des fertigen Clips.
Üblich: 16:9, 9:16, 1:1, 21:9. Pro Kanal eigener Cut, aus einem Master.