Glossar · KI Film Agentur

Glossar KI-Video — Begriffe, die im Briefing wirklich fallen.

Von Diffusion bis EU AI Act: 35 kuratierte Definitionen, geschrieben für Geschäftsführung, Marketing und Einkauf. Verlinkt aus unserem Pillar-Guide KI-Video.

Modelle Technik Workflow Recht Marketing

Modelle

Veo 3 (Google)Cineastisches Top-Modell mit nativem Ton.: Aktuell stärkstes Modell für Hero- und Imagefilm. Liefert 4K, Kamerafahrten und nativen Sound im selben Render.
Detail: Veo 3 im Überblick.
Kling 2.0 (Kuaishou)Lange kohärente Einstellungen, starke Physik.: Chinesisches Modell mit besonderer Stärke bei realistischer Bewegung, Wasser, Stoff und Industrie-Mechanik.
Detail: Kling 2 im Überblick.
Runway Gen-4Bester Editor und Style-Reference-Workflow.: Marktführer im westlichen Markt für Werbung und Performance-Cuts.
Detail: Runway Gen-4 im Überblick.
Seedance (ByteDance)Preisleistung für Volumen-Produktion.: Schnell und günstig, ideal für Social-Cuts und Animatics.
Detail: Seedance im Überblick.
Sora (OpenAI)Wegbereiter der aktuellen Generation.: Erstes Modell mit kinoreifer Bildqualität. Heute eines von mehreren Top-Modellen, nicht mehr eindeutig führend.
HeyGen / SynthesiaAvatar-Plattformen für Talking-Head-Videos.: Spezialisiert auf sprechende Avatare. Sinnvoll für Tutorials und Onboarding, nicht für cineastische Filme.

Technik

Text-to-Video (T2V)Aus Textprompt entsteht ein Video.: Eingabe eines natürlichsprachigen Prompts erzeugt einen Videoclip ohne weiteres Ausgangsmaterial. Stärke: schnelle Iteration. Schwäche: weniger Kontrolle über exakte Komposition.
Image-to-Video (I2V)Aus einem Standbild wird ein bewegter Clip.: Ausgangsbild (Foto, Render, Storyboard-Frame) wird animiert. Standardmethode in der professionellen Produktion, weil sie maximale Kontrolle über Look und Komposition bietet.
Detail: Image-to-Video erklärt.
Video-to-Video (V2V)Bestehender Clip wird stilistisch transformiert.: Real- oder Render-Footage wird in einen neuen Look übersetzt (Stilisierung, Restyling, Re-Lighting). Bewegung bleibt erhalten, Optik ändert sich.
Diffusion-ModellLernt Bildgenerierung durch schrittweises Entrauschen.: Trainiert wird, Rauschen aus Bildern zu entfernen. In der Inferenz startet das Modell mit reinem Rauschen und erzeugt Frame für Frame ein kohärentes Bild. Basis der meisten Video-Modelle.
Transformer (DiT)Architektur hinter Sora, Veo und Kling.: Diffusion-Transformer-Modelle ersetzen klassische U-Nets durch Attention-Mechanismen. Sie skalieren besser mit Datenmenge und liefern längere kohärente Sequenzen.
Negative PromptWas im Bild explizit vermieden werden soll.: Eingabe von unerwünschten Elementen (z. B. extra Finger, Wasserzeichen, verwaschene Texturen), die das Modell aktiv vermeidet.
SeedZufalls-Startwert für reproduzierbare Outputs.: Ein numerischer Seed fixiert die Zufallskomponente. Gleicher Prompt + gleicher Seed = (annähernd) gleiches Ergebnis. Essenziell für gezielte Iterationen statt Glücksspiel.
ControlNetSteuert die Geometrie eines generierten Frames.: Zusatzmodell, das Bildkomposition über Tiefenkarten, Kantenbilder oder Skelette vorgibt. Macht aus 'kreativer Lotterie' reproduzierbare Bildregie.
LoRALeichtgewichtiges Spezialtraining auf Marken-Look.: Low-Rank Adaptation trainiert ein Basismodell auf einen spezifischen Stil, eine Person oder ein Produkt, ohne das gesamte Modell neu zu trainieren.
Frame-InterpolationZusätzliche Zwischenbilder für flüssigere Bewegung.: Aus 24 fps werden 60 oder 120 fps berechnet. Notwendig bei Slow-Motion oder hochfrequenten Displays.
Voice-CloningKI-Stimme aus Sprachprobe einer realen Person.: Rechtlich nur mit ausdrücklicher Einwilligung. Lizenzierte Stimmen sind die DSGVO-konforme Standardroute.
RenderBerechnung eines Frames oder Clips durch das Modell.: Ein Render dauert 30 Sekunden bis 10 Minuten pro Clip.

Workflow

KI-VideoBewegtbild aus generativen KI-Modellen.: Sammelbegriff für Videos, die mit generativen Modellen (Diffusion, Transformer) erzeugt werden — vollständig synthetisch oder hybrid mit realem Material.
Tiefer einsteigen: Pillar-Guide KI-Video oder direkt KI-Video Beispiele.
KI-FilmLängere, narrativ aufgebaute KI-Produktion.: Im Markt häufig verwendet für Imagefilme, Kurzfilme oder Stories mit cineastischer Bildsprache. Technisch identisch zu KI-Video, sprachlich akzentverschoben.
Cineastische Beispiele aus unserer Produktion: KI-Filmbeispiele ansehen.
Prompt-EngineeringGezielte Formulierung der Modell-Eingaben.: Beschreibt Szene, Kamera, Licht, Stil und Bewegung präzise genug, damit das Modell den gewünschten Frame erzeugt. In der Produktion mindestens so wichtig wie klassische Bildregie.
Vorlage: Prompt-Sheet.
UpscalingKI-gestützte Vergrößerung auf höhere Auflösung.: Erzeugte Frames (typisch 720p–1080p) werden auf 4K hochskaliert, ohne sichtbare Unschärfe. Topaz Video AI und ähnliche Tools sind Branchenstandard.
Konsistenz-PipelineHält Personen/Produkte über mehrere Szenen identisch.: Kombination aus LoRA, Reference-Image-Conditioning und manueller Nacharbeit.
Praxisbeispiel: KI-Produktvideo Industrie.
VFX / CompositingNachträgliche Bildbearbeitung und Ebenen-Komposition.: Kombination aus KI-Renders, Real-Footage, Grafik und Text. Standardtools: DaVinci Fusion, After Effects, Nuke.
Color-GradingFarbliche Gestaltung des fertigen Films.: Bestimmt Stimmung und Markenanmutung. KI-Renders werden in DaVinci Resolve gegradet wie klassisches Footage.
Sound-DesignAtmo, SFX, Musik und Stimme.: Mindestens 30 % der wahrgenommenen Qualität eines Films.
Lip-SyncLippensynchronität bei Lokalisierung.: Tools wie Sync.so oder Rask passen Mundbewegungen an die Zielsprache an.
Detail: Lip-Sync erklärt.
StoryboardBild-für-Bild-Skizze des Films vor der Produktion.: Jedes Storyboard-Panel wird später zum I2V-Startframe.
SzeneInhaltlich zusammenhängende Bildfolge an einem Ort.: Eine Szene besteht aus mehreren Einstellungen (Shots).
Shot / EinstellungEin durchgehender Clip von Schnitt zu Schnitt.: Bei aktuellen KI-Modellen 4–10 Sekunden stabil.

Recht

EU AI ActEU-Verordnung 2024/1689 zu KI-Systemen.: Artikel 50 (ab August 2026) verlangt Kennzeichnung synthetischer Inhalte.
C2PAStandard für Content-Provenance-Metadaten.: Eingebettete Metadaten dokumentieren Herkunft und Bearbeitungsschritte.
DSGVO bei KI-VideoVerarbeitung personenbezogener Daten bei KI-Renders.: Erkennbare reale Personen brauchen eine Rechtsgrundlage. Datenhaltung in der EU, AVV, Trainings-Opt-out sind Pflicht.
AVVAuftragsverarbeitungsvertrag nach DSGVO Art. 28.: Vertrag zwischen Auftraggeber und Agentur.

Marketing

Aspect RatioBildformat des fertigen Clips.: Üblich: 16:9, 9:16, 1:1, 21:9. Pro Kanal eigener Cut, aus einem Master.