Glossar · KI Film Agentur
Glossar KI-Video — Begriffe, die im Briefing wirklich fallen.
Von Diffusion bis EU AI Act: 35 kuratierte Definitionen, geschrieben für Geschäftsführung, Marketing und Einkauf. Verlinkt aus unserem Pillar-Guide KI-Video.
Modelle
- Veo 3 (Google)Cineastisches Top-Modell mit nativem Ton.
- Aktuell stärkstes Modell für Hero- und Imagefilm. Liefert 4K, Kamerafahrten und nativen Sound im selben Render.
Detail: Veo 3 im Überblick.
- Kling 2.0 (Kuaishou)Lange kohärente Einstellungen, starke Physik.
- Chinesisches Modell mit besonderer Stärke bei realistischer Bewegung, Wasser, Stoff und Industrie-Mechanik.
Detail: Kling 2 im Überblick.
- Runway Gen-4Bester Editor und Style-Reference-Workflow.
- Marktführer im westlichen Markt für Werbung und Performance-Cuts.
Detail: Runway Gen-4 im Überblick.
- Seedance (ByteDance)Preisleistung für Volumen-Produktion.
- Schnell und günstig, ideal für Social-Cuts und Animatics.
Detail: Seedance im Überblick.
- Sora (OpenAI)Wegbereiter der aktuellen Generation.
- Erstes Modell mit kinoreifer Bildqualität. Heute eines von mehreren Top-Modellen, nicht mehr eindeutig führend.
- HeyGen / SynthesiaAvatar-Plattformen für Talking-Head-Videos.
- Spezialisiert auf sprechende Avatare. Sinnvoll für Tutorials und Onboarding, nicht für cineastische Filme.
Technik
- Text-to-Video (T2V)Aus Textprompt entsteht ein Video.
- Eingabe eines natürlichsprachigen Prompts erzeugt einen Videoclip ohne weiteres Ausgangsmaterial. Stärke: schnelle Iteration. Schwäche: weniger Kontrolle über exakte Komposition.
- Image-to-Video (I2V)Aus einem Standbild wird ein bewegter Clip.
- Ausgangsbild (Foto, Render, Storyboard-Frame) wird animiert. Standardmethode in der professionellen Produktion, weil sie maximale Kontrolle über Look und Komposition bietet.
Detail: Image-to-Video erklärt.
- Video-to-Video (V2V)Bestehender Clip wird stilistisch transformiert.
- Real- oder Render-Footage wird in einen neuen Look übersetzt (Stilisierung, Restyling, Re-Lighting). Bewegung bleibt erhalten, Optik ändert sich.
- Diffusion-ModellLernt Bildgenerierung durch schrittweises Entrauschen.
- Trainiert wird, Rauschen aus Bildern zu entfernen. In der Inferenz startet das Modell mit reinem Rauschen und erzeugt Frame für Frame ein kohärentes Bild. Basis der meisten Video-Modelle.
- Transformer (DiT)Architektur hinter Sora, Veo und Kling.
- Diffusion-Transformer-Modelle ersetzen klassische U-Nets durch Attention-Mechanismen. Sie skalieren besser mit Datenmenge und liefern längere kohärente Sequenzen.
- Negative PromptWas im Bild explizit vermieden werden soll.
- Eingabe von unerwünschten Elementen (z. B. extra Finger, Wasserzeichen, verwaschene Texturen), die das Modell aktiv vermeidet.
- SeedZufalls-Startwert für reproduzierbare Outputs.
- Ein numerischer Seed fixiert die Zufallskomponente. Gleicher Prompt + gleicher Seed = (annähernd) gleiches Ergebnis. Essenziell für gezielte Iterationen statt Glücksspiel.
- ControlNetSteuert die Geometrie eines generierten Frames.
- Zusatzmodell, das Bildkomposition über Tiefenkarten, Kantenbilder oder Skelette vorgibt. Macht aus 'kreativer Lotterie' reproduzierbare Bildregie.
- LoRALeichtgewichtiges Spezialtraining auf Marken-Look.
- Low-Rank Adaptation trainiert ein Basismodell auf einen spezifischen Stil, eine Person oder ein Produkt, ohne das gesamte Modell neu zu trainieren.
- Frame-InterpolationZusätzliche Zwischenbilder für flüssigere Bewegung.
- Aus 24 fps werden 60 oder 120 fps berechnet. Notwendig bei Slow-Motion oder hochfrequenten Displays.
- Voice-CloningKI-Stimme aus Sprachprobe einer realen Person.
- Rechtlich nur mit ausdrücklicher Einwilligung. Lizenzierte Stimmen sind die DSGVO-konforme Standardroute.
- RenderBerechnung eines Frames oder Clips durch das Modell.
- Ein Render dauert 30 Sekunden bis 10 Minuten pro Clip.
Workflow
- KI-VideoBewegtbild aus generativen KI-Modellen.
- Sammelbegriff für Videos, die mit generativen Modellen (Diffusion, Transformer) erzeugt werden — vollständig synthetisch oder hybrid mit realem Material.
Tiefer einsteigen: Pillar-Guide KI-Video oder direkt KI-Video Beispiele.
- KI-FilmLängere, narrativ aufgebaute KI-Produktion.
- Im Markt häufig verwendet für Imagefilme, Kurzfilme oder Stories mit cineastischer Bildsprache. Technisch identisch zu KI-Video, sprachlich akzentverschoben.
Cineastische Beispiele aus unserer Produktion: KI-Filmbeispiele ansehen.
- Prompt-EngineeringGezielte Formulierung der Modell-Eingaben.
- Beschreibt Szene, Kamera, Licht, Stil und Bewegung präzise genug, damit das Modell den gewünschten Frame erzeugt. In der Produktion mindestens so wichtig wie klassische Bildregie.
Vorlage: Prompt-Sheet.
- UpscalingKI-gestützte Vergrößerung auf höhere Auflösung.
- Erzeugte Frames (typisch 720p–1080p) werden auf 4K hochskaliert, ohne sichtbare Unschärfe. Topaz Video AI und ähnliche Tools sind Branchenstandard.
- Konsistenz-PipelineHält Personen/Produkte über mehrere Szenen identisch.
- Kombination aus LoRA, Reference-Image-Conditioning und manueller Nacharbeit.
Praxisbeispiel: KI-Produktvideo Industrie.
- VFX / CompositingNachträgliche Bildbearbeitung und Ebenen-Komposition.
- Kombination aus KI-Renders, Real-Footage, Grafik und Text. Standardtools: DaVinci Fusion, After Effects, Nuke.
- Color-GradingFarbliche Gestaltung des fertigen Films.
- Bestimmt Stimmung und Markenanmutung. KI-Renders werden in DaVinci Resolve gegradet wie klassisches Footage.
- Sound-DesignAtmo, SFX, Musik und Stimme.
- Mindestens 30 % der wahrgenommenen Qualität eines Films.
- Lip-SyncLippensynchronität bei Lokalisierung.
- Tools wie Sync.so oder Rask passen Mundbewegungen an die Zielsprache an.
Detail: Lip-Sync erklärt.
- StoryboardBild-für-Bild-Skizze des Films vor der Produktion.
- Jedes Storyboard-Panel wird später zum I2V-Startframe.
- SzeneInhaltlich zusammenhängende Bildfolge an einem Ort.
- Eine Szene besteht aus mehreren Einstellungen (Shots).
- Shot / EinstellungEin durchgehender Clip von Schnitt zu Schnitt.
- Bei aktuellen KI-Modellen 4–10 Sekunden stabil.
Recht
- EU AI ActEU-Verordnung 2024/1689 zu KI-Systemen.
- Artikel 50 (ab August 2026) verlangt Kennzeichnung synthetischer Inhalte.
- C2PAStandard für Content-Provenance-Metadaten.
- Eingebettete Metadaten dokumentieren Herkunft und Bearbeitungsschritte.
- DSGVO bei KI-VideoVerarbeitung personenbezogener Daten bei KI-Renders.
- Erkennbare reale Personen brauchen eine Rechtsgrundlage. Datenhaltung in der EU, AVV, Trainings-Opt-out sind Pflicht.
- AVVAuftragsverarbeitungsvertrag nach DSGVO Art. 28.
- Vertrag zwischen Auftraggeber und Agentur.
Marketing
- Aspect RatioBildformat des fertigen Clips.
- Üblich: 16:9, 9:16, 1:1, 21:9. Pro Kanal eigener Cut, aus einem Master.