Audio first

In meinem Sofortvideo Projekt hatte ich in zwei Artikeln beschrieben, wie man das Timing in einem Video mit Amazon Polly bestimmen kann. Zunächst hilft die Sprachausgabe dabei die Länge der einzelnen Szenen und des Videos zu bestimmen. Speech Marks erlauben sogar ein Finetuning, etwa eine Lippensynchronisation.

Dieser Workflow weicht so ganz vom üblichen "Vertonen" von Videos ab. Drehbuch, Storyboard, Film, Ton - so heißt der übliche Workflow, der auch für Animationsfilme übernommen wird. Es sei denn, man muss effizient sein: dann macht man es umgekehrt.

Schlampig animieren

Kürzlich fand ich eine Präsentation von Kathrin Fricke, alias Coldmirror, die ihren Workflow für ihre wöchentliche Youtube-Animationsserie StarStarSpace erläutert. Was sie kokett als "schlampig" bezeichnet, ist Ausdruck höchster Effizienz.

Ihr Workflow in Stichpunkten:

  • Das Drehbuch mit Dialogen
  • Audio fürs Timing
  • Storyboard zum Audio
  • Storyboard wird mi Audio solange angepasst, bis es machbar erscheint
  • Audio Finish
  • Animation

Coldmirrors Ansatz ist, möglichst wenig zu zeichnen, denn Zeichnen kostet die meiste Zeit. Daher erstellt sie zuerst ein Hörspiel, dass sie inklusive Soundeffekte perfektioniert, bevor sie überhaupt mit den Detailzeichnungen beginnt. Die Story funktioniert auch ohne Bild, aber ein Video ohne Ton funktioniert nie. Oder in ihren eigenen Worten:

Story und Ton sind wichtiger als Animation

So nebenbei 3 Minuten Animationsvideo pro Woche völlig alleine herzustellen, fordert höchsten Respekt. Dabei auf Profitools zu verzichten, ist wohl weniger Absicht, als einfach aus der Überlegung geboren, wo man die meiste Zeit einsparen kann. Dazu gehört vermutlich auch die Einarbeitung in Tools, die dann auch noch künstlerisch einschränken.

Interessant ist hier auch, das offenbar auch das Pareto Prinzip Anwendung findet: mit 20% der Arbeit (Story und Audio) erhält man 80% des Ergebnisses, nämlich die Audiospur.

Ein Bild sagt mehr als tausend Worte

Wozu braucht man dann überhaupt die Animation? Das Bild muss einen Zwecke haben, denn sonst würden wir nicht selbstverständlich davon ausgehen, dass das Bild das Video ausmacht und nicht der Ton. Tatsächlich ist unser Auge besser als unser Ohr darin das Wer und das Wo zu bestimmen. Das Bild liefert also den Kontext für das Audio.

Auch hierfür liefern Coldmirrors Videos den anschaulichen Beweis. Dass sie alle Stimmen selbst spricht, fällt kaum auf, obwohl sie nach eigenen Angaben kein besonderes Talent dafür hat. Es funktioniert durch die Bilder, denn das Auge ordnet die Sprache zuerst einer Person zu. Dann reicht die leicht veränderte Artikulation, um das Ganze stimmig zu machen.

Effektiver Video Workflow

Wie würde man nach all dieser Erkenntnis also einen höchst effizienten Workflow mit Hilfe von Blender und Amazon Polly gestalten?

  • Zuerst das Drehbuch als Python-Script.
  • Timing durch die Sprachausgabe von Polly.
  • Einfügen von Soundeffekten in den Blender Soundeditor.
  • Schließliich das Einsetzen von Einzelbildern um den Sprecherkontext zu bilden.

Braucht es dann noch Animation? Vielleicht nicht immer. Coldmirror rät noch dazu Beine zu verdecken und Lippenbewegungen wegzulassen. Das wäre schön, aber nicht wichtig.