Bei einer Reportage ist es immer schön, das Diktiergerät (hier: das iPhone oder das gute alte Zoom H1) mitlaufen zu lassen. Insbesondere, wenn zwischen dem Tag der Reportage und der Niederschrift des Textes unvorhergesehen viel Zeit vergeht. Das ist insbesondere dann die Seuche, wenn aus der unleserlicher Mitschrift keine Zitate mehr hervorgehen oder diese zumindest so viel Spielraum für Interpretation lassen, dass sie nicht mehr guten Gewissens als Zitate durchgehen. Dann steht Nachhören an, eine unsägliche Aufgabe.
Doch – dem technologischen Fortschritt (hier: KI) sein dank – gibt es für die Misere seit kurzem eine elegante Lösung: Whisper Transcription. Die Software versteht sich unter anderem auf die mit dem iPhone aufgezeichneten M4A-Dateien und erstellt aus diesen ein Transkript.
Für seine Arbeit stellt Whisper Transcription zunächst die Wahl eines Sprachmodells. Diese arbeiten schnell und liefern durchwachsene Ergebnisse oder lassen sich viel Zeit und präsentieren dafür erstaunlich Lesbares aus den zugefütterten Audio-Dateien. Ein Wort der Warnung: Das vermeintlich fortschrittlichste Modell im Hinblick auf Spracherkennung, Large (V3), produziert zahlreiche Doppelungen im Text. Besser fährt man mit der regulären V3-Version. Haken an der Sache: Während die Transkription mit den schnellen und ungenauen Modellen kostenlos ist, bedarf die Verwendung der langsamen aber gute Ergebnisse hervorbringenden Modelle der Pro-Version. Diese lässt sich monatlich buchen oder einmalig kaufen.
In jedem Fall eine gute Investition für Betroffene.