Eine Prototyp-App, die vertrauliche Audio- und Videodateien automatisiert transkribiert, ist von verschiedenen Behörden aus dem Kanton Zürich entwickelt worden. Die Open-Source-Lösung steigert die Effizienz bei der Verschriftlichung von Befragungen erheblich und bietet umfangreiche Einsatzmöglichkeiten.
In Zusammenarbeit mit der Staatsanwaltschaft des Kantons Zürich, der Kantonspolizei Zürich, der Stadtpolizei Zürich und der Stadtpolizei Winterthur hat ein Team des statistischen Amts Kanton Zürich eine Prototyp-App entwickelt, die vertrauliche Audio- und Videodateien automatisiert transkribiert. Auch Schweizerdeutsch. Die App steigert die Effizienz von Behörden und Organisationen bei der Verschriftlichung von Befragungen und ist vielseitig einsetzbar. So zum Beispiel beim Erstellen von Sitzungsprotokollen oder Untertiteln von Videos. Die App ist Open Source und interessierte Behörden und Organisationen können sie auch verwenden (siehe Link unten).
Open-Source-Lösung
Die App basiert auf dem Open-Source-Modell Whisper v3 Large, das Transkriptionen bis zu 15-mal schneller als in Echtzeit ermöglicht – ohne Lizenz- oder Nutzungskosten. Die App bietet eine breite Palette an Funktionen wie beispielsweise automatische Sprechererkennung, Multi-File-Upload, vordefiniertes Vokabular und verschiedene Exportioptionen. Ein weiterer Vorteil: Die Transkripte können direkt in der Anwendung bearbeitet und synchron mit der Quelldatei verknüpft werden.
Die App läuft on-premise, ohne Internet- oder Cloud-Anbindung. Für die Verwendung wird eine CUDA-kompatible Grafikkarte empfohlen, da die Transkription auf der CPU sehr langsam ist.
Link zum Open-Source-Code