Zum Inhalt springen

News

Speech-to-Text…

Speech-to-Text…

HIS

...ist ein Thema, welches die Informatik bereits seit Jahrzehnten beschäftigt. Die technologischen Entwicklungen der vergangenen Jahre haben dazu geführt, dass heute Resultate mit erstaunlicher Genauigkeit erreicht werden. Die Rede ist von der automatischen Spracherkennung, häufig auch als Speech-to-Text bezeichnet.

«Hey Siri», «Hallo Google» – Ist da noch mehr?

Im privaten Bereich kennt man diese Art der mündlichen Interaktion mit einem System spätestens seit der Einführung der sogenannten Sprachassistenten in mobilen Endgeräten. SIRI, Google Assistant, Cortana und wie sie alle heissen, unterstützen bei der Suche nach Verbindungen im öffentlichen Verkehr und Navigationszielen, geben Wetterprognosen, Börsenkurse und Kochrezepte wieder oder beantworten die noch so kreativen Fragen des «Gegenübers». Das Ganze stets im Dialog-Prinzip.

Auf der gleichen technologischen Grundlage hat der Anwendungsfall ‘Diktat’ stark an Bedeutung gewonnen. Dabei spricht der Anwender die gewünschten Inhalte in ein Mikrofon und die Speech-to-Text-Software transkribiert das Gehörte unmittelbar in Text, direkt in die gewünschte Zielapplikation (Textverarbeitung, E-Mail etc.). Das Ganze lässt sich im Übrigen auch mit vorgängig in standardisierten Audioformaten (mp3, wav, wma etc.) aufgezeichneten Texten im Hintergrund durchführen und so als Service nutzen.

Entscheidend für die zunehmende Verbreitung solcher Spracherkennungssysteme ist die Tatsache, dass moderne Systeme äusserst benutzerfreundlich sind und durch den Einsatz von Artificial Intelligence sofort verwendet werden können. Das mühsame Anlernen der Software und die geführte Profilerstellung durch das Diktieren[MG1]  vorgegebener Wörter durch den Anwender entfällt. Das System lernt selbständig und verbessert dadurch die Transkriptionsgenauigkeit kontinuierlich. Erkennungsraten von über 95% sind mittlerweile keine Seltenheit und entsprechen den Anforderungen der Anwender.

Diktiergeräte werden überflüssig

Moderne Spracherkennungssysteme verfügen über ein äusserst umfangreiches Basis-Vokabular. Aus diesem Grund ist der Einsatz in unterschiedlichsten Branchen möglich. Dennoch lässt sich feststellen, dass gerade in Umfeldern mit einer hohen Verbreitung an Diktiergeräten, vermehrt auf Speech-to-Text gesetzt wird. Dazu zählen mitunter die Justiz und die Medizin. Für diese beiden Bereiche stehen deshalb oft auch fachspezifische Vokabulare als Ergänzung der Spracherkennungs-Software zur Verfügung.

Zweifellos lassen sich mit der automatischen Spracherkennung diverse Prozesse in der Administration effizienter gestalten. Dennoch ist es wichtig zu verstehen, wo sich heute die Einsatzgrenzen in etwa befinden. So bedarf es beispielsweise in der Mehrsprecher-Erkennung noch weiterer Entwicklungsschritte. Das bedeutet, dass personenbezogene Transkriptionen bei Einvernahmen oder bei Gerichtsverhandlungen – um im Kontext der Justiz zu bleiben – aktuell noch nicht die gewünschten Resultate liefern. Die korrekte Zuordnung zu den eigentlichen Sprechern ist oft fehlerhaft.

Die Sprache an sich gilt es ebenso im Auge zu behalten. Grundsätzlich gilt: Standardsprache ja, Dialekt nein. Auf dem Markt gibt es Anbieter, die sich diesem (Nischen-)Thema annehmen. Ob und in welcher Form sich diese etablieren werden, gilt es zu beobachten.

HIS nimmt Speech-to-Text unter die Lupe

Im Rahmen des HIS-Programms ist man auf das Thema aufmerksam geworden und hat sich entschieden, eine Marktuntersuchung zu Speech-to-Text durchzuführen. Dies mit dem Zweck herauszufinden, wo sich der Reifegrad entsprechender Lösungen aktuell befindet. Aus Sicht der Anwendungsfälle soll dabei der Fokus auf der Mehrsprecher-Erkennung liegen. Dabei werden verschiedene Ausprägungen untersucht: Einvernahme mehrerer Personen, Transkription einer Video-/Audio-Datei, Diktat einer Einvernahme. Dem Diktieren von allgemeiner Korrespondenz oder einzelner Entscheide wird zurzeit eine tiefere Bedeutung beigemessen.

Nebst der theoretischen Auseinandersetzung mit der automatischen Spracherkennung soll interessierten HIS-Projektleitungsmitgliedern zudem die Möglichkeit geboten werden, erste Erfahrungen im praktischen Einsatz zu sammeln. Dazu werden für einen begrenzten Zeitraum Demo-Umgebungen geeigneter Produkte aufgebaut. Die auf diesem Weg gewonnenen Erkenntnisse fliessen in die Beurteilung des Themas und einer allfälligen Platzierung auf der HIS-Roadmap ein.

Speech-to-Text…

Speech-to-Text…

HIS

...ist ein Thema, welches die Informatik bereits seit Jahrzehnten beschäftigt. Die technologischen Entwicklungen der vergangenen Jahre haben dazu geführt, dass heute Resultate mit erstaunlicher Genauigkeit erreicht werden. Die Rede ist von der automatischen Spracherkennung, häufig auch als Speech-to-Text bezeichnet.

«Hey Siri», «Hallo Google» – Ist da noch mehr?

Im privaten Bereich kennt man diese Art der mündlichen Interaktion mit einem System spätestens seit der Einführung der sogenannten Sprachassistenten in mobilen Endgeräten. SIRI, Google Assistant, Cortana und wie sie alle heissen, unterstützen bei der Suche nach Verbindungen im öffentlichen Verkehr und Navigationszielen, geben Wetterprognosen, Börsenkurse und Kochrezepte wieder oder beantworten die noch so kreativen Fragen des «Gegenübers». Das Ganze stets im Dialog-Prinzip.

Auf der gleichen technologischen Grundlage hat der Anwendungsfall ‘Diktat’ stark an Bedeutung gewonnen. Dabei spricht der Anwender die gewünschten Inhalte in ein Mikrofon und die Speech-to-Text-Software transkribiert das Gehörte unmittelbar in Text, direkt in die gewünschte Zielapplikation (Textverarbeitung, E-Mail etc.). Das Ganze lässt sich im Übrigen auch mit vorgängig in standardisierten Audioformaten (mp3, wav, wma etc.) aufgezeichneten Texten im Hintergrund durchführen und so als Service nutzen.

Entscheidend für die zunehmende Verbreitung solcher Spracherkennungssysteme ist die Tatsache, dass moderne Systeme äusserst benutzerfreundlich sind und durch den Einsatz von Artificial Intelligence sofort verwendet werden können. Das mühsame Anlernen der Software und die geführte Profilerstellung durch das Diktieren[MG1]  vorgegebener Wörter durch den Anwender entfällt. Das System lernt selbständig und verbessert dadurch die Transkriptionsgenauigkeit kontinuierlich. Erkennungsraten von über 95% sind mittlerweile keine Seltenheit und entsprechen den Anforderungen der Anwender.

Diktiergeräte werden überflüssig

Moderne Spracherkennungssysteme verfügen über ein äusserst umfangreiches Basis-Vokabular. Aus diesem Grund ist der Einsatz in unterschiedlichsten Branchen möglich. Dennoch lässt sich feststellen, dass gerade in Umfeldern mit einer hohen Verbreitung an Diktiergeräten, vermehrt auf Speech-to-Text gesetzt wird. Dazu zählen mitunter die Justiz und die Medizin. Für diese beiden Bereiche stehen deshalb oft auch fachspezifische Vokabulare als Ergänzung der Spracherkennungs-Software zur Verfügung.

Zweifellos lassen sich mit der automatischen Spracherkennung diverse Prozesse in der Administration effizienter gestalten. Dennoch ist es wichtig zu verstehen, wo sich heute die Einsatzgrenzen in etwa befinden. So bedarf es beispielsweise in der Mehrsprecher-Erkennung noch weiterer Entwicklungsschritte. Das bedeutet, dass personenbezogene Transkriptionen bei Einvernahmen oder bei Gerichtsverhandlungen – um im Kontext der Justiz zu bleiben – aktuell noch nicht die gewünschten Resultate liefern. Die korrekte Zuordnung zu den eigentlichen Sprechern ist oft fehlerhaft.

Die Sprache an sich gilt es ebenso im Auge zu behalten. Grundsätzlich gilt: Standardsprache ja, Dialekt nein. Auf dem Markt gibt es Anbieter, die sich diesem (Nischen-)Thema annehmen. Ob und in welcher Form sich diese etablieren werden, gilt es zu beobachten.

HIS nimmt Speech-to-Text unter die Lupe

Im Rahmen des HIS-Programms ist man auf das Thema aufmerksam geworden und hat sich entschieden, eine Marktuntersuchung zu Speech-to-Text durchzuführen. Dies mit dem Zweck herauszufinden, wo sich der Reifegrad entsprechender Lösungen aktuell befindet. Aus Sicht der Anwendungsfälle soll dabei der Fokus auf der Mehrsprecher-Erkennung liegen. Dabei werden verschiedene Ausprägungen untersucht: Einvernahme mehrerer Personen, Transkription einer Video-/Audio-Datei, Diktat einer Einvernahme. Dem Diktieren von allgemeiner Korrespondenz oder einzelner Entscheide wird zurzeit eine tiefere Bedeutung beigemessen.

Nebst der theoretischen Auseinandersetzung mit der automatischen Spracherkennung soll interessierten HIS-Projektleitungsmitgliedern zudem die Möglichkeit geboten werden, erste Erfahrungen im praktischen Einsatz zu sammeln. Dazu werden für einen begrenzten Zeitraum Demo-Umgebungen geeigneter Produkte aufgebaut. Die auf diesem Weg gewonnenen Erkenntnisse fliessen in die Beurteilung des Themas und einer allfälligen Platzierung auf der HIS-Roadmap ein.

Newsletter

Bleiben Sie über die Aktivitäten von HIS informiert.

jetzt abonnieren

Nächste Termine

  • 07. - 08.09.2021: HIS-Progammleitung Retraite

  • 07.10.2021: HIS-Programmausschuss Sitzung 20

  • 01.12.2021: HIS-Progammleitung Sitzung 50

  • 02.12.2021: HIS-Begleitgruppe Sitzung 13