Passer au contenu

News

Speech-to-Text…

Speech-to-Text…

HIJP

...occupe l’informatique depuis des décennies. Les évolutions technologiques des dernières années ont permis d’atteindre des résultats dont la précision est étonnante. La parole est reprise par la reconnaissance vocale automatique, généralement appelée Speech-to-Text.

«Hey Siri», «Hallo Google» – et après?

Dans le domaine privé, on connaît ce genre d’interaction orale avec un système depuis le lancement de ce que l’on appelle les assistants à commande vocale dans les appareils mobiles. SIRI, Google Assistant, Cortana et les autres aident à rechercher de connexions dans les transports publics et les destinations dans un système de navigation, ils énoncent les prévisions météo, les cours de Bourse et des recettes de cuisine ou ils répondent à des questions créatives de «l’interlocuteur». Le tout selon le principe du dialogue.

Sur la même base technologique, le cas pratique «dictée» a fortement pris de l’importance. Dans ce contexte, l’utilisateur énonce les contenus souhaités dans un microphone et le logiciel Speech-to-Text transcrit immédiatement en texte ce qui a été entendu directement dans l’application cible désirée (traitement de texte, courriel, etc.). Le tout s’effectue aussi d’ailleurs avec les textes enregistrés en arrière-plan dans les formats audio standardisés (mp3, wav, wma, etc.) et sert ainsi de service correspondant.

Ce qui est décisif pour le déploiement croissant de tels systèmes de reconnaissance de la parole, c’est le fait que les systèmes modernes sont extrêmement conviviaux et qu'ils peuvent être utilisés immédiatement en faisant appel à l’intelligence artificielle. L’apprentissage laborieux du logiciel et la réalisation d’un profil par l’énoncé de mots prédéterminés par l’utilisateur deviennent inutiles. Le système apprend lui-même et améliore continuellement la précision de la transcription. Des taux de reconnaissance de plus de 95% sont désormais courants et ils correspondent aux exigences des utilisateurs.

Les dictaphones deviennent superflus

Les systèmes modernes de reconnaissance de la parole disposent d’un vocabulaire de base extrêmement étendu. C'est la raison pour laquelle leur utilisation dans les secteurs les plus variés est possible. On constate toutefois que c’est justement dans les domaines à forte utilisation de dictaphones que le Speech-to-Text est de plus en plus déployé. Cela vaut notamment pour la justice et la médecine. Pour ces deux secteurs, du vocabulaire technique spécifique est souvent disponible en tant que complément au logiciel de reconnaissance vocale.

Il ne fait aucun doute que divers processus peuvent être conçus de manière plus efficiente dans l’administration grâce à la reconnaissance vocale automatique. Toutefois, ce qu’il est important de comprendre, c’est quelles sont les limites d’utilisation. Ainsi, une reconnaissance impliquant plusieurs locuteurs requiert toujours des étapes complémentaires de développement. Cela signifie que les transcriptions liées aux personnes lors des auditions ou dans les audiences au tribunal - pour rester dans le contexte de la justice - ne fournissent pas, à l’heure actuelle, les résultats désirés. L’affectation correcte à différents locuteurs est souvent erronée. 

La langue en tant que telle doit aussi être conservée à l’esprit. Par principe, on peut dire que: langue standard, oui, dialecte, non. Il existe sur le marché des fournisseurs qui abordent ces thématiques (de niche). Le fait de savoir si et sous quelle forme ils vont s’établir reste encore à observer.

La HIJP analyse le Speech-to-Text à la loupe

Dans le cadre du programme HIJP, le thème a retenu l’attention et une décision a été prise d’effectuer une étude de marché sur le Speech-to-Text. Ceci avec comme objectif de voir quel est le niveau actuel de maturité des solutions correspondantes. Du point de vue des cas pratiques, l'accent doit porter sur la reconnaissance de locuteurs multiples. Diverses configurations sont étudiées: audition de plusieurs personnes, transcription d’un fichier vidéo/audio, dictée d’une audition. Une importance moindre est vouée à l’heure actuelle à la dictée de correspondance générale ou de décisions individuelles.

En dehors de la confrontation théorique avec la reconnaissance vocale automatique, les membres intéressés de la direction de projet HIJP se voient également proposer la possibilité de faire des premières expériences dans la pratique. Pour un temps limité, des environnements de démonstration avec les produits appropriés sont conçus à cet effet. Les enseignements acquis de cette manière sont intégrés à l’appréciation de cette thématique et à un éventuel positionnement sur la Roadmap de l’HIJP.

Speech-to-Text…

Speech-to-Text…

HIJP

...occupe l’informatique depuis des décennies. Les évolutions technologiques des dernières années ont permis d’atteindre des résultats dont la précision est étonnante. La parole est reprise par la reconnaissance vocale automatique, généralement appelée Speech-to-Text.

«Hey Siri», «Hallo Google» – et après?

Dans le domaine privé, on connaît ce genre d’interaction orale avec un système depuis le lancement de ce que l’on appelle les assistants à commande vocale dans les appareils mobiles. SIRI, Google Assistant, Cortana et les autres aident à rechercher de connexions dans les transports publics et les destinations dans un système de navigation, ils énoncent les prévisions météo, les cours de Bourse et des recettes de cuisine ou ils répondent à des questions créatives de «l’interlocuteur». Le tout selon le principe du dialogue.

Sur la même base technologique, le cas pratique «dictée» a fortement pris de l’importance. Dans ce contexte, l’utilisateur énonce les contenus souhaités dans un microphone et le logiciel Speech-to-Text transcrit immédiatement en texte ce qui a été entendu directement dans l’application cible désirée (traitement de texte, courriel, etc.). Le tout s’effectue aussi d’ailleurs avec les textes enregistrés en arrière-plan dans les formats audio standardisés (mp3, wav, wma, etc.) et sert ainsi de service correspondant.

Ce qui est décisif pour le déploiement croissant de tels systèmes de reconnaissance de la parole, c’est le fait que les systèmes modernes sont extrêmement conviviaux et qu'ils peuvent être utilisés immédiatement en faisant appel à l’intelligence artificielle. L’apprentissage laborieux du logiciel et la réalisation d’un profil par l’énoncé de mots prédéterminés par l’utilisateur deviennent inutiles. Le système apprend lui-même et améliore continuellement la précision de la transcription. Des taux de reconnaissance de plus de 95% sont désormais courants et ils correspondent aux exigences des utilisateurs.

Les dictaphones deviennent superflus

Les systèmes modernes de reconnaissance de la parole disposent d’un vocabulaire de base extrêmement étendu. C'est la raison pour laquelle leur utilisation dans les secteurs les plus variés est possible. On constate toutefois que c’est justement dans les domaines à forte utilisation de dictaphones que le Speech-to-Text est de plus en plus déployé. Cela vaut notamment pour la justice et la médecine. Pour ces deux secteurs, du vocabulaire technique spécifique est souvent disponible en tant que complément au logiciel de reconnaissance vocale.

Il ne fait aucun doute que divers processus peuvent être conçus de manière plus efficiente dans l’administration grâce à la reconnaissance vocale automatique. Toutefois, ce qu’il est important de comprendre, c’est quelles sont les limites d’utilisation. Ainsi, une reconnaissance impliquant plusieurs locuteurs requiert toujours des étapes complémentaires de développement. Cela signifie que les transcriptions liées aux personnes lors des auditions ou dans les audiences au tribunal - pour rester dans le contexte de la justice - ne fournissent pas, à l’heure actuelle, les résultats désirés. L’affectation correcte à différents locuteurs est souvent erronée. 

La langue en tant que telle doit aussi être conservée à l’esprit. Par principe, on peut dire que: langue standard, oui, dialecte, non. Il existe sur le marché des fournisseurs qui abordent ces thématiques (de niche). Le fait de savoir si et sous quelle forme ils vont s’établir reste encore à observer.

La HIJP analyse le Speech-to-Text à la loupe

Dans le cadre du programme HIJP, le thème a retenu l’attention et une décision a été prise d’effectuer une étude de marché sur le Speech-to-Text. Ceci avec comme objectif de voir quel est le niveau actuel de maturité des solutions correspondantes. Du point de vue des cas pratiques, l'accent doit porter sur la reconnaissance de locuteurs multiples. Diverses configurations sont étudiées: audition de plusieurs personnes, transcription d’un fichier vidéo/audio, dictée d’une audition. Une importance moindre est vouée à l’heure actuelle à la dictée de correspondance générale ou de décisions individuelles.

En dehors de la confrontation théorique avec la reconnaissance vocale automatique, les membres intéressés de la direction de projet HIJP se voient également proposer la possibilité de faire des premières expériences dans la pratique. Pour un temps limité, des environnements de démonstration avec les produits appropriés sont conçus à cet effet. Les enseignements acquis de cette manière sont intégrés à l’appréciation de cette thématique et à un éventuel positionnement sur la Roadmap de l’HIJP.

FLASH Newsletter

Restez informé(e) sur les activités du programme HIJP.

s'abonner maintenant

Prochaines séances

  • 01.12.2021: La réunion 50 de la direction du programme HIJP

  • 02.12.2021: La réunion 13 du groupe d'accompagnement HIJP

  • 07.01.2022: La réunion extraordinaire du comité du programme HIJP

  • 02.02.2022: La réunion 51 de la direction du programme HIJP