← Armand Delessert Travail de Master · 2018

Live Audio Transcription

Transcription de vidéo live pour du sous-titrage automatique

Résumé

La vidéo est un vecteur d'informations de plus en plus utilisé et de plus en plus présent dans notre quotidien. La société 4AM SA, qui s'occupe de la retransmission vidéo en direct de conférences, d'événements sportifs et culturels en tout genre, souhaitait explorer les solutions possibles pour la mise en place d'un système de sous-titrage automatique de ses flux vidéo en direct.

Il y a plusieurs raisons à une telle démarche. Il y a premièrement la valorisation du contenu vidéo en direct en améliorant son accessibilité aux personnes ayant un déficit de l'audition ou lorsque le son n'est pas audible, par exemple dans un milieu bruyant. Il y a ensuite la possibilité de rechercher un contenu précis dans une vidéo via une recherche par mots-clés. Enfin, il pourrait être possible de traduire automatiquement les sous-titres produits afin de rendre la vidéo accessible à un public de langue différente.

La première phase du projet consistait à dresser un état de la technique afin de repérer quelles sont les solutions actuellement disponibles. Après une comparaison de ces solutions, un choix a été porté sur les plus appropriées qui ont ensuite été implémentées dans un démonstrateur.

Une attention particulière a dû être portée sur les contraintes et les critères de sélection des solutions de transcription. Certaines contraintes étaient éliminatrices, comme la contrainte de traitement en temps réel. D'autres étaient bienvenues mais pas primordiales, comme la reconnaissance et la distinction de plusieurs locuteurs.

Finalement, ce travail aura permis de faire un rapide tour d'horizon de la transcription d'un flux audio en direct.

Diagramme d'architecture du système de transcription
Architecture du système de transcription