Points essentiels à retenir
L'analyse sonore a bien évolué depuis ses débuts dans les années 1950.
Aujourd'hui, la reconnaissance vocale peut tout faire, du service client aux soins aux patients.
Les produits Intel se situent au cœur de cette innovation et aident les chercheurs de l'UCL à mettre au point des solutions d'accessibilité pour les patients atteints de maladies du motoneurone.
Le passé et le présent de la reconnaissance vocale
La première reconnaissance vocale fonctionnelle a été développée par Bell Labs en 1952. Leur technologie « Audrey », bien que rudimentaire par rapport aux normes actuelles, constituait une percée à l'époque et permettait de reconnaître une seule voix énonçant des chiffres. Dix ans plus tard, cette technologie a été suivie par Shoebox d'IBM, qui pouvait comprendre 16 mots anglais.
La reconnaissance vocale moderne fonctionne de la même manière. Tout d'abord, un microphone enregistre les vibrations sonores dans l'air et convertit ces vibrations en code électrique numérique. Ce code est ensuite lu par un ordinateur et transformé en spectrogramme (similaire à un graphique linéaire en forme de pic), qui décompose les fréquences individuelles du son enregistré.
Grâce à ce spectrogramme, les ordinateurs peuvent identifier les signatures audio de phonèmes individuels (par exemple, un son « Ah », ou un son « Ch »). Les outils actuels utilisent des modèles de réseaux neuronaux (spécifiquement des modèles de langage) pour analyser et synthétiser ces phonèmes en mots et phrases individuels.
Ces mots sont ensuite soumis à une analyse syntaxique et grammaticale (pensez au correcteur orthographique de votre logiciel de traitement de texte), afin de déterminer si l'énoncé a réellement du sens. Enfin, si l'énoncé a un sens, la commande est exécutée par les systèmes concernés.
Intel contribue à l'innovation dans ce domaine, tant en théorie qu'en pratique. En 2021, lors de la Conférence annuelle sur les systèmes de traitement de l'information neuronale, deux livres blancs pris en charge par Intel ont été présentés. Ils ont permis de décrire comment améliorer la reconnaissance de la parole dans des contextes audio « désordonnés » (ce qui peut impliquer un discours informel, idiomatique ou des environnements avec beaucoup de bruit de fond).
Et dans le monde des applications, les produits Intel sont à pied d'œuvre pour favoriser l'innovation de pointe. Par exemple, les processeurs Intel® Xeon® Scalable de 2ᵉ génération, Intel® Advanced Vector Extensions 512, Intel® Deep Learning Boost et Intel® Math Kernel Library ont tous été utilisés pour améliorer les performances d'inférence de la reconnaissance vocale pour l'entreprise sud-coréenne de services Internet Kakao.
Promouvoir l'innovation
L'une des applications les plus puissantes de la reconnaissance vocale est la prestation des soins de santé. C'est pourquoi les chercheurs de l'UCL, en collaboration avec Intel et d'autres partenaires, travaillent avec des systèmes d'outils de reconnaissance vocale éprouvés qui peuvent aider dans une gamme d'applications basées sur la santé.
Un exemple est l'amélioration de l'accès aux outils de reconnaissance vocale pour les personnes dont les capacités vocales sont limitées, comme les patients atteints de maladies du motoneurone comme la SLA (le regretté physicien Stephen Hawking était atteint d'une forme de cette maladie, la maladie de Lou Gehrig).
En apprenant aux ordinateurs à associer des sons spécifiques (comme « ah » ou « ee ») à des commandes spécifiques (comme « déplacer le curseur vers le haut » ou « cliquer ici »), les chercheurs visent à mettre les fonctionnalités des systèmes de contrôle basés sur la parole à la portée de ceux qui n'ont pas accès à la parole. Les commandes sont entièrement personnalisables, de sorte que les actions peuvent être adaptées aux capacités vocales spécifiques de chaque utilisateur.
« Vous commencez par former la solution. Vous émettez d'abord une série de sons, et la solution les reconnaîtra comme des mots différents », explique l'un des chercheurs qui ont travaillé sur le projet. « Ensuite, vous le programmez de sorte que chaque fois que certains sons sont prononcés, un raccourci spécifique est déclenché. Tous ces éléments sont modifiables pour répondre aux besoins de l'utilisateur ».
Au cœur de la solution se trouvent PyAudio et l'analyse sonore VOSK. Ce qu'Intel a pu faire, c'est fournir la technologie nécessaire au bon fonctionnement de ces solutions, d'une manière discrète et qui s'intègre parfaitement dans la vie des patients. « Les appareils d'Intel sont bien plus petits et plus silencieux, et sont capables de fonctionner 24 heures sur 24, 7 jours sur 7 », explique Anelia Gaydardzhieva, l'une des principales chercheuses en architecture qui a travaillé sur le projet.
« Il devrait être entièrement personnalisable. La maladie du motoneurone peut se manifester de différentes manières selon les différents patients », explique Emily Pulford, l'une des étudiantes chercheuses. « Notre objectif est de donner aux patients la possibilité de prendre les sons qu'ils sont capables de produire et de les utiliser comme base d'un mode d'interaction avec les ordinateurs entièrement personnalisable et accessible ».
Hôpitaux révolutionnaires
La reconnaissance vocale rationalise également les environnements médicaux d'autres manières. Sous la direction du Dr Atia Rafiq, médecin généraliste du NHS, responsable de la sécurité clinique et maître de conférences honoraires à l'UCL Computer Science, et de Sheena Visram, responsable clinique d’UCL MotionInput, les équipes de l'UCL travaillent à l'élaboration de procédures d'automatisation basées sur la parole pour les hôpitaux, afin de simplifier toute une série de tâches administratives.
Par exemple, l'invite verbale « envoyer la tâche d'orientation à la réception » pourrait déclencher une séquence de processus administratifs automatisés qui simplifieraient le travail des cliniciens, leur permettant ainsi de consacrer plus de temps à aider les patients.
Un domaine particulièrement pertinent pour ce type de solutions est la chirurgie. La chirurgie requiert toute l'attention de l'esprit et des mains du chirurgien. Si ce chirurgien a besoin de vérifier quelque chose sur un ordinateur en cours d'opération, tout le processus doit être interrompu, parfois pendant 30 minutes, ce qui peut avoir un impact sur les résultats globaux pour le patient et sur les coûts de fonctionnement de l'hôpital.
En innovant autour de commandes activées par la voix, les chercheurs de l'UCL contribuent à la création d'outils mains libres pour les médecins, qui leur permettent d'examiner des informations importantes tout en restant concentrés sur le travail à accomplir pour sauver des vies.
L'avenir de ces travaux pourrait même permettre des interactions avec des systèmes hospitaliers complexes grâce à une technologie de reconnaissance vocale personnalisée au personnel et aux patients. Ainsi, le fonctionnement et l'administration des tâches dans les hôpitaux sont encore plus rationalisés.
À l'avenir, l'UCL continuera à développer ces technologies dans un large éventail d'autres domaines allant de la santé de la population, du divertissement, de l'éducation au commerce de détail et aux services financiers.