Digital Insights

Reconnaissance vocale : État des lieux et perspectives

La technologie de la reconnaissance vocale accélère la cadence, et bientôt elle transformera nos vies en profondeur.

Mais tout d’abord la reconnaissance vocale, qu’est-ce que c’est ?

D’après la définition de Wordreference, “ Souvent improprement appelée reconnaissance vocale, la reconnaissance automatique de la parole est une technique informatique qui permet d’analyser la parole captée au moyen d’un microphone.”

Même si nous poursuivrons avec l’abus de langage communément répandu de “reconnaissance vocale” , nous ne remettrons pas en cause une telle définition. Nous pourrions toutefois très raisonnablement lui en ajouter une seconde, telle que:


La reconnaissance vocale est la révolution des interfaces.

Ni plus ni moins. Pour rappel l’interface est la zone de communication entre l’homme et la machine.

reconnaissance vocale

Vous n’êtes pas encore convaincus ? Tout d’abord, faisons le point sur son aspect technologique:

Comment cela fonctionne la reconnaissance vocale?

La reconnaissance vocale trouve son origine bien plus loin que vous ne pourriez le croire: 1952 ! En réalité il s’agissait alors d’un appareil électronique pouvant reconnaitre seulement 10 chiffres.

Depuis, la technologie a fait des progrès considérables, notamment grâce au développement d’un certain nombre d’algorithmes spécifiques. La phrase prononcée est enregistrée et numérisée, puis donnée au programme de reconnaissance vocale. Schématiquement, le programme peut être découpé de la manière suivante:

  1. Un traitement acoustique , qui permet d’extraire du signal vocal reçu une image acoustique compacte, et la numériser.
  2. Puis la mise en association des segments de parole avec leurs éléments lexicaux correspondants, par l’apprentissage automatique.
  3. Enfin en se basant sur ce résultat, le décodage qui tente de reconstituer la phrase la plus probable. Une correspondance de motif temporelle est appliquée pour ce faire.

Le système de reconnaissance vocale est traité par un algorithme qui combine ensemble trois modèles:

  • Le modèle de langage: la probabilité de chaque suite de mots.
  • Le modèle de prononciation: la probabilité de chaque prononciation possible.
  • Le modèle acoustico-phonétique: la probabilité de chaque prononciation possible d’une séquence de mots lorsque transcrite en vecteurs acoustiques.

Et le système retient le résultat le plus probable après traitement de ces 3 modèles.

Voilà pour la partie technique.

reconnaissance vocale


Pourquoi mérite-t-elle qu’on s’y intéresse ?

Peut-être penserez-vous, que la valeur ajoutée de la reconnaissance vocale peut sembler négligeable dans un monde où il est déjà question de développer l’exploration spatiale, ou concevoir des voitures autonomes et des foyers énergiquement autosuffisants 100% propres. Tout ceci implique des technologies au moins aussi complexes, et dont on mesure mieux l’ampleur.

Pourquoi alors voudrait-on investir dans une technologie de reconnaissance vocale quand notre monde se complique déjà à ce point?

Pour la même raison que le conducteur ne devrait pas avoir besoin d’être ingénieur en génie mécanique pour conduire sa voiture.

reconnaissance vocale

Et si nous sommes capables de parcourir régulièrement de si longues distances par nous-mêmes, ce n’est pas en raison de la vitesse maximale que peuvent atteindre nos véhicules mais grâce à leurs roues pneumatiques et directions assistées. Des innovations qui pouvaient avoir l’air optionnelles à leur début.

Imaginez-vous à présent, toujours au volant de votre voiture et pris dans votre train-train quotidien. Vous êtes en retard, coincés dans les embouteillages sur le chemin du travail ? Vous profitez du temps perdu pour dicter et modifier à voix haute vos comptes-rendus parfaitement retranscrits, et dites au revoir au stress du retard .

Trop fatigués pour vous relever du canapé dans lequel vous vous êtes affalés après une longue journée ? Monter le chauffage, fermer vos volets, ajouter le beurre à votre liste de courses, faire sonner votre smartphone perdu entre deux coussins, ou encore vérifier que votre porte d’entrée est bien fermée à clef… Il vous suffira de formuler vos voeux à voix haute, pour les voir aussitôt exaucés.

Et pour cela vous l’avez deviné, la reconnaissance vocale sera à la manoeuvre dans les coulisses de vos appareils.

Nous ne voulons pas d’une vie compliquée. Au contraire pour mener une vie plus heureuse, nous aspirons à un quotidien plus facile. Des encyclopédies aux moteurs de recherche, des allers-retours à la poste aux emails que l’on saisit depuis son fauteuil un dimanche, la pénétration en masse des technologies dans nos vies se fait par la simplicité.

Nous sommes passés de technologies que l’on va chercher à des technologies de proximité, embarquées dans nos voitures, jusque dans nos poches. La technologie vient à nous, et de plus en plus naturellement.

reconnaissance vocal

Il s’agit d’une lame de fond qui façonne un monde de demain complètement connecté, comme en témoigne désormais l’arrivée imminente de la 5G, connexion orientée objets par excellence. Et dans cette réalité l’interface homme-machine remplit un rôle de tout premier plan.

Lire aussi:   5 Psychological hacks for your online content!

De la technologie du bout des doigts, à celle à portée de voix: l’interaction tactile était le dernier bouleversement, l’interaction vocale en sera le prochain.

Un peu plus convaincus ?

Nous vous chantons les louanges d’un futur connecté et heureux, mais qu’en est-il de l’état actuel des choses en ce début 2018 ?

En effet, faisons le point concret aujourd’hui: dans le monde

Mise au point pour la première fois voilà près de 70 ans, le meilleur des logiciels de reconnaissance vocale disponibles sur le marché n’identifiait correctement qu’un peu plus d’un mot sur 2 (56%) il y a encore 20 ans. D’après une évaluation Microsoft récente, aujourd’hui, le taux d’acuité par mot est de 93,7%.

En 2015, une expérience menée par l’université de Stanford montrait par exemple que le logiciel de reconnaissance vocale Deep Speech 2 de Baidu pouvait écrire un message plus efficacement qu’un humain, et ce quelle que soit la langue: le logiciel écrivait en Anglais 3 fois plus rapidement qu’un humain, avec 20,4 % d’erreurs en moins, et 2,8 fois plus rapidement pour le Chinois avec 63,4% moins d’erreurs. Edifiant.

Si nous connaissons déjà tous sur nos smartphones les fameux assistants intelligents Siri, Google Now ou Cortana, nous commençons seulement à entendre sérieusement parler des assistants personnels intelligents pour la maison. Les 3 grands concurrents du marché sont pour le moment les assistants intelligents Google Home, Amazon Echo, Homepod et leurs déclinaisons, qui répondent aux commandes vocales. A noter que Amazon Echo et Homepod seront commercialisés en France seulement dans le courant de l’année.

Ces assistants vocaux fonctionnent de la manière suivante: vous activez leur reconnaissance vocale automatique pour formuler une requête en démarrant par un mot-clef défini.

Puis ils envoient un fichier audio contenant la requête orale, et utilisent des serveurs pour les transcrire.

Concrètement, ils vous promettent bien sûr de répondre à vos questions, vous donner les prévisions météo, jouer de la musique mais aussi de contrôler la domotique de votre maison, tels que votre réfrigérateur, vos lampes, votre thermostat ou vos serrures.

Qu’en est-il de leur capacité concrète à répondre à nos requêtes ?

Voici les résultats d’un test sur 5000 questions posées, effectué par le site stonetemple en avril 2017:

reconnaissance vocale
(Homepod est commercialisé aux Etats-Unis seulement depuis le 8 février dernier).

Google Assistant a donc su répondre 3 383 fois, contre 1 030 fois pour Echo. Google était pertinent dans 91% de ces cas contre 87% pour Amazon.

Si les logiciels de reconnaissance vocale sont si efficaces, pourquoi cet écart avec la saisie clavier sur moteur de recherche ?

En bonne partie car on ne recherche pas de la même manière avec sa voix: là où on écrit « Bon Chinois Paris 13 » , on demande « Où est-ce que je peux trouver un bon Chinois près d’ici ? ». La balle est dans le camp du moteur de recherche, qui doit alors faire de l’interprétation à très haut niveau pour fournir le résultat désiré (mais s’en sort de mieux en mieux).


Quelle tendance de consommation pour les 2 prochaines années ?

D’après Gartner et Edison, si 7% des foyers américains étaient équipés d’un assistant vocal début 2017, ce chiffre devrait passer à 75% d’ici fin 2020 ! Une croissance qui ferait du x10 en 4 ans. Le modèle Gartner prédit aussi que 20% des foyers en possèderont 2 , et 5% 3 ou plus.

reconnaissance vocale

Quel constat peut-on en tirer ?

Dans le test, seul Google Assistant a su répondre aux questions avec un score proche de son moteur de recherche référence.

Il dispose en effet d’une longueur d’avance naturelle sur la gestion des requêtes.

En revanche, l’assistant Amazon Echo, sorti plus tôt aux Etats-Unis (juin 2015) s’en sort mieux sur le catalogue d’applications vocales disponibles (plus de 20 000) et la gestion des objets connectés: en effet la majorité de ceux-ci fonctionnent pour l’instant avec Alexa.

Par ailleurs Alexa équipe de nombreuses marques automobiles telles que Ford, Nissan, Hyundai, Volkswagen, et plus récemment Parrot, Accenture, Faurecia et Toyota.

Google a ainsi repris cette année la gestion de la société Nest, spécialisée dans les objets connectés, afin de mieux concurrencer Amazon dans ce domaine. Les prévisions estiment que l’assistant Google devrait passer devant celui d’Amazon d’ici peu.

Enfin, la concurrence au sommet va très prochainement s’intensifier avec la montée en puissance des autres géants de la tech tels que Samsung, Microsoft et Baidu. Nous ne sommes donc pas au bout de nos surprises.

Vous l’aurez compris,

  1. la technologie de la reconnaissance vocale n’est pas facile à développer bien qu’elle soit dans les cartons des visionnaires depuis longtemps.
  2. Elle est cependant suffisamment mûre aujourd’hui pour être exploitée, avec des résultats très probants en diction, et des réponses de requêtes qui s’approchent des performances du moteur de recherche google par clavier.
  3. La reconnaissance vocale est une alternative intégrée à nos technologies actuelles (smartphone, ordinateur) qui veut devenir l’interface par défaut de nos technologies futures.
    Un futur déjà à nos portes avec le déploiement imminent de la 5G qui va permettre le développement en masse des objets connectés.
Lire aussi:   Qu’est ce que la Dark data et pourquoi s’y intéresser?


Prendre le train en marche: loin des géants mondiaux de la Tech, un focus sur les entreprises françaises

Plusieurs entreprises surfent sur le concept, en se positionnant à leur manière par rapport aux géants.

Comme nous l’avons vu plus haut les assistants vocaux pour la maison peuvent accueillir des applications vocales, et sur un mode de fonctionnement similaire aux applications sur App Store ou Google Play. La start-up française Smartly.ai a ainsi développé une plateforme de création d’applications vocales à destination de Amazon Alexa et Google Home.

Une autre jeune entreprise prometteuse, Snips, a développé son propre assistant vocal et permet de connecter toutes les technologies à une interface vocale. Il utilise le Deep Learning pour détecter avec précision si quelqu’un s’adresse à lui. A noter qu’au contraire des assistants Alexa ou Google Assistant, Snips transcrit directement la requête qu’il reçoit en texte.

La start-up Vivoka propose elle aussi une solution d’intelligence artificielle à reconnaissance vocale. Nommée Lola, sa mission consiste à répondre au mieux aux requêtes en fonction du contexte, c’est-à-dire en analysant et déchiffrant les intentions de l’utilisateur. Elle a également été incorporée dans Zac, un assistant domotique contrôlant les équipements de la maison, qui sera disponible cet été auprès de certains professionnels de l’immobilier. Vivoka cherche à se spécialiser pour elle aussi se démarquer des principaux concurrents américains, bien plus généralistes.

Nous pourrions également citer CandyVoice, spécialiste du traitement automatique de la voix à destination des professionnels du secteur, ou encore Acapela qui transforme le texte en voix.

Les grandes entreprises ne sont pas en reste non plus et testent actuellement l’intégration d’assistants vocaux à certains de leurs services, telles que la SNCF pour commander un trajet, Carrefour pour faire sa liste de course, ou encore Radio France pour leur flash info.

Notons par ailleurs que Hub Institute, un Think tank digital basé à Paris, a très récemment inauguré en présence du ministre de l’Economie et des Finances le Hublab:Voice. Il s’agit d’un laboratoire expérimental sur la commande vocale.

“La voix va devenir le premier moyen d’interaction entre l’homme et la machine. Après l’ère du ‘Mobile First’, nous rentrons désormais de plain pied dans un monde ‘Voice First’ ”, a déclaré Vincent Ducrey, CEO et co-fondateur du HUB Institute.


A présent le petit bonus Kaokeb pour votre site internet: quelques astuces d’optimisation pour les recherches vocales

Comme nous l’avons abordé plus haut, une requête orale est bien plus longue qu’une requête écrite, et prend très souvent une forme interrogative. Ainsi on se retrouve avec bien plus de mots-clefs. Il est donc conseillé d’ajuster vos titres en conséquence, en les tournant notamment sous une forme interrogative.

Dans la même suite logique, il est recommandé d’apporter des définitions ou de répondre de manière directe à votre titre dans votre contenu.

Fait notable également, on estime que plus d’une requête vocale sur 5 est une demande sur des informations localisables. Vous pouvez ainsi vous créer une page Google MyBusiness à cet effet et inclure dans vos titres des indications de lieux.

Pensez également à structurer vos données pour que le moteur de recherche puisse mieux exploiter vos coordonnées et horaires. Vous pouvez vous aider pour ce faire de Google Search Console si vous n’êtes pas expert.

Enfin, selon une enquête réalisée en 2016 par Google aux Etats-Unis, plus de 20% des recherches sur smartphone passent par la voix. Assurez-vous donc que votre site soit déjà adapté aux smartphones.

reconnaissance vocale


Pour conclure,

Le marché de la reconnaissance vocale est en pleine effervescence. Si la technologie n’est pas tout à fait au point pour le moment, de nombreux acteurs ont déjà saisi son potentiel et investissent une énergie considérable pour l’améliorer. Un enjeu qui est de taille, puisque dans ce but continu de toujours réduire la voilure entre nos désirs et notre technologie, l’interaction vocale supprimerait toute interface utilisateur abstraite là où on se limitait jusqu’alors à les rendre plus intuitives.

La reconnaissance vocale est prometteuse au moins autant qu’ont pu l’être les écrans tactiles, et représente la prochaine évolution naturelle. Il s’agit bien d’une interface révolutionnaire en passe d’être adoptée en masse, et il est encore temps de prendre le train en marche.

Webographie

https://www.lenouveleconomiste.fr/lessor-fulgurant-des-technologies-vocales-bouleverse-linterface-homme-machine-33321/

https://www.seolius.com/experts/20180215-2447-optimiser-site-internet-recherches-vocales

https://www.maddyness.com/finance/2018/02/06/exclu-vivoka-leve-1-million-euros/

https://www.actuia.com/actualite/vivoka-solution-dintelligence-artificielle-a-reconnaissance-vocale-100-made-in-france-leve-1-million-deuros/

https://business.lesechos.fr/entrepreneurs/financer-sa-creation/0301253140642-le-raton-laveur-de-vivoka-connecte-la-maison-318422.php

https://www.franceculture.fr/economie/web-de-nos-doigts-notre-voix

https://www.stonetemple.com/digital-personal-assistants-test

https://www.androidpit.fr/amazon-alexa-debarque-voitures-seat-europe

https://news.stanford.edu/2016/08/24/stanford-study-speech-recognition-faster-texting/

https://indexel.com/marketing-digital/recherche-vocale-nouvelle-ere-seo/amp

https://www.on-mag.fr/index.php/video-hd/news/maison-intelligente-domotique/17364-demain-il-y-aura-une-enceinte-intelligente-a-commande-vocale-dans-tous-les-foyers

https://www.voicebot.ai/2017/04/14/gartner-predicts-75-us-households-will-smart-speakers-2020/