___________________________________________________________________________

Ton device tu ne toucheras point

“La voix va devenir le premier moyen d’interaction entre l’homme et la machine. Après l’ère du ‘Mobile First’, nous rentrons désormais de plain-pied dans un monde ‘Voice First’ ”

Vincent Ducrey, CEO et co-fondateur du HUB Institute

L’assistance vocal reprend un nouveau souffle en 2018 sous l’impulsion de nouveaux devices que sont les Smart Assistants (enceinte intelligente connectée). On en oublierait presque que plusieurs années auparavant, Siri pour l’iPhone (2011) ou encore Google Now (2012) pour les téléphones Android, avaient signé les prémisses des assistants intelligents.

Depuis 2017 aux Etats-Unis et plus récemment en France, Amazon avec son Alexa Echo, Google avec son Google Home, ou encore Apple et son HomePod, ont largement participé à la re-popularisation des assistants vocaux. Des outils qui s’immiscent dans nos foyers et qui ouvrent la voie à de nouveaux usages qu’il nous faut intégrer dès à présent dans notre processus de conception.

D’ici 2020, 50 % des recherches sur internet se feront par le biais d’assistants vocaux. (estimations de ComScores)

Comme l’avènement du mobile avait transformé nos usages du web avec l’apparition du tactile et de « gestures » aujourd’hui largement adoptées (les notions de « swipe » ou « pinch » sont rentrées dans le langage courant), le vocal sera la prochaine transformation d’usage majeure.

Schéma de l’évolution des interfaces, des GUI (Graphic User Interface) aux VUI (Voice User Interface) (source : Amazon : https://developer.amazon.com/fr/alexa-skills-kit/vui)

Le Design Conversationnel

Cette interface « invisible », non graphique, où la seule interaction homme-machine se fait à travers nos mots va faire rentrer la conception UX/UI dans un nouveau paradigme. L’enjeu sera de réinterpréter l’ensemble des guidelines web et mobiles établies pour les réinterpréter pour et grâce à la commande vocale.

1/ Une nouvelle voix pour l’UX

La conception des chatbots a posé les bases du design conversationnel dont les mécanismes fonctionnels sont assez similaires à ceux des voicebots. Les uns s’appuient sur des actions physiques (taper une requête, interaction avec des boutons, des listes…) et des éléments visuels (textes, images, gifs, émoji…) pendant que les autres s’appuient sur la voix seule (choix des mots, expressions et ton de la voix).

Les problématiques de conception sont différentes mais l’objectif est le même : identifier les attentes des utilisateurs pour définir le périmètre fonctionnel du bot et répondre à ces attentes à travers une structure conversationnelle (arbre décisionnel) modélisant l’ensemble du flow de conversation.

Tout en s’adaptant aux contraintes que pose une utilisation 100% vocale :

  • formulation des requêtes orales plus longue qu’à l’écrit (cf longue traîne vs courte traîne sur les moteurs de recherche)
  • mémorisation réduite des informations (limiter le nombre de choix, prioriser les phrases courtes)
  • prise en compte du contexte d’utilisation (bruit ambiant, confidentialité des données)
  • temps de latence entre la requête et la réponse du bot (fluidité de la compréhension, intelligibilité)

Mais comment concevoir une interface non visuelle alors que nous sommes entourés au quotidien d’objets connectés embarquant des images (télévision, GPS, smartphones, ordinateurs, montres connectées…) ? Et pouvons-nous concevoir des interfaces vocales attractives sans aucune identification graphique au service/produit ?

2/ La structure d’une interface vocale

La construction d’un voicebot reprend des règles de construction et des guidelines appliquées au web et au mobile. Des éléments universels que l’on retrouve sur tous les sites ou applications mobile (menu, navigation, boutons…) qu’il nous faut transposer à la voix.

On doit retrouver par exemple :

  • une URL > un mot clé permettant d’accéder vocalement au bot (activation du bot)
  • un onboarding > une présentation du bot (nom, mission)
  • un menu > une liste des actions possibles
  • une navigation et les liens > ici, pas de pages mais des requêtes qui redirigent vers telle ou telle action
  • un bouton « back » > pouvoir refaire une action, changer le paramètre d’une requête
  • une gestion des erreurs > pas de page 404 mais des éléments vocaux pour répéter une requête non comprise ou une relance permettant de ré-aiguiller l’utilisateur dans le bon parcours
  • des confirmations > comme une notification après une modification, avoir une confirmation orale de l’action et un récapitulatif

10 principes pour optimiser son expérience conversationnelle

Pour construire un voicebot fonctionnel et créer des scénarii conversationnels ergonomiques, tous les éléments structurants doivent être mis en place et complétés par des guidelines vocales définies.

Voici 10 principes clés pour vous accompagner dans l’élaboration d’un voicebot et valider son efficacité :

1 – Définir un scope fonctionnel précis (objectifs & mission)

Un bot (chatbot ou voicebot) a besoin d’un périmètre bien défini pour être pertinent pour l’utilisateur. Les bots « à tout faire » finissent par rapidement être des gadgets. Il est essentiel de bien cadrer sa mission, d’après un cas d’usage précis pour une cible particulière (B2B, B2C…).

2 – Expliquer les interactions (onboarding & menu)

Expliquer la mission du voicebot et comment interagir avec lui est un prérequis. En une phrase, le bot doit être capable de décrire quelles actions peuvent être effectuées et quelles questions peuvent être posées.

Un « onboarding vocal » indispensable pour que l’utilisateur ait conscience de ce qu’il est capable de faire avec le bot et comment il peut le faire, pour ainsi éviter les risques d’incompréhensions et demandes hors scénario.

3 – Resituer l’utilisateur (navigation)

L’utilisateur doit toujours être resitué dans les parcours via un rappel par le bot de l’action qui est en cours.

Dans un parcours vocal, le risque de se perdre et d’oublier les premières réponses est plus important. Demander des confirmations, répéter les données clés, est une bonne pratique notamment pour des actions sensibles de type ‘transaction bancaire’.

4 – Limiter le flux d’informations (contenus & navigation)

La probabilité d’oublier des informations est plus forte à la voix qu’à l’écrit. Le bot doit pouvoir donner les informations au fur et à mesure, réduire le nombre de choix possibles (pas plus de 3), ou encore favoriser les questions fermées.

5 – Proposer de l’aide (help)

D’après une étude de Microsoft Research UK, une des frictions rencontrées par les utilisateurs est de ne pas savoir ce que les assistants vocaux peuvent faire. Le bot doit être alors capable à tout moment, d’après une requête « aide », ou en fin de parcours, de rappeler les actions qui peuvent être effectuées.

6 – Revalider les choix importants (réassurance)

Comme un bouton de validation, le bot doit être capable de rappeler l’action qui va être faite en demandant confirmation vocalement à l’utilisateur avant enregistrement de sa demande. L’utilisateur doit également pouvoir annuler à tout moment une action sensible (transaction, changement, achat…).

7 – Écrire pour être entendu (compréhension)

Le voicebot n’a aucun support visuel pour transmettre l’information à part la voix. Il faut alors construire le bot comme si l’on interagissait avec une personne humaine. Le ton, la tournure des phrases, les expressions, le vocabulaire utilisé sont autant d’éléments qui permettent de construire un langage naturel.

8 – Gérer les incompréhensions (erreurs)

Il y aura forcément des cas où l’utilisateur va demander des choses qui n’ont pas été prévues dans le scope des parcours conversationnels. Dans le cas où l’incompréhension se répète dans un des parcours, le bot doit avoir à disposition un kit de réponses adaptées à chaque niveau d’incompréhension, afin d’éviter l’effet déceptif d’une trop grande répétition de « je ne comprends pas ».

9 – Faire le lien avec l’humain (sorties)

Il est indispensable de prévoir une « escalade vers l’humain ». Il y aura toujours des points de parcours qui nécessiteront une intervention humaine, soit quand le bot n’arrivera plus à capter les intentions de l’utilisateur, soit quand la voix seule ne saura se substituer à des actions ‘physiques’ (dans le cas d’une souscription, signature, envoi de documents, justificatifs…)

10 – Oublier que l’on parle avec un robot (personnalité)

Pouvoir identifier le bot, projeter une personnalité, un genre, depuis un ton ou une sonorité de voix permet de créer une connexion plus intime avec l’utilisateur et de favoriser l’usage récurrent du service. Dans le cas d’une intégration in app, web, ou d’un téléchargement depuis le store des Skills Alexa par exemple, le bot devra également être identifié graphiquement par un avatar.

Ces 10 clés de conception ne sont pas exhaustives mais posent certaines bases essentielles à la conception des parcours conversationnels.

Conclusion

Les voicebots permettent aux marques d’explorer de nouvelles interactions avec leurs clients. L’accessibilité des algorithmes qui sont le cœur de ces assistants, permet d’envisager leur création avec plus de facilité, mettant parfois à l’écart le processus de design. Or un bot qui n’a pas été conçu avec une réflexion préalable sur les besoins de l’entreprise, des utilisateurs et sur sa mission, ne peut être viable sur le long terme.

Afin d’assurer une expérience conversationnelle la plus naturelle et ergonomique possible pour nos utilisateurs, n’oublions pas la nécessité d’inclure dès le départ le design dans la conception d’un voicebot car :

 » Le succès d’un bot dépend à 90% du design et seulement 10% du développement  »

Mélissa Chaplice, The Smartly Academy