ARTICLE

Assistants personnels

Outils de surveillance ciblée ou de confort augmenté ?

Septembre 2019

En Juillet 2018, alors que je regarde d’un oeil distrait les spots publicitaires avant une séance de cinéma, l’un d’entre eux capte mon attention. Celui-ci dépeint avec humour une succession de personnages pris dans une action quotidienne et se retrouvant incapables d’en effectuer une autre qui leur vient à l’esprit : une femme dans le noir chez elle cherche désespérément l’interrupteur, un homme en train de cuisiner est incapable de mémoriser 3 temps de cuisson différents, une astronaute se demande depuis l’espace si elle a bien fermé sa porte d’entrée… À la fin de chaque situation, de larges lettres blanches apparaissent pour écrire sur l’écran “ Dites à Google de le faire ”. À la fin du spot, une voix synthétique s’adresse au spectateur : “ Bonjour, comment puis-je vous aider ? ”. Très intrigué par ce spot, une recherche m’apprend plus tard qu’il s’agit de la promotion de Google assistant, un programme alors disponible depuis environ 2 ans sur smartphone Androïd, ayant pour but d’aider ses utilisateurs dans diverses tâches du quotidien, et que les équipes de Google cherchent depuis quelques mois à rendre “ plus visuel, plus naturel dans la conversation et toujours plus utile ”.

Si certains historiens des technologies font remonter l’apparition des systèmes d’assistance au milieu du 20ème siècle, c’est Apple qui contribue à leur diffusion de masse en 2011, en intégrant à son Iphone 4s le programme Siri. Racheté un an auparavant, celui-ci a été à l’origine développé dans le cadre d’un projet financé par la DARPA, une agence du département de la Défense des États-Unis chargée de la recherche et développement des nouvelles technologies militaires du pays. Le programme est à l’époque capable de comprendre les instructions verbales données par les utilisateurs et de répondre à quelques requêtes basiques, comme démarrer un appel, vérifier la météo ou noter un rendez-vous sur l’agenda du téléphone. Une compétition technologique s’engage alors entre les grandes entreprises du numérique, notamment marquée par le lancement par Amazon en Novembre 2014 d’Alexa, son “ assistant personnel ”, intégré à un objet dédié, le Amazon Echo, une enceinte connectée capable d’effectuer des recherches sur internet, de passer des commandes en ligne ou encore de contrôler différents objets de domotique (lumières et électroménager connectés, services de vidéo à la demande...). Voyant l’engouement du public américain pour ce produit, Google sortira en 2017 sa première “ enceinte connectée ”, le Google Home, suivi la même année du Genie X1 de Alibaba, puis en 2018 du Homepod d’Apple et du Galaxy Home de Samsung. Pourtant, derrière ces noms ‘‘marketés’’ se cachent des algorithmes très complexes, nous promettant une vie plus simple grâce des écosystèmes de produits interconnectés destinés à prendre place au coeur de nos espaces de vie les plus intimes, à l’image de la gamme de produits Google Nest comprenant caméras, thermostat, box pour téléviseur, sonnette ou encore relai Wifi, objets tous contrôlés via l’enceinte Google Home.

Si le cabinet d’étude Roland Berger estimait en France le nombre d’utilisateur de ces enceintes à “ seulement ” 1,7 million en 2018, soit environ 3,4% de la population adulte, ce chiffre monte, selon le cabinet eMarketer, à 26,2% aux États-Unis la même année. Afin d’étudier ce phénomène, cet article s’intéressera au rapport entre la forme de ces nouveaux objets électroniques, aussi bien physique qu’immatérielle, et leur fonction “ d’assistance ”. Il se focalisera principalement sur la gamme Google Nest qui, bien que moins vendue dans le monde que le Amazon Echo, soulève selon moi le plus de questions de conception, du fait de l’importance accordé au design chez Google, de la communication de l’entreprise à ce sujet, et de l’implantation très transverse de cette dernière sur le marché des services numériques. Cet article plongera dans les usages de ces systèmes avec pour objectif de décrypter le rôle complexe de ces formes physiques et numériques en tant qu’intermédiaire entre l’utilisateur et l'algorithme. Celles-ci ont elle pour but de simplifier l’usage du système, ou de dissimuler leur complexité réelle aux utilisateurs ? Comment ces systèmes sont-ils conçus et comment ces choix impactent-ils les usages et la perception des assistants personnels ?

Capture du spot publicitaire Google assistant, Google, 2018

LES FONDAMENTAUX

Qu’est ce qu’un assistant personnel ?

Le premier système d’assistance serait, selon le chercheur en design Anthony Masure, le programme Audrey, créé aux Bell Laboratories en 1952 et capable de reconnaître les chiffres de 0 à 9 afin de faciliter la commutation téléphonique. Le fantasme derrière ce genre de projet était de remplacer par un algorithme un agent “ d’assistance ” humain, en l'occurrence celui chargé de mettre manuellement en communication deux interlocuteurs. Cette volonté symbolique de dématérialisation des serviteurs, domestiques, majordomes ou secrétaires s’est ensuite incarné dans différents systèmes capable de dialoguer avec un utilisateur, vocalement comme Audrey, ou textuellement comme les “ chatbots ” (ou “ agents conversationnels ”), des programmes aujourd’hui proposés par de nombreux sites pour orienter leurs internautes en fonction de leurs besoins. En s’intégrant à des objets électroniques pré-existants, ces systèmes sont devenus capables de s’interfacer de manière transverse avec d’autres applications et logiciels numériques, comme l’assistant Cortana de Microsoft, intégré au système d’exploitation Windows 10, ou Google assistant, à l’origine intégré au système de messagerie Allo pour smartphone Android. Ces systèmes ont aujourd’hui pour but de réaliser, sous le commandement de leur utilisateur, un certain nombre de tâches simples, ou du moins de faciliter la réalisation de ces tâches. L’assistant peut ainsi sur demande passer des appels téléphoniques, écrire un message texte, lire un mail reçu, prendre des notes, effectuer une recherche sur internet, lancer une playlist musicale, effectuer une réservation…

Qu’est ce qu’une enceinte connectée ?

La spécificité de l’intégration d’un système d’assistance dans une enceinte est que cet objet est dédié au système et à l’interaction avec l’utilisateur. Contrairement aux smartphones ou ordinateurs portables intégrant ces algorithmes, les enceintes comme le Google Home ont pour vocation de prendre place de manière statique et durable au coeur de l’habitat, pour que l’utilisateur puisse interagir avec le système dans n’importe quelle situation, à condition d’être à portée de voix. Il est donc important de bien distinguer le système d’assistance d’une part, qu’on nommera “ assistant ” pour la suite de l’article, et l’objet physique dans lequel il est intégré d’autre part, qu’on nommera “ enceinte ” pour la suite de l’article. Dans le cas du Google Home, l’enceinte est composée de différents éléments : une base en tissu dans laquelle on trouve 3 haut-parleurs, surmontée d’un corps en plastique rigide, comprenant sur une paroi inclinée un ensemble de boutons tactiles pour effectuer quelques réglages de base, un ensemble de LEDS colorées permettant de générer différentes réactions lumineuses, et 2 ouvertures de microphones permettant à l’utilisateur de parler à l’assistant. Enfin, un bouton physique sur l’arrière de l’objet permet de désactiver temporairement les microphones et donc la fonction d’écoute de l’assistant.

En terme d’usage, ce type d’assistant s’interface lui aussi avec d’autres applications installées soit par défaut soit manuellement par l’utilisateur sur l’enceinte, qui fait donc office d’interface vocale de ces applications pour effectuer les mêmes tâches qu’évoqué précédemment. Mais l’assistant peut aussi se connecter à un écosystème d’autres objets “ connectés ” compatibles qu’il va pouvoir contrôler à la manière d’un “ hub ” (ou “ concentrateur ” en français, objet électronique permettant d’en monitorer plusieurs autres). Vous pouvez de cette façon demander à l’enceinte d’allumer une ou plusieurs ampoules spécifiques et d’en changer la couleur, d’allumer votre télévision et de lancer un programme, d’allumer votre machine à café et de la faire fonctionner, de changer la température de votre thermostat, de mettre en marche une ou plusieurs caméras domestiques… L’enceinte fait ainsi office d’objet-interface dans certaines interactions entre l’utilisateur et son environnement, remplaçant tour à tour télécommande, interrupteur ou, clavier de commande.

Comment marchent un assistant et son écosystème ?

Un assistant est en permanence en phase “ d’écoute passive ”, c’est à dire qu’il écoute sans enregistrer (à moins que les microphones n’aient été complètement désactivés) et tente de détecter une formule d’activation, “ Ok Google ” ou “ Dis Google ” en français, lui indiquant qu’un utilisateur a une requête à énoncer. À cette étape, une option facultative intitulée “ Voice Match ” peut permettre à l’assistant de reconnaître personnellement jusqu’à 6 utilisateurs par leur voix, offrant la possibilité de paramétrer des droits et réponses spécifiques pour chacun d’eux, par exemple pour adapter la communication à un enfant ou pour énoncer l’emploi du temps de chacun. Une fois la formule d’activation prononcée, le canal d’écoute est ouvert et l’usager peut formuler une requête. Celle-ci est enregistrée sous forme d’échantillon audio, envoyé sur les serveurs de Google, où il restera stocké par la suite en l’absence de demande de suppression explicite de l’utilisateur. Le traitement de ces données commence par une nouvelle vérification de la formule d’activation, pour vérifier qu’il ne s'agisse pas d’une activation erronée (comme c’est malgré tout parfois le cas). En cas de validation, la requête de l’utilisateur est alors analysée par segmentation du signal audio en phonèmes (sons courts distincts les uns des autres), puis retranscrite par un modèle de langage probabiliste, permettant de déduire les mots en cas de prononciation incertaine et aboutissant à un fichier textuel le plus sensé possible. Ce fichier textuel est ensuite interprété par un algorithme et la commande de l’action à exécuter renvoyée à l’assistant. Celui-ci s'exécute alors, et énonce en parallèle une réponse audio retranscrite par synthèse vocale, décrivant la commande qui a été comprise et mise en oeuvre. Pour finir, une option permet de garder le canal d’écoute ouvert pendant 8 secondes dans l’attente d’une éventuelle autre requête, avant que le système ne repasse à nouveau dans son état initial d’écoute passive.

D’autre part, les autres objets connectés à l’assistant sont eux aussi par défaut en veille, dans l’attente d’une commande. Selon leur fonction, ils peuvent être équipés de microphones, ou de nombreux autres capteurs : accéléromètre (enceinte), magnétomètre (détecteur d’ouverture de porte), capteurs de mouvement (caméra), de présence (système d’alarme), de monoxyde de carbone (détecteur de fumée), de température ou d’humidité (thermostat)... Les données captées par ces derniers sont envoyées vers l’assistant, afin de déterminer les commandes de fond à exécuter (signalement de fumée, maintien d’une température) ou celles demandées spécifiquement par l’utilisateur (verrouillage de porte, changement de température…). Enfin, chacun de ces objets communique également avec ses propres serveurs, ceux de Google ou d’un de ses partenaires, en cas d’une requête spécifique ou d’un objet connecté d’une autre marque compatible avec l’assistant. Ces données sont le plus souvent chiffrées, pour empêcher toute personne de s’introduire dans le système et de voir le contenu des requêtes, des commandes ou des données envoyées des objets vers leurs serveurs respectifs, mais ce n’est pas toujours le cas.

1/4

Comment sont conçus enceintes et assistants ?

Sur son site français, Google évoque le “ design élégant ” et “ bien pensé ” de son enceinte, qui “ s'intègre harmonieusement à votre intérieur, pour vous permettre de profiter de votre musique et d'accéder à l'Assistant Google depuis n'importe quelle pièce ”. La question du design des objets électroniques est complexe, dans la mesure où le numérique, son esthétique et son ergonomie se compose par une hybridation de codes très divers. Ainsi, contrairement à d’autres objets domestiques, les objets électroniques ont pendant longtemps manqués d’archétypes de forme ou d’interaction spécifiques permettant de créer des habitudes d’usage chez leurs utilisateurs. Ils s’inspiraient donc souvent des objets mécaniques du passé, alors que les contraintes techniques ayant guidés leur forme ne s’appliquent plus, comme dans l’exemple emblématique des claviers numériques AZERTY et QWERTY, inspiré de ceux des machines à écrire, qui avait été pensé afin d’éloigner les lettres les plus fréquemment successives dans la langue anglaise (ou française donc) car les tiges des touches voisines (frappant le papier pour déposer l’encre) se coinçaient fréquemment les unes avec les autres pendant la frappe. Mais alors, comment répondre aux divers enjeux spécifiques d’ergonomie et d’interactions que soulèvent les objets électroniques contemporains ? Les concepteurs d’objets intégrant des systèmes technologiques complexes cherchent souvent par leur choix de design à accompagner les utilisateurs dans la manipulation de cette complexité, en définissant, évoquant et structurant les usages que ces technologies peuvent permettre. Si de nombreuses marques cherchent pour cela à créer avec plus ou moins de succès une “ esthétique technologique ” de toutes pièces, Google a opté pour un parti-pris assez différent. Ce qui était particulièrement frappant sur le stand de la marque au salon Vivatech 2018, où tous les plus grands acteurs du numériques présentaient leurs nouvelles innovations : au milieu de centaines de stands minimalistes présentant des objets aux formes science-fictionnelles intrigantes, compliquées mais souvent peu évocatrices et me laissant donc assez insensible, Google avait fait le choix atypique de recréer un environnement domestique avec canapé, bibliothèque en bois et plantes vertes, au milieu duquel la marque présentait son enceinte. Ce choix de communication illustre bien l’approche atypique de l’entreprise en terme de design industriel.

Comme l’explique le journaliste américain spécialisé dans les nouvelles technologies Joshua Topolsky dans son article “ Google Is Really Good At Design ”, Google est historiquement une “ entreprise agressive dirigée par des ingénieurs ”. Selon lui, “ les premiers efforts [de l’entreprise], en particulier avec ses logiciels et périphériques mobiles, ne portaient pas sur la beauté, l'élégance ou la simplicité, mais plutôt sur la flexibilité, l'itération et l'échelle ”, ce qui constituaient des “ priorités utiles pour un moteur de recherche utilitaire, mais qui ne s’adaptent pas bien aux nombreux autres produits de la l’entreprise ”. Les ingénieurs sont en tout cas très représentés chez Google jusque dans les choix de design, orientés sur l’optimisation des matériaux et des coûts de production. La “ hardware team ” de Google a donc été chargée de concevoir le système électronique embarqué de l’enceinte, comprenant haut-parleurs, microphones, système de leds, et ensemble de 3 cartes mères : une pour l’alimentation, une pour la gestion des micros et des leds et une pour procéder l’information et échanger avec les serveurs. Cependant, devant la nécessité de concevoir et dessiner la gamme Nest en tant qu’ensemble d’objets cohérent, l’entreprise a pris le parti d’intégrer à cette équipe des designers industriels. L’une d’eux, Isabelle Olsson, expliquait lors d’une conférence comment ils ont mené ce travail, partant de l’idée que “ la technologie ne doit pas s’incarner dans des boîtes noires avec des lumières bleues ”, critique à peine dissimulée de leur principal concurrent, le Amazon Echo, et plus généralement du design de beaucoup d’objets technologiques contemporains. L’approche design de Google part donc de l’idée que “ la technologie doit paraître humaine ”, retranscrite en “ formes douces, tactilité des matériaux et pureté des couleurs ”. La designer détaille les étapes de son processus créatif itératif, dans lequel un soin particulier est apporté au détail des formes, aux finitions d’assemblage et à la subtilité des couleurs, l’équipe étant passé par des dizaines de pré-maquettes et par “ 157 nuances de gris ” pour la partie textile du produit. De fait, le design industriel du Google Home est indéniablement plus chaleureux que la plupart des objets électroniques contemporains, rappelant l'entreprise de manière subtile et facilitant l’intégration de l’appareil dans l’habitat. Mais le design de l’enceinte, bien que par certains aspects convaincant, ne constitue qu’une petite partie du design du Google Home, comparée à l’importance du design de l’assistant et de l’expérience de l’utilisateur interagissant avec lui.

Gamme Amazon Echo, Amazon, 2016

Dans un article pour le site Silicon Republic, le journaliste John Kennedy interviewait Tríona Butler, designer d’expérience utilisateur (ou UX, pour User eXperience) notamment en charge de la gamme Nest et en particulier du Google Home. Le journaliste explique que “ si l’UX est actuellement considéré comme l’un des domaines d’expertise les plus recherchés, [...] les compétences n’existaient pas formellement il y a 10 ans. ”, la designer témoignant même que “ comme la plupart des gens qui ont fini par travailler en UX, quand nous avons commencé, il n'y avait pas de terme pour cela ”. Ce terme nouveau désigne aujourd’hui un ensemble de pratique relatives à l’ergonomie des produits et environnements numériques, au vécu de leur utilisateur et donc plus généralement à leur design, même si le terme peut aussi s’appliquer au design de produits physiques. Cette discipline est donc la plus importante pour le design de produits électroniques intégrant des systèmes technologiques complexes, car s’intéressant au coeur de l'interaction entre l’utilisateur et le système. Jesse James Garrett, un architecte de l'information, a été en 2002 l’un des premiers à théoriser la pratique en étapes distinctes dans son livre “ The Elements Of User Experience ”, en proposant un diagramme depuis devenu une référence. Il explique que, étape par étape, les choix de conceptions “ deviennent un peu plus spécifiques et impliquent des niveaux de détail plus fins ”, allant du plus abstrait au plus concret en 5 “ éléments ” depuis connus sous le nom des “ 5 S de l’expérience utilisateur ” :

Strategy (la stratégie) :
Cette étape définit la raison d’être du produit, et concerne aussi bien les attentes de ses concepteurs, en terme d’objectifs stratégiques et/ou commerciaux, que de ses futurs utilisateurs, en terme de bénéfice d’usage.

Scope (la portée) :
Cette étape définit toutes les caractéristiques et fonctions qui doivent être incluses dans le produit, et précise la façon dont celles-ci répondent de manière adaptée aux attentes des concepteurs et des utilisateurs, selon la visée du produit.

Structure (la structure) :
Cette étape définit l’architecture des informations (textes, images, sons…) contenues dans le produit et la façon dont leur organisation permet à l’utilisateur d’interagir et de passer de l’une à l’autre des fonctionnalités.

Skeleton (l’ossature) :
Cette étape définit l’organisation optimale des composants concrets du produit (boutons, onglets, photos, blocs de texte, fichiers sonores...) les uns par rapport aux autres, et l'intégralité des possibilités de navigation et d’interaction avec le produit selon les besoin de chaque utilisateur.

Surface (la surface) :
Cette étape définit la forme précise que prend le produit, l’ensemble des caractéristiques (couleurs, typographies, illustrations, mise en page, voix, réactions sonores…) des interfaces avec lesquelles l’utilisateur interagit (visuelles, sonores…).

Schéma et icônes illustrant “ The Elements Of User Experience ”, Jesse James Garrett, 2002

Pour revenir au design du Google Home, le design de l’enceinte ne représente donc qu’une partie de l’élément “ surface ” du produit : l’enveloppe physique de l’objet n’est qu’une “ interface ” pour l’interaction entre l’utilisateur et le système intégré. Sur sa chaîne Youtube et sa page web dédiées à ses activités de design, les designers UX de Google mettent en avant des pratiques d’UX et d’interaction “ centrées utilisateur ”, “ inclusives ” et “ empathiques ”, tenant compte des spécificités sociales, culturelles ou de handicap des utilisateurs. Mais au delà de ces nobles intentions, ils restent très évasifs sur leurs choix concrets de design d’expérience, de navigation ou d’interaction : choix de l’utilisation de la voix, choix de l’emploi d’une formule d’activation pour chaque requête, choix de la centralisation de l’interaction avec un objet unique, choix de proposer une réponse unique par requête... Ces différents points relèvent pourtant de choix de design spécifiques et donc forcément conscientisés, qui ont des conséquences fortes sur la stratégie et la portée de l’assistant et la manière qu’ont les usagers d’interagir avec lui. Comme l’expliquait la Commission nationale de l'informatique et des libertés (CNIL), une organisation gouvernementale qui informe, aide et contrôle les entreprises au sujet de la protection des données personnelles des citoyens en ligne, dans son 6ème cahier “ Innovation et Prospective ” justement dédié à la “ forme des choix ” dans le design de produits numériques, ces choix de conception sont “ loin d’être une simple question d’ergonomie ”. Ils impactent en effet les utilisateurs et la “ configuration de leurs possibilités de choix ” dans la réalité numérique, mais aussi plus largement “ notre perception du monde et notre capacité à agir dans celui-ci ”. Les designers de Google sont pourtant loin d’être inconscients de cet impact, alors que Joshua Topolsky rapportait par exemple dans son article que Marissa Mayer, responsable de la recherche et de l’expérience utilisateur de l’entreprise, avait fait tester par son équipe 41 nuances de bleu différentes pour une barre d’outils afin de déterminer la teinte générant le plus de clics chez les utilisateurs. La designer Tríona Butler rappelle d’ailleurs l’importance croissante de la recherche utilisateur et notamment de l’observation des usages en situation réelle dans ses processus de design, afin que la conception d’un produit prenne en compte l’ensemble des interactions entre l’utilisateur et l’objet. Elle s’interroge même avec son équipe sur “ le chemin parcouru par les consommateurs pour rechercher un produit, décider de le vouloir ”, allant jusqu’au design des emballages, de l’expérience du déballage et de la configuration. Mais la designer ne précise encore une fois pas quels décisions ont été prises pour aboutir au résultat que nous connaissons...

Dilbert, Scott Adams, 2014

Cette opacité des choix de conception persiste au sujet de la structure et de l’ossature du produit, qui s’incarnent en particulier dans le design de conversation et de navigation de l’assistant. Ces disciplines permettent d'imaginer tout ce que les utilisateurs peuvent dire à l’assistant, pour définir ce que l’assistant devra répondre dans chaque cas. Dans une conférence interne intitulée “ Prototyping Voice Experiences: Design Sprints for the Google Assistant ”, Kai Haley et Wally Brill rappelait que le design de conversation joue un rôle fort dans ce produit. Ils expliquent par exemple que “ le degré d’ouverture des affirmations de l’assistant devait être proportionnel aux capacités du service * ” ou encore que “ le ton et le type de discours de l’assistant véhicule l’image de chaque fournisseur de service disponible à travers lui * ”. Si l’assistant a ainsi été conçu pour changer de mode d’expression selon le type de fournisseur de service avec lequel l’utilisateur interagit à travers lui, ces choix relatifs à la voix et à la conversation ne sont pas clairement explicités et donc compréhensibles pour l’utilisateur, pouvant créer une expérience assez troublante lorsque l’assistant change totalement de discours en passant d’une application à l’autre tout en gardant constamment sa voix “ neutre ”, rendue de ce fait très impersonnelle. Il est pourtant évident que toutes ces décisions de conception servent un but communicationnel et commercial, qu’on évoquera dans la suite de l’article.

Si à une époque cette opacité pouvait être attribuée au manque de vision en terme de design chez Google, ce n’est plus le cas depuis plusieurs années, notamment depuis l’emploi de Matias Duarte en 2013, d’abord directeur de l’expérience utilisateur Android, depuis devenu vice président du design. Joshua Topolsky rapporte dans son article les propos de ce dernier, expliquant qu’il n’avait quelques années auparavant “ aucune ambition de travailler pour Google ”, à l’époque connu pour être “ un endroit terrible pour le design ”. Il accepte pourtant l’offre de l’entreprise quand celle-ci lui propose de mener la refonte complète des “ guidelines ” (lignes directrices) visuelles et fonctionnelles de ses produits : charte colorée, style graphique des interfaces, comportement des animations, typologies de design de navigation et d’interaction… Matias Duarte et ses équipes développent alors un véritable “ système de design ” qu’ils nomment Material design. Celui-ci comprend comme l’explique Joshua Topolsky “ un ensemble de principes qui non seulement commençaient à dicter l'apparence et le fonctionnement d'Android en tant que système d'exploitation mobile, mais amorçait également la transition vers un système unifié de conception qui entraînait lentement mais sûrement l’ensemble disparate des services de Google vers un système renvoyant une véritable vision singulière ”. Avec ce système, le design se met à contribuer au développement d’un univers de produits et de service Google multimodaux, c’est à dire accessibles tour à tour sur une multiplicité de support (smartphones, ordinateurs, enceintes, véhicules…), tout en garantissant une continuité et une cohérence d’expérience utilisateur. Grâce à cette logique, Google Assistant “ isn’t middleware — it’s everyware ”, c’est à dire que ce n’est pas un simple “ logiciel tiers ” qui crée un réseau d'échange d'informations entre différentes applications, mais un véritable “ système total ” qui s’appuie de manière native et profonde sur tous les services de l’entreprise. Afin de propager leur “ expérience utilisateur totale ”, pour reprendre l’expression de Tríona Butler, Google a même pris le parti de rendre le Material Design extrêmement ouvert, le système n’étant non seulement pas breveté mais même diffusé et enseigné gratuitement sur Internet, pour que les designers du monde puissent l’utiliser. De cette façon, l’entreprise s’assure le développement de très nombreux services interconnectés et clairement reconnaissables et assimilables à Google…

Image de présentation de la “ Google Smart Home ”, Google, 2019

2/4

La forme des systèmes d’assistance suit-elle leur fonction ?

Après avoir étudié le processus de conception et de développement d’une enceinte et d’un assistant, on peut naturellement interroger le design final de ces produits et leurs usages en situations réelles. Qu’en est-il en particulier de l’affordance de ces produits, c’est-à-dire leur capacité à suggérer par eux-mêmes leurs logiques de fonctionnement et à proposer une utilisation intuitive ? Le sujet de l’affordance constitue un éternel débat en design, notamment cristallisé autour d’une phrase de l'architecte Louis Sullivan dans son texte “ The tall office building artistically considered ” en 1896 : “ la forme suit toujours la fonction ”. Depuis devenu le credo de nombreux designers et architectes se revendiquant du mouvement “ fonctionnaliste ”, cette idée implique que la taille d’un objet, sa masse, ses formes et toutes les autres caractéristiques de son apparence doivent dériver uniquement de sa fonction, afin que la beauté et l’équilibre formel de l’objet découlent naturellement de cette recherche d’affordance absolue. Une large partie du design industriel s’est inspirée de cette vision, les mixeurs, batteurs, presse-agrumes et autres ustensiles de cuisines mécaniques de nos grands parents montrant souvent tous des systèmes à engrenages faisant leur “ fonction ”. Mais l’apparition des objets motorisés a entamé la complexification du rapport entre forme et fonction : le bouton sur lequel on appuie pour mettre en marche le moteur du mixeur électrique et donc son mécanisme a quelque chose de magique, car il brise la continuité directe entre le geste de l’utilisateur et le résultat obtenu, entre la forme de l’objet et sa fonction. Cependant, moyennant une étude, certes un peu plus poussée, il restait possible de comprendre le fonctionnement de l’objet par l’observation, car l’ensemble de ses composants restaient accessibles à qui se donnait la peine de les comprendre. Cependant, les objets électroniques ont créé une nouvelle rupture, en posant aux designers une problématiques inédite : alors que beaucoup revendiquent aujourd’hui encore une conception intuitive et fonctionnaliste, comment évoquer la fonction de ces objets dans leur forme, alors même que la majorité de leurs composants se sont au fil des années dématérialisés ou miniaturisés à des échelles nano-métriques les rendant imperceptibles à l’oeil nu ?

Les designers fonctionnalistes contemporains se retrouvent de fait face à une équation impossible : la lecture de la fonction de tels composants d’après leur forme devient très difficile sans en connaître au préalable les caractéristiques, et la disjonction créé entre eux par le code finit de rendre la compréhension du système impossible, l’interaction entre ces composants étant gérée par un algorithme auquel l’utilisateur n’a pas accès. Ainsi, la complexité fonctionnelle de tels systèmes ne réside plus dans leur mécanique, mais dans les algorithmes qui y sont intégrés : l’observation, même minutieuse, du système ne permet plus d’en comprendre le fonctionnement. Dans son article “ Donner sens et formes aux technologies transparentes ”, Laetitia Wolff, éditrice et commissaire d’exposition en design, évoquait ce problème, en se demandant “ Quel sens accorde t-on aux formes dont la fonctionnalité est imperceptible à l’oeil nu ? ”, pressentant du fait de la rupture créée par ces objets la nécessité pour leurs concepteurs de revisiter leur formalisation et leur affordance, pour évoquer différemment leur fonction. Pour revenir aux systèmes d’assistance, ni la vision du circuit intégré à l’enceinte, ni l’accès au code de l’assistant ne peut aider à comprendre le fonctionnement de l’objet. De ce fait, ses designers industriels ont eu tendance à se réfugier dans l’archétype de la “ boite noire ”, expression désignant un objet ou un système dont les composants internes sont invisibilisés ou rendus inaccessibles, ne pouvant donc être appréhendé que sous l'angle de ses interactions. Cette pratique est également renforcée par l’essor des “ technologies propriétaires ”, les développeurs cherchant à restreindre l’accès à l’électronique et aux algorithmes de leurs objets, pour en empêcher l'étude, la modification ou la copie. Ainsi, le capotage sous des coques en plastique des circuits électroniques des enceintes rend certainement ces dernières plus chaleureuses et faciles d’intégration dans nos habitats, mais si ce procédé permet de contrebalancer la complexité technologique du système par la simplicité formelle de l’objet dans lequel il est intégré, il contribue aussi à faire oublier à l’utilisateur la nature réelle de l’assistant, en entretenant l’imaginaire de l’objet “ magique ”.

Maquettes de recherche pour le Nest Hub, Google, 2019

La question de l’affordance peut se poser de manière similaire concernant le design de l’assistant en lui-même et de l’expérience utilisateur qu’il propose : qu’en est-il de l'intuitivité de ces usages dans un environnement domestique et quotidien ? La journaliste Kashmir Hill raconte dans un long et amusant article pour Gizmodo comment elle a décidé de transformer son appartement familial de San Francisco en “ smart home ” (maison intelligente) sur une période de deux mois, intriguée par le fantasme de “ vivre comme la Bête dans le film de Disney ”, entourée d’objets animés qui prendraient soin de tous ses besoins, et curieuse de voir comment elle serait amenée à interagir avec ces objets dans sa vie quotidienne et familiale. Elle a pour cela acheté un Amazon Echo et de nombreux objets connectés : lumières, cafetière, robot aspirateur, brosse à dents, télé, matelas, cadre photo et même sex toy… Avec l’aide d’un collègue artiste et ingénieur, Surya Mattu, elle a aussi mis tous ces objets en réseau via une borne Wifi spécifique, permettant aux deux collègues de mesurer l’activité réseau de ces objets, en pouvant observer et enregistrer l'ensemble de leurs interactions avec les serveurs de leurs constructeurs respectifs. L’article met en lumière de nombreux défaut d’affordance de ces objets, et notamment leur manque de transparence quant à la façon dont ils communiquent avec leurs serveurs. Kashmir Hill témoigne par exemple de “ la facilité avec laquelle nous oublions que tous ces appareils nous enregistraient et suivaient notre activité. Ces choses ne ressemblent pas à des caméras, la cafetière ne donne pas l’impression de nous enregistrer, alors il était très facile d’oublier que cela se passait ”. Surya Mattu explique pourtant avoir pu observer un jour la machine à café tenter de se connecter plus de 2000 fois en vain avec ses serveurs, du fait d’une panne de serveur du constructeur, alors qu’elle ne le faisait d’ordinaire que quelques fois par jour. Le choix d’invisibiliser ces “ détails techniques ” aux utilisateurs, sans doute pour ne pas nuire à la fluidité d’usage, contribue pourtant aussi à faire oublier les capacités d’enregistrement sonore et/ou vidéo de ces objets : la journaliste expliquant comment “ les caméras finissent par se déplacer vers la périphérie de votre vision puis disparaître complètement ”.

L’usage exclusif de la voix pour communiquer avec l’assistant semble aussi contribuer à la création de frictions d’usages, car si il permet d’aller vers une instantanéité de la connection, il contribue aussi à invisibiliser le fonctionnement de l’assistant, sa logique d’analyse et de traitement des requêtes. Comme l’expliquait le vidéaste TechAltar dans sa vidéo “ Is voice really the future of computing ? ” (La voix est-elle vraiment l'avenir de l'informatique ?), l’interaction vocale constitue un canal mono-informationnel, dans lequel l’utilisateur ne peut pas parler et entendre de réponse en même temps ou naviguer entre plusieurs réponses, devant se contenter d’une réponse unique sans pouvoir juger de sa qualité, de sa pertinence et de sa précision. Ce choix de conception entraîne une perte des éléments de contexte relative au contenu consulté (titre, auteur ou durée d’une chanson, auteur ou date de publication d’une information…) et entraîne selon moi un appauvrissement interactif surprenant comparativement aux systèmes d’assistance textuels, mais surtout une grande passivité de l’utilisateur, n’ayant plus accès à une diversité de contenu et de sources entre lesquels naviguer et faire des choix. Comme le résume pertinemment le vidéaste, “ l’utilisation de la voix est au final un simple troc : nous échangeons la rapidité et la commodité contre le contexte et la précision * ”.

Ce modèle communicationnel entraîne aussi une forme d’hyper stimulation de l’utilisateur, poussé à rechercher une résolution immédiate du moindre de ses besoins ou interrogations en parallèle des actions qu’il est en train de mener sur le moment, comme l’illustrait le spot pour Google assistant évoqué en introduction. Pourtant, ce type d’interactions constitue selon moi une autre friction d’usage, car non compatible avec le fonctionnement “ mono-tâche ” de la cognition humaine, comme l’évoque de nombreuses études, évoquant que ce type d’usage en “ multi-tâches ” ne se fait pas réellement simultanément mais tour à tour, au détriment de la qualité de l’attention accordée à chaque tâche. Le désengagement de l’utilisateur par l’utilisation “ intuitive ” de la voix est donc illusoire, ce dont semble d’ailleurs s’être aperçu les constructeurs si on en croit leurs dernières générations d’objets intégrant leurs assistants, le Google Nest Hub et le Amazon Echo Show, tous les deux encore capable d'interagir à la voix mais étant aussi équipés… d’un écran ! Ce choix permet à l’utilisateur de retrouver une lisibilité plus forte du fonctionnement et des réponses de l’assistant, et une traçabilité plus claire de l’historique des requêtes, dont la suppression est par exemple impossible au travers de l’enceinte. Ce nouveau design permet aussi de résoudre un autre problème d’affordance majeure des enceintes, à savoir leur manque de communication des très nombreux services qu’elles proposent, en poussant l’utilisateur à plus d’exploration des fonctions de l’assistant. Comme l’explique le journaliste Jamie Condliffe dans un article pour le MIT Technology Review, la majorité des enceintes deviennent souvent après quelques jours d'usage “ un élément fonctionnel de la maison, utilisé pour jouer de la musique, régler des minuteries, faire des listes de courses, etc. ”, alors que les nombreuses applications dédiées à des usages spécialisés ne sont que très peu utilisées, car comme il l’explique “ il n’y a aucune indication visuelle pour rappeler aux utilisateurs qu’il existe une “ application pour cela ” sur leur assistant personnel, il est extrêmement facile d’oublier qu’une tâche de niche peut être effectuée en demandant simplement à haute voix ”.

Image publicitaire Nest Hub, Google, 2019

Ce manque d’intuitivité de l’assistant contraste avec la mise en avant dans les publicités de Google de la capacité du système à s’adapter aux besoins de ses utilisateurs, allant jusqu’à tenir compte des spécificités de chacun grâce à la reconnaissance vocale. Pourtant, c’est en pratique plutôt à chacun de s’adapter au mode de communication requis par l’assistant, pour ne pas subir de nombreuses imprécisions ou incompréhensions de ce dernier, comme l’expliquait Julia Velkovska et Moustafa Zouinar, respectivement sociologue et ergonome au Laboratoire SENSE (Sociology and Economics of Networks and Services) d’Orange Labs, dans une interview donnée au LINC (Laboratoire d’Innovation Numérique de la CNIL), menée par Félicien Vallet, expert technique de la CNIL (par ailleurs interviewé ici sur ce site). Ils expliquent tous les deux qu’on observe “ un véritable fossé entre les discours promotionnels [qui vantent les capacités conversationnelles des assistants] et la réalité des usages ”. Julia Velkovska commence par pointer que la reconnaissance vocale “ n’est pas toujours efficace, y compris pour des requêtes simples ”, obligeant parfois les utilisateurs à se répéter plusieurs fois pour se faire comprendre, ce qui “ peut les conduire dans certains cas à abandonner l’usage du système ”. Pour une utilisation plus durable, l’assistant requiert un véritable “ travail de l’utilisateur ”, nécessitant par exemple de “ reformuler les énoncés en les raccourcissant ou en les développant pour apporter des précisions, s’approcher de l’objet ou parler plus fort ”, constituant selon elle une “ structure interactionnelle imposée ”. On peut d’ailleurs observer ces erreurs de compréhension et d’interprétation dans les nombreux tests vidéos du Google Home disponibles sur internet, renforcées par le fait que la version en langue française de l’assistant est encore en développement et donc beaucoup moins perfectionnée que celle en langue anglaise développée initialement. Moustafa Zouinar pointe le paradoxe de ces systèmes, qui plus ils chercheront à donner “ l’illusion d’une conversation naturelle ”, plus ils créeront d’attente et pousseront les utilisateurs à parler “ naturellement ”, et donc plus l’assistant risquera d’aboutir à des incompréhensions. Dans la mesure où l’assistant se base sur la “ voix théorique ” sur laquelle il a été entraîné, certaines voix qui en divergent trop, par exemple du fait d’un fort accent régional ou étranger, pourraient bien être difficilement comprises, forçant encore une fois l’utilisateur à modifier sa diction.

Mais bien plus gênants encore que ces dysfonctionnements, les assistants sont encore responsables de véritables erreurs, parfois sans que l’utilisateur ne puisse en comprendre l’origine ou même s’en rendre compte. Kashmir Hill explique par exemple comment, quelques jours après avoir connecté à son assistant Alexa un ensemble de lumières de Noël, le système se mit à dysfonctionner, l’assistant cessant de reconnaître les lumières en temps que groupe éteignable d’une seule commande vocale, la forçant à “ demander à Alexa chaque soir d’éteindre les lumières une par une. (“ Éteint les lumières de Noël de la cuisine. ” “ Éteint les lumières de Noël du salon. ” “ Éteint les lumières de la bibliothèque. ”) ”, ce qui selon elle “ était bien plus énervant que de les éteindre manuellement ”. Plus grave encore, elle raconte comment un de ses détecteurs de mouvement déclencha un jour automatiquement l’activation d’une de ses caméras alors qu’elle traversait nue son salon, avant d’envoyer la vidéo, heureusement chiffrée (c’est à dire nécessitant un code pour pouvoir être déchiffrée et donc visionnée), sur le cloud et sur l'application dédiée Home Cam de son téléphone… En conclusion de son article, Kashmir Hill analyse donc que “ le fantasme de la maison intelligente est qu'elle nous permettra d'économiser du temps et de l'énergie, mais les difficultés liées à la collaboration de divers appareils de différentes entreprises font que beaucoup de choses m’ont pris plus de temps ”. Plus que les questions liées à la vie privée et à l'anxiété d’être enregistrée à son insu, elle explique donc avant tout que c’est l’aspect “ énervant ” de la vie dans une “ smart home ” qui l’a marquée. Son expérience permettant de rappeler que le “ design élégant ” et “ bien pensé ” évoqué par Google a beau permettre à son enceinte de s’intégrer dans nos habitats, l’affordance actuelle de l’assistant est encore loin d’en permettre une utilisation intuitive et sans frictions, et plus loin encore du fantasme de la maison automatisée de science-fiction.

Les Petits Riens, Lewis Trondheim, 2019

3/4

Pourquoi et comment Google veut-il s’installer dans nos chambres ?

Dans un article pour le site InternetActu, le journaliste Hubert Guillaud analysait que “ derrière leur promesse de fluidité et d’interaction naturelle ”, les systèmes d’assistance “ jouent de ce qu’ils disent et entendent, comme de ce qu’ils montrent et cachent de leur fonctionnement ”. Mais alors que ces systèmes connaissent l’adhésion de nombreux utilisateurs et commencent à transformer nos modes de vie, on peut se demander quelle est la stratégie des constructeurs d’enceintes et d’assistants en cherchant à installer leurs produits au cœur de nos habitats. Après avoir évoqué les nombreux dysfonctionnements et frictions d’usages des assistants et notamment leur manque de transparence quant à leur mode de fonctionnement, on peut légitimement s’interroger : les designers et ingénieurs de chez Google ont-ils si mal fait leur travail qu’ils n’ont pas pris en compte certaines questions pourtant essentielles au confort des utilisateurs, ou ont-ils agit avec d’autres motivations et intérêts en tête ?...

En s’aventurant de plus en plus profondément dans les implications sous jacentes des systèmes d’assistance et de leur conception, une théorie me semble essentielle à évoquer : l’informatique ubiquitaire. Cette expression a été inventée en 1991 par Mark Weiser, alors chef scientifique du Xerox PARC, l’un des plus influents centre de recherches en informatique californiens, dans un article intitulé “ l'informatique du 21ème siècle ”. Weiser y décrit avant même l’arrivée d’Internet sa vision du futur de l’informatique telle qu'il la conçoit avec ses équipes de recherche. Il imagine des outils technologiques embarqués dans divers écrans ou objets de la vie quotidienne, aux fonctions dématérialisées et qui, mis en réseau, “ forment le tissu de notre vie quotidienne au point d'en devenir indissociables ”. Les idées de Weiser ont depuis été largement commentées et actualisées, en particulier en 2006 dans l’excellent livre “ Everyware : La révolution de l'ubimédia ” d’Adam Greenfield, célèbre architecte de l’information, designer numérique et essayiste. À travers différentes thèses, celui-ci prévoit l’émergence d’un “ changement de paradigme ”, consistant en “ la “ colonisation ” de la vie de tous les jours par les technologies de l’information ”. Il donne à ce projet le nom d’ubimédia (pour “ média ubiquiste ”), et le décrit comme “ une expérience qui implique un écosystème d’appareils et de plates-formes, dont la plupart n’ont rien à voir avec des ordinateurs. C’est un phénomène distribué : la puissance et le sens qu’on lui confère sont davantage une propriété du réseau global que l’un de ses noeuds et ce réseau est effectivement invisible. Sur un plan technique, il s’insinue dans des endroits auxquels nous n’avions jamais songé ”. Le terme “ ubiquiste ”, repris à Weiser, ne désigne donc pas seulement des technologies présentes “ partout ”, mais aussi “ en chaque chose ” : Weiser pensait que les ordinateurs de bureau étaient “ voués à disparaître, tandis que les minuscules microprocesseurs qui les animent allaient se répandre dans notre environnement. Et le traitement de l’information allait s’étendre, devenant infiniment interconnecté avec les éléments de la vie quotidienne ”. Dans son texte de 1988, ce dernier nous raconte d’ailleurs en guise d’exemple l’histoire fictionnelle de Sal, une femme évoluant dans son habitat rempli d’objets ubiquistes : un réveil interagissant avec la machine à café, un écran de contrôle de la maison, des écrans tactiles muraux, un système d'enregistrement vidéo… Cela ne vous rappelle rien ?

Image illustrant “ l'informatique du 21ème siècle ”, Mark Weiser, 1991

Je propose ici la thèse selon laquelle le développement par Google de sa gamme Nest consiste en une mise en oeuvre des idées de Weiser, passées au filtre pragmatique des intérêts commerciaux de l'entreprise. Certes ces systèmes technologiques sont, pour le moment, moins explosés dans l’habitat et invisibilisés que ce que prédisait ce dernier, restant encore relativement centralisés dans nos ordinateurs, smartphones et objets dédiés comme les enceintes. On y retrouve cependant les mêmes propriétés “ magiques ” d’objets “ boîtes noires ”, aux usages fluides basés sur une hyper-connexion des objets entre eux via un réseau centralisé, leur permettant de faire système. La matérialisation de la gamme Nest en objets distincts bien définis plus qu’en ensemble de petits composants répond je crois à la nécessaire transposition de ces principes au regard des logiques marketing de leurs constructeurs : il est beaucoup plus simple pour Google de convaincre le grand public d’adhérer à des objets simples et rassurants, aux couleurs pastels et aux courbes douces, plutôt qu’à un système de capteurs, de micros et de haut-parleurs intégrées directement aux sols, murs et plafonds de l’habitat, dont la forme serait pourtant sans doute plus en accord avec la fonction… Le merchandising de Google autour de son écosystème de “ produits intelligents ” contribue aussi à un engagement progressif des utilisateurs dans le système, garantissant au constructeur l’achat continu par ces derniers de nouveaux objets de la gamme pouvant peu à peu s’étendre dans tout l’habitat, compatibilité des différents objets entre eux oblige.

Gamme Google Nest, Google, 2019

Devant la crainte des utilisateurs potentiels que ces objets puissent être peu fonctionnels, voir contraires à leurs intérêts, les constructeurs cherchent à se montrer rassurant en faisant l’éloge de la commodité qu’ils permettent… Le juriste américain Tim Wu explique dans un article écrit pour le New York Times que cette notion de commodité “ est la force la plus puissante qui façonne nos vies et nos économies ”, nous poussant à rechercher toujours plus de confort pour toujours moins d’efforts. Il affirme que cette logique peut nous pousser à mettre de côté nos préférences, au profit d’options plus faciles, en transformant de ce fait nos opinions réelles. Selon lui cette commodité devient de fait “ l’allié naturel du monopole, des économies d’échelles et du pouvoir de l’habitude ”, en encourageant le développement exclusif de certains constructeurs, dont Google, dont les services seront plus “ commodes ” à utiliser, rendant les constructeurs plus puissants et donc leurs services plus commodes encore… Mais cet absolu de confort normalisé basé sur un refus du moindre effort physique ou mental est-il réellement si enviable ? Comme se questionne Hubert Guillaud à propos des systèmes d’assistance, “ pourquoi la vie devrait-elle devenir aussi performative ? ”. Il analyse je crois avec justesse que notre humanité s’exprime aussi à travers des actions incommodes ou qui prennent du temps, alors que nous ne sommes souvent pas sensibles qu’aux résultats de nos actions, mais aussi aux processus nous permettant d’aboutir à ces résultats. Adam Greenfield va aussi dans ce sens en expliquant “ qu’on peut par exemple estimer, en étant exposé à ces systèmes ubiquistes, que les choix normalisés, régulés, optimisés ne nous conviennent pas. Peut être ai-je envie d’une chambre dont la température soit très fraîche ce soir, au lieu d’être “ confortablement ” douce. Peut être ai-je envie, ce matin, d’affronter la masse des travailleurs qui sortent de la gare en pleine heure de pointe. Et peut-être ai-je simplement envie de conserver la liberté de choisir certaines choses, et non qu’elles soient choisies pour moi. ” En “ disant à Google de le faire ”, comme dans la publicité évoquée en introduction de cet article, l’utilisateur va t-il au final vers plus de confort et de plaisir, ou seulement vers plus de “ commodité ” ? Google Home parle beaucoup dans sa communication de “ l’optimisation ” de notre vie quotidienne (“ optimiser le confort ”, “ optimiser la température ”, “ optimiser le taux d’humidité ”...) : l’utilisateur est invité à déléguer à l’assistant la gestion de toutes ces tâches demandant un effort, comme s’il était en permanence occupé à autre chose. Plus qu’une réelle simplification d’usages bénéfiques aux utilisateurs, je crois que cette vision du confort cache avant tout la promotion d’un certain “ lifestyle ” (mode de vie), développé par l’entreprise.

Le fait que l’utilisateur soit forcé de se concentrer sur le système d’assistance plutôt que sur la tâche qu’il veut accomplir, par exemple pour se faire correctement comprendre, le pousse, sous couvert de facilité d’usage, à se conformer aux logiques de fonctionnement et aux valeurs encodées dans le système et donc à réduire ses options de choix en délaissant une part de son esprit critique. En résulte une approche selon moi assez dogmatique du rapport entre l’homme et la technologie. Il est d’ailleurs amusant d’observer qu’un certain nombre d’utilisateurs d’enceintes et d’assistants se retrouvent à jouer le rôle “ d’ambassadeur ” de ces technologies, par la représentation devant leur entourage de leur communication avec ces outils ou à travers des très nombreuses “ reviews ” sous forme de vidéos ou d’articles à leurs sujets. Leur utilisation véhicule donc aussi l’adhésion à une communauté séduite par cette commodité moderniste, au point d’accorder à ces systèmes une confiance suffisante pour les laisser s’intriquer avec leurs espaces de vie les plus intimes.

Il est pourtant essentiel de se rappeler que les constructeurs d’enceinte et d’assistants n’ont pas pour but premier de faire la promotion d’un mode de vie, mais que cette communication sert avant tout leurs intérêts commerciaux en leur permettant de vendre plus de produits et de service. En réalisant dans une vidéo un démontage et une analyse détaillée de l'Amazon Echo, le vidéaste Deus Ex Silicium estimait que le coût des composants électroniques de l’enceinte correspond environ au prix de fabrication du produit, comme si l’assistant en lui-même était “ gratuit ”, l’utilisateur ne payant pas d’abonnement au système à la suite de l’achat de l’enceinte. Le vidéaste s'interrogeait donc sur la façon dont les concepteurs de ces systèmes comptaient obtenir un retour sur investissement sur ces systèmes extrêmement sophistiqués au regard des milliards d’euros investis dans leur développement… Question d’autant plus frappante dans une autre de ses vidéos, dans laquelle il effectue un travail similaire sur un Google Home Mini reçu gratuitement en cadeau à la souscription d’un compte Premium sur la plateforme Spotify, alors que l’objet relativement complexe coûtait encore à l'époque plus d’une cinquantaine d’euros… Pour répondre à ces interrogations on peut bien sûr évoquer le concept d’économie de la donnée, selon lequel les bénéfices de l’entreprise proviennent de l’exploitation des données des utilisateurs collectées à travers le système, pour son propre usage ou en les revendant à divers annonceurs (concept déjà largement traité sur ce site dans un autre article s’intéressant notamment au modèle de Facebook). Google explique d’ailleurs dans la notice du Google Home que “ l’historique de vos interactions vocales avec l'Assistant Google via Google Home est conservé jusqu'à ce que vous décidiez de le supprimer ”. Adam Greenfield allait jusqu'à imaginer que ces technologies pourraient devenir “ le dernier Saint Graal du capitalisme ”, en permettant grâce à leur implantation dans des espaces très intimes d’obtenir au sujet des utilisateurs “ une information de niveau plus élevé ” et donc d’affiner encore plus précisément la prédiction de leurs besoins et les annonces qui leur sont proposées. Mais je continuerai ici à me focaliser sur les enjeux du design des assistants et de leurs expériences utilisateur, et en l'occurrence de l’impact de ce design sur le déploiement des stratégies commerciales des grandes entreprises les concevant.

Ensemble des facteurs de personnalisation d'un utilisateur Google, Google, 2019

Hubert Guillaud estimait au sujet des systèmes d’assistance que “ l’enjeu marketing est pour l’instant au coeur de ces interfaces ”, aussi bien pour le constructeur du fait de l’interdépendance de ses produits (enceinte Google Home, objets de domotiques Google, Google Assistant pour smartphones Android, compte Google…) que pour les annonceurs qui proposent d’accéder à leurs contenus et services via l’enceinte. Les assistants représentent de fait une plateforme commerciale en pleine croissance, alors que le chercheur en design Anthony Masure rapportait dans une conférence “ qu’en 2018 un américain sur cinq possédait une enceinte connectée et que 50% des recherches en ligne se feraient d’ores et déjà à l’oral. Le shopping via commande vocale pourrait représenter aux États-Unis un marché annuel de 40 milliards de dollars en 2022, contre deux milliards en 2018 ”. Google travaille déjà largement au développement de ce modèle, en proposant du contenu publicitaire de ses partenaires dans les réponses de l'assistant, alors qu’Amazon permet de faire des achats sur sa plateforme simplement par requête vocale. À ce titre, l’expérience utilisateur de ces objets devient un prolongement direct des services proposés par leurs constructeurs, et donc des modèles commerciaux de ces derniers. Dans son article pour le New-York Times “ Marketing Through Smart Speakers ? Brands Don’t Need to Be Asked Twice ” (Du marketing via des enceintes intelligentes ? Il n’est pas nécessaire de le répéter deux fois aux marques), la journaliste Sapna Maheshwari expliquait que “ les enceintes Google Home et Amazon Echo ne diffusent pas de publicité payante. Les marques ont donc abordé les appareils de deux manières. Certains essaient de déchiffrer le code dans les résultats de recherche et s’assurent que leurs produits sont mentionnés en premier lorsque les utilisateurs disent vouloir acheter un article spécifique. D'autres créent des jeux qui divertissent les gens ou des outils qui fournissent un type de service spécifique ”. Danielle Reubenstein, directrice créative de l'agence de publicité Possible, interviewée par la journaliste, expliquait qu’elle pousse les marques pour lesquelles elle travaille “ à considérer les enceintes intelligentes comme un moyen de nouer des relations avec les gens plutôt que comme un moyen de vendre des produits, du moins pour le moment ”. De nombreux annonceurs suivent déjà cette stratégie : sur requête de l’utilisateur la marque de lessive Tide donne des conseils pour éliminer les taches de jus ou d’herbe sur les vêtements, le fabricant de produits dentaires Oral-B propose un minuteur pour le brossage des dents, Disney démarre des jeux pour enfants…

Les constructeurs des enceintes et assistants s’implantent donc comme intermédiaire entre les utilisateurs et les fournisseurs de services, ce qui en plus de leur garantir des sources de revenus considérables, leur permettra, si ces systèmes continuent à se répandre, de devenir la plaque tournante de tous les services domestiques quotidiens. Cette approche permet à ces entreprises de maintenir un contact ininterrompu avec leurs utilisateurs, tout en se rendant de plus en plus indispensable aux yeux de ces derniers. Je rejoins en cela la vision de la journaliste Karen Hao, expliquant dans un article pour le MIT Technology Review “ qu’en vous offrant le confort puissant et sans accrocs des assistants vocaux, Google et Amazon se sont progressivement imposés comme une plate-forme centrale pour toutes vos données et le moteur principal de la rationalisation algorithmique de votre vie ”. Mais comme elle le précise, “ cette vision nécessite que tout soit connecté ”, c’est à dire que tous nos objets domestiques aient la capacité technique et d’usage d'interagir avec des assistants. Ce qui explique le travail de grande ampleur des grands constructeurs pour éduquer les fournisseurs de produits, de contenu et de service à la conception pour assistants… Amazon a ainsi lancé en 2018 une puce électronique à destination des fabricants d’électroniques, permettant de rendre compatible un appareil avec son assistant Alexa, et d’intégrer plus simplement la fonction de commande vocale. Google de son côté propose des sprints et conférences pour apprendre aux entreprises les “ bonnes pratiques ” du design de conversation pour Google Assistant, et diffuse en accès libre ses API (“ Application Programming Interface ”, ou “ Interface de Programmation Ouverte ” en français), permettant d’utiliser certaines de ses données et briques de code pour créer des services compatibles avec son assistant, tout comme le font Amazon et d’autres éditeurs d’assistants. Ainsi, à chaque fois qu’un utilisateur fera une requête vocale pour accéder à l’un de ces services, celle-ci commencera toujours par passer par les serveurs de l’éditeur où elle sera stocké avant que l’utilisateur ne soit mis en relation, faisant de l’assistant le système d’exploitation incontournable de tous ces services.

Image de présentation d'un sprint de design vocal, Google, 2019

Comme l’évoquait Adam Greenfield une dizaine d’années avant la sortie du Google Home, ces systèmes ubiquitaires ont à terme vocation à “ intervenir à de multiples échelles ”, plus seulement celle de l’habitat mais aussi du corps humain, de l’immeuble, de la rue, de l’espace public… Ce qui explique la récente volonté de Google d’intervenir encore davantage dans nos interactions sociales, avec le lancement de Google Duplex, un service ayant à terme pour vocation d’être intégré au Google Home, basé sur une intelligence artificielle capable d’appeler des commerces pour prendre des rendez-vous à la place de son utilisateur, en simulant une voix humaine avec bruits de bouche, respirations et moments de doute, tout en tenant compte du contexte pour donner l’illusion d’une conversation naturelle. Ces recherches pourront aussi évidemment être utilisés pour améliorer l’assistant Google en lui-même, perfectionner ses interactions avec les utilisateurs et donc au final étendre son champ d’action…

Il me semble pourtant important de préciser que les stratégies commerciales facilitées par le design de ces assistants n’invalide pas en soit la technologie de commande vocale : le modèle économique de ces grands groupes amène à certains choix de conception, mais il a des alternatives selon moi plus saines et respectueuses des intérêts des utilisateurs. La fondation Mozilla développe ainsi depuis plusieurs années deux projets collaboratifs et open source autour de ces questions : “ Common Voice ”, qui propose à des internautes de contribuer à la création d’une base de données vocales en prononçant des phrases ou en évaluant la prononciation d’échantillons sonores, et “ Deep Speech ”, un algorithme de reconnaissance vocale. Ces technologies non propriétaires ont pour but de rendre des données vocales librement et publiquement accessibles, afin de faciliter le développement et l'entraînement d’objets utilisant la commande vocale et lutter contre le monopole des grands groupes. La start-up française Snips effectue justement ce travail, en développant un assistant vocal du même nom, basée sur une technologie appelée “ Edge Computing ” (traitement des données à la périphérie), permettant au système d’effectuer la majorité du traitement des requêtes en s’appuyant uniquement sur l’algorithme integré à l’objet, plutôt qu’en passant par des serveurs distants comme le font le Google Home et le Amazon Echo. L’idée de Snips est d’apprendre au système à trier les requêtes selon leurs domaines d’usages, afin que chaque appareil soit entraîné en tenant compte de la spécificité et de la diversité des requêtes nécessaires à son fonctionnement. C’est seulement dans les cas où une commande n’est pas comprise ou mal interprétée par l’assistant qu’une autorisation ponctuelle peut être demandée à l’utilisateur pour aller traiter la requête de manière plus précise sur un serveur distant. Cette technologie permet d’utiliser ces objets sans connexion et donc de garantir plus de respect de la vie privée de leurs utilisateurs, en réduisant considérablement la récupération de données par le constructeur et en empêchant l’écoute éventuelle de l’utilisateur à son insu . Ce type de technologies permet certes de répondre à des requêtes moins transverses qu’un Google Home, mais est-ce si gênant que ça ? Car si ces systèmes ne sont pas perçus comme le prolongement de services comme ceux de Google ou d’Amazon, leurs utilisateurs n’en auront naturellement pas les mêmes attentes en termes d'ampleur, de performance et de transversalité. Il me semble donc assez pertinent de s’orienter vers des systèmes de commande plus spécialisés, certes moins polyvalents mais aussi beaucoup moins opaques quant à leurs logiques de fonctionnement et dogmatiques dans leurs usages.

4/4

Quel rôle doit jouer le designer dans la conception d’un système d’assistance ?

Je rejoins Adam Greenfield dans l’idée qu’ “ à moins d’un effondrement global de notre civilisation technologique, [...] le développement d’une forme d’ubimedia est inévitable, au moins dans les pays développés ”, en particulier du fait de notre modèle de croissance économique de plus en plus basé sur les services, encouragé par le vieillissement de la population ou encore par “ nos besoins de plus en plus forts en sécurité et en surveillance ”. Comme lui je crois que l’immense majorité des futurs utilisateurs de ces technologies ne connaîtront rien à leurs logiques intrinsèques de fonctionnement et accepteront par “ commodité ” de se laisser guider par leurs interfaces simplifiées sans nécessairement chercher à les comprendre, dans une sorte d'ignorance consentie. Nous sommes au point de bascule du développement de ces technologies d’assistance, qui commence déjà à se répandre massivement mais qui n’ont pas encore remportées une adhésion unanimes comme les smartphones ou les plateformes de streaming vidéo. Leurs méthodes de conception et le rôle de leurs concepteurs peuvent et doivent donc être questionnés. Il est grand temps de définir les règles et standards de développement de ces technologies, car comme le pressent Greenfield, “ nous devrions faire ça avant que nos vies ne soient submergées d’interfaces “ mal fichues ”, d’implémentations illogiques et d’entrave à nos libertés ”. Ce travail sera complexe, alors que l’accès facilité par les constructeurs aux langages et interfaces de programmation des services pour assistant a “ démystifié le processus de développement ”, tout en permettant aujourd’hui une “ augmentation drastique, sans précédent, du nombre de non spécialiste impliqués dans le développement d’applications “ faites maisons ” ”, ce que l’essor des projets d'entreprenariat dans le domaine des services a démontré. Les concepteurs de systèmes d’assistance ont pourtant la responsabilité morale de garantir par leurs choix la protection de leurs futurs utilisateurs, notamment comme le préconisait Mark Weiser dans son texte “ en les construisant de la façon la plus sécurisée possible ” et en y “ incorporant tous les garde-fous imaginables pour protéger les valeurs individuelles ”.

Alors qu’une grande partie des développements de ces systèmes et services semblent se faire sans que ces questions ne soient abordées, les designers me semble pouvoir jouer un rôle intéressant dans ce travail. Il est aujourd’hui frappant de voir comment certains designers intégrés dans des grands groupes comme Google se retrouvent souvent à jouer le rôle d’ambassadeur voire de support promotionnel des produits qu’ils conçoivent, en se mettant en scène les utilisant dans un cadre privé. Lors de la conférence évoquée plus tôt, Anthony Masure s'interrogeait d’ailleurs : “ Le design a-t-il pour vocation d’accompagner sans heurts le développement du capitalisme cognitif ? ”, concluant par le fait que le rôle du designer ne devrait pas être de produire de l’acceptation sociale de ces technologies par des procédés de conception malhonnêtes, en permettant la mise en place concrète d’usages malsains basés sur une hyper-stimulation de l’utilisateur et une hyper-exposition à des contenus commerciaux. Pour un designer critique, un arbitrage complexe est à faire au cas par cas entre le fait de participer au développement probablement inévitable de ces technologies et le fait de concevoir des usages qu’il estime non éthiques et non respectueux des libertés des utilisateurs. En d’autres termes, le designer peut-il aider à remettre en cause un système tout en y participant ? À part dans des entreprises aux enjeux commerciaux aussi énormes que Google ou Amazon, je crois que l’exercice est possible, et même nécessaire, car une posture de rejet technophobe ne touchera pas ou peu les utilisateurs des futurs systèmes qui émergeront malgré tout, et aboutira donc selon moi à des dérives bien plus malsaines que ne le fera une pratique critique de la discipline. Les designers peuvent apporter à ces projets leurs méthodes de conception centrées avant tout sur les usages et les utilisateurs, découlant ensuite sur des besoins technologiques pertinents, au lieu de partir comme c’est trop souvent le cas d’une innovation technologique pour imaginer peu pertinemment de nouveaux besoins. Ils peuvent jouer en interne des processus de conception un rôle de garde fou, afin d’accompagner les constructeurs des ces technologies vers une prise de position plus claire quant à leurs choix formels en terme d’expérience utilisateur, d’interface vocale ou encore de design de conversation.

Triona Butler, designer UX chez Google, Colm Mahady / Fennell Photography, 2018

Mais comment les designers peuvent ils intervenir plus concrètement sur la conception de ces produits, tout en prenant en compte les intérêts des constructeurs et ceux des utilisateurs ? Dans son cahier sur la “ forme des choix ” dans le design de produits numériques, évoqué plus haut, la CNIL expliquait que “ le design des interfaces n’a pas attendu le Règlement général sur la protection des données (RGPD) pour influencer nos vies ”, en affectant intentionnellement ou non la façon dont les utilisateurs interagissent avec les systèmes technologiques. Cependant, ce règlement “ introduit dans son article 25 la notion de “ privacy by design and by default ”, traduite en français par “ protection des données dès la conception […] et par défaut ” ”, qui force les concepteurs de produit ou service à garantir par défaut à leur utilisateur le plus haut niveau possible de protection de leurs données et intérêts personnels, notamment en encourageant “ la participation active des personnes concernées dans la protection de leur vie privée en leur demandant d’activer intentionnellement des fonctionnalités invasives ”. Dans cette idée, le rôle concret des designers serait alors “ d’identifier, dans les outils et services numériques, les endroits clés où ces dynamiques d’influence se concentrent ”, afin de garantir une expérience d’utilisation non biaisée et transparente pour l’utilisateur. Ce travail repose sur la reconnaissance d’un ensemble de “ pratiques de design potentiellement trompeur ”, ayant pour but de pousser l'individu à accepter de partager plus que ce qui est strictement nécessaire, d’Influencer son consentement, de créer de la friction aux actions de protection des données ou simplement de dérouter l'individu, pratiques à proscrire pour obtenir à chaque étape de l’utilisation du produit le consentement libre et éclairé de l’utilisateur. Adam Greenfield estime à juste titre que “ même si l’on pouvait compter sur les développeurs pour agir de bonne foi, cela ne serait pas assez précis pour constituer un guide d’une quelconque utilité pratique ”, et il propose donc au terme de sa réflexion un ensemble de 5 règles applicables par les concepteurs de systèmes d’ubimedia, définissant de façon détaillée les objectifs que ces derniers doivent selon lui se fixer en prenant en compte leurs potentielles dérives. Cet ensemble de règles transposable au design des systèmes d’assistance me semble très intéressant à commenter et à utiliser comme base de réflexions pour établir les bonnes pratiques de conceptions de ces technologies. C’est ce que je propose de faire maintenant en conclusion de cette dernière partie.

1. Les dysfonctionnements de l’ubimedia ne doivent pas entraîner de danger

Selon cette règle, les assistants devraient en toute circonstance fonctionner “ de sorte qu’ils garantissent la sécurité de l’utilisateur, d’un point de vue physique, psychique et financier ”, en fonction de la perception culturelle de ces notions selon la nationalité de l'utilisateur. Ils devraient notamment être conçu selon un principe de “ dégradation élégante ”, qui garantit “ qu’en cas de dysfonctionnement le système doit cesser de fonctionner de façon douce, non de façon catastrophique, et ses fonctionnalités doivent s’arrêter progressivement ”, en particulier en rendant les causes de ces dysfonctionnements compréhensibles pour l’utilisateur. Cette règle paraît évidente, mais elle est pourtant relativement complexe dans son application concrète, du fait de la courbe exponentielle du développement de ces technologies. Je crois que des brèches de sécurité pourront toujours émerger ou des personnes mal intentionnées nuire aux utilisateurs, peut-être pas physiquement, mais moralement et financièrement, en récupérant des données à leur insu pour les revendre, ou en piratant micros ou caméras pour soutirer de l’argent par chantage, de manière similaire à une pratique récente. Les concepteurs se doivent donc d’envisager et de tester toutes ces failles avant de diffuser leurs systèmes. Ils peuvent aussi accompagner les législateurs, les états et les autorités de contrôle, dans l’étude de la dangerosité potentielle de certains produits. La CNIL, qui intègre des designers à ses équipes, milite justement pour que les autorités de protection des données européennes “ recrutent davantage de compétences nécessaires à l’analyse des interfaces, en faisant appel de manière ponctuelle ou plus régulière à des équipes de designers et de spécialistes des questions de psychologie des individus ”, notamment en constituant des laboratoires transversaux. Ce type de démarches pourraient permettre aux designers de tirer partie de leur expertise de conception pour questionner au cas par cas les nouveaux usages de ces systèmes et garantir le respect des règles posées par les législateurs pour garantir l’intégrité des utilisateurs de ces systèmes.

Dilbert, Scott Adams, 2017

2. L’ubimedia doit s’autoprésenter

Selon cette règle, les assistants devraient avoir l’obligation de nous informer de leur présence dans un objet ou un environnement, qu’il soit matériel (enceinte, objet “ connecté ”…) ou immatériel (site web, système d’exploitation…). Le concepteur du système devrait permettre à l’utilisateur de “ savoir quel type de collecte d’information est mis en oeuvre dans un endroit donné, de quel genre d’informations il s’agit, qui en est responsable, et dans quel but cela s’effectue ”, mais aussi l’informer sur “ la façon dont les systèmes sont connectés à d’autres ”, en fournissant “ les moyens - de façon immédiate et transparente - de connaître leurs propriétaires, leur utilisation et leurs possibilités ”. Cette réflexion amène à celle sur les “ coutures ” de ces systèmes, terme énoncé par Mark Weiser désignant leur fonctionnement interne et leurs connexions avec d’autres systèmes. Deux approches de conception s’opposent : le “ sans couture ” (seamless), selon lequel ces éléments doivent être rendus imperceptibles pour l'utilisateur, et le “ avec couture ” (seamfull), selon lequel ils doivent à l’inverse être rendus perceptibles et intelligibles. Ces deux approches sont depuis longtemps débattues dans la communauté de l’informatique ambiante, débat depuis généralisé à la conception de tous les systèmes technologiques. Si Weiser voyait le “ sans couture ” comme une approche indésirable, car “ fondamentalement facteur d’homogénéisation ”, Adam Greenfield constate que ces idées “ ont été étrangement inversées au fur et à mesure qu’elles devenaient réalité ”, étant souvent “ présentées comme assurément bonnes ” dans une sorte de “ paternalisme ” qui “ prive l’utilisateur d’une participation active aux décisions qui affectent l’expérience qu’il vit ”. Je rejoins sur ce point Mark Weiser qui plaidait donc au contraire pour une conception de systèmes avec “ plein de couture, avec de belles coutures ”, afin d’aider les utilisateurs de manière didactique à “ comprendre les systèmes qu’ils rencontrent, comment ils fonctionnent et ce qui se passe aux jonctions entre plusieurs systèmes ”.

Comme on l’a vu, les systèmes d’assistance tendent souvent à invisibiliser leurs logiques de fonctionnement et notamment la gestion qu’ils font des données d’utilisation et leur communication avec les bases de données des fournisseurs de services proposés au travers de l’assistant car, comme l’analysait la CNIL dans son cahier, “ la simplicité se voit aujourd’hui mise au service du principe d’efficacité, paradigme dominant de notre société, afin que l’utilisateur ne perde pas de temps et exécute rapidement ce qu’il souhaite ”. Cette pensée et ces principes sont de fait “ souvent considérés comme indiscutables et imprègnent les bonnes pratiques des professionnels ”, popularisée par des ouvrages comme Don’t make me think du consultant en expérience utilisateur Steve Krug, dans lequel l’auteur affirme à propos de l’utilisation d’un produit que “ je devrais être capable de comprendre ce que c’est et comment l’utiliser sans aucun effort pour y penser ”. L’ouvrage “ De la simplicité ” de John Maeda, designer numérique et essayiste influent, fait aussi référence dans le design d’interface, d’expérience utilisateur et d’objets technologiques, mais me semble essentiel à re-questionner au vu des enjeux de design contemporains. L’auteur y proposait, en 2006, 10 lois de conception ayant pour but de réduire autant que possible l’effort et le temps d’usage d’un produit, en atténuant sa complexité, masquant les parties les moins utilisées de l’objet et réduisant le panel de commandes proposées. Si ces principes servaient à la sortie du livre à repenser les interfaces très compliquées qu’on trouvaient alors, les designers contemporains se doivent de remettre en question certains d’entre eux, en particulier pour des objets comme les assistants, car l’extrapolation de ces “ lois ” contribue aujourd’hui à déconnecter les utilisateurs du fonctionnement réel des objets qu’ils utilisent et à dissimuler l’emploi de techniques commerciales agressives en lien avec ces objets, que le livre n’évoque que très peu. Les designers doivent selon moi refuser de masquer des caractéristiques intrinsèques du produit, que ce soit à travers d’interfaces “ naturelles ” invisibilisant “ par défaut ” les comportements du système ou l’origine réelle des contenus proposés, ou par un design trompeur, comme l’a par exemple fait Google en dévoilant lors d’une mise à jour que son système d'alarme Nest Secure intégrait un microphone jusqu’alors inactif, non mentionné dans la fiche technique de l’objet. À l’inverse, je crois que le designer de système d’assistance se doit d’indiquer de manière affordante à l’utilisateur les interactions possibles avec le système et ses potentialités d’interaction avec d’autres objets, mais aussi, comme le suggérait pertinemment Maëda dans sa loi sur la “ différence ” entre simplicité et complexité, de “ proposer par vagues des accès à la complexité du système ”, dans certains cas d’usage. Car comme le rappelle Adam Greenfield, “ même si l’effort conduisant à masquer des éléments du système à l’utilisateur est bien intentionné, il devrait toujours demeurer possible, pour ceux qui le souhaitent de faire apparaître au grand jour l’entière complexité du système. ”

Schéma illustrant “ De la simplicité ”, John Maeda, 2006

3. L’ubimedia ne doit pas faire perdre la face

Selon cette règle, les assistants devraient “ dans un fonctionnement normal, éviter de placer les utilisateurs dans une situation embarrassante ou humiliante, et leur épargner le ridicule ou l’opprobre public ”. Les concepteurs de ces systèmes doivent en particulier s’assurer que les procédés de déduction des comportements et des préférences des utilisateurs n’impactent pas en mal leur relation aux autres ou à eux mêmes, notamment en permettant “ qu’il soit toujours possible, quand on le souhaite, d'empêcher quelqu’un (ou quelque chose) de tirer des conclusions sur nos intentions ou nos agissements ”. Principe qui peut s’avérer complexe à respecter lorsque plusieurs utilisateurs ont l’usage d’une même enceinte et peuvent donc tous avoir accès à l’historique de leurs conversations mutuelles avec l’assistant... Problème renforcé par les nombreux dysfonctionnements des assistants, comme en témoigne l’exemple de Kashmir Hill, qui peu de temps après s’être fait filmer nue à son insu par sa caméra raconte avoir eu une dispute avec son mari quand celui-ci débrancha une des caméras pendant qu’elle était en voyage sans la prévenir à l’avance. Le designer participant à la conception d’un assistant a la responsabilité d'anticiper comment tous les différents usages possibles de celui-ci peuvent impacter en mal la vie personnelle, sociale, familiale voire professionnelle de ses utilisateurs. Dans l’excellente vidéo “ Our Friends Electric ” réalisée pour le Mozilla’s Open IoT Studio, le studio de design Superflux imaginait 3 assistants et 3 enceintes fictionnels, présentant des types d’interactions non souhaitables mais proches de certains usages existants. Deux en particulier me semblent intéressants à mentionner ici, qui questionnent avec finesse le rôle actuel de ces technologies et leurs logiques de fonctionnement. Le premier, Eddi, est un assistant qui pose beaucoup de questions à son utilisateur avant de répondre à chaque requête, afin de comprendre à son insu ses motivations dans le but de déduire ses habitudes de vie et finir par prendre peu à peu le pas sur l’autonomie de ce dernier. Le second pressentait finement l’apparition de services comme Google Duplex, en imaginant un assistant capable de passer un appel à la place de son utilisateur, tout en permettant à ce dernier de moduler différents traits de caractère de l’assistant, par exemple en diminuant sa politesse ou en augmentant sa confiance en lui. En nous montrant une utilisatrice s’en servir pour faire réclamation auprès de son fournisseur d’énergie et faisant devenir l’assistant de plus en plus agressif au fil de l’appel, la vidéo illustre le risque que ces technologies soient utilisées pour déléguer la responsabilité et l’impact émotionnel de certaines de nos interactions sociales, rappelant la tendance des “ haters ”, des internautes très virulents envers une personne ou une communauté sous couvert d’anonymat. Afin d’éviter ces dérives d’usage, le rôle des concepteurs de systèmes d’assistance sera selon moi au contraire de favoriser l’implication de leurs utilisateurs dans les relations qu’ils établiront à travers elles avec d’autres, afin de ne pas générer de gêne, de honte, d’incompréhension ou de conflit du fait de ces technologies.

Capture de “ Our Friends Electric ”, Superflux, 2017

4. L’ubimedia ne doit pas faire perdre de temps

Selon cette règle, les assistants ne devraient pas “ ajouter de complication superflue aux opérations ordinaires ”. S’ils proposent de remplacer “ l’improbable désordre ” des interactions que nous avons avec des infrastructures physiques et informationnelles et même parfois des objets que nous utilisons dans ces interactions (ordinateur, smartphone, enceintes, cartes de crédit, cartes d’abonnement ou de fidélité…), ce remplacement ne doit avoir lieu que s’il permet réellement de nous faire “ consommer moins de temps, d’énergie et d’attention ”. Comme le rappelle l’auteur dans un autre chapitre, ces systèmes n’auront pas que pour but de perfectionner des technologies existantes, mais elles s'insinueront aussi “ dans des transactions desquelles la technique était jusqu’alors absente ”, pouvant donc entraîner des formes de complexité d’usage et des situations d’échec qui n’existent pas actuellement. Les designers de systèmes d’assistance se doivent selon moi de résister à la volonté des constructeurs de se rendre indispensables, en identifiant et rejetant l’utilisation de techniques de design malveillantes ayant pour but de rendre fastidieux et complexe le réglage des paramètres de l’assistant en termes de préférences d’usage et de protection des données personnelles, ou de complexifier l’accès à ces réglages par un processus volontairement chronophage. Plus globalement, les designers ne doivent pas encourager l’hyper-stimulation de l’utilisateur par l’assistant, car comme s'interrogeait Hubert Guillaud dans son article : “ Nos meubles et gadgets ne finiront-ils pas par nous épuiser à force de devoir leur parler ? La commande vocale et son corollaire, l’écoute, nécessitent une attention bien plus captive encore que nos écrans dont nous ne cessons pourtant de nous plaindre ”. Pour ne pas participer à la prolifération incontrôlée des technologies d’assistance, leur développement et leur intégration dans notre environnement ne doit se faire qu’à partir de constats d’usage, de réelles situations inconfortables ou de manques, en évaluant à l’inverse les situations dans lesquelles ces systèmes ne sont pas pertinents, en particulier dans un cadre très intime. Ce travail doit selon moi passer par le refus des concepteurs d’intervenir dans des situations qui fonctionnent déjà bien actuellement afin, comme le dit pertinemment Adam Greenfield, “ que nos choix et nos moments les plus intimes ne soient pas envahis et demeurent libres. ”

Illustration pour le Wall Street Journal, Peter Arkle, 2018

5. Les systèmes ubiquistes doivent laisser la possibilité aux utilisateurs de s’en désengager, à tout moment et n’importe où

Selon cette règle, les assistants devraient pouvoir être éteint à tout moment “ sans [que l’utilisateur ne soit] pénalisé pour cela (autrement qu’en se passant des bénéfices éventuels qu’ils apportent) ”. Ces systèmes ne devraient jamais être exclusifs, et toujours permettre une alternative réaliste pour se passer d’eux ou les éviter sans conséquences. En tant qu’utilisateurs potentiels, nous devons pour cela disposer “ du pouvoir d’évaluer nous-mêmes leur mérite, et de prendre nos décisions en conséquence ”, en choisissant librement de les utiliser ou pas. Si actuellement ce problème ne se pose pas réellement avec les enceintes, que les utilisateurs achètent de leur plein gré, il est plus présent dans les cas où des assistants se retrouvent installés “ par défaut ” sur certains appareils, comme l’est Google Assistant sur les smartphones fonctionnant avec le système Androïd, sans que l’utilisateur n’ait la possibilité de le désinstaller. Dans ce type d’implémentation, le design de l’expérience utilisateur doit permettre de désactiver les fonctions d’assistance et de réaliser celles-ci manuellement. Les concepteurs du système ne doivent pas non plus selon moi pousser “ par défaut ” l'utilisateur à partager avec le système plus que ce qui est strictement nécessaire à son bon fonctionnement. Dans cette optique, les assistants doivent être conçus pour accompagner leurs utilisateurs dans le paramétrage de leurs fonctionnement, en particulier lors de l’initialisation du système, sans chercher à influencer le consentement de l'utilisateur pressé ou impatient de terminer cette étape souvent fastidieuse. Ce travail passe aussi par le fait d’énoncer clairement à l’utilisateur ce qui relève de fonctions nécessaires au fonctionnement ou à la sécurité du service et ce qui ne concerne que des fonctions additionnelles ou commerciales. Plus généralement, la “ désactivation ” temporaire des systèmes d’assistance me semblent être une sorte d’impasse, auquel leurs concepteurs ne peuvent rien, car en installant dans son cadre intime des objets intégrant micros et caméras, l’utilisateur ne peut jamais être sûr à 100% que ces derniers sont bien déconnectés quand il le souhaite… Car comme l’explique Kashmir Hill, “ avoir une maison intelligente signifie que tous ceux qui y vivent ou y entrent font partie de votre panoptique personnel ”, faisant référence à un type d'architecture carcérale conçue par le philosophe Jeremy Bentham, reposant sur une tour centrale depuis laquelle de fines ouvertures permettent à un gardien d'observer tous les prisonniers, enfermés dans des cellules individuelles autour de la tour, sans que ceux-ci puissent savoir s'ils sont observés ou non, afin de leur donner le sentiment d'être surveillés constamment. Une fois l’enceinte installée dans l’habitat et connectée à Internet, il n’est jamais certain que l’assistant ne soit pas en train de communiquer avec ses serveurs ou de nous enregistrer à notre insu, alors que Surya Mattu expliquait que l'Amazon Echo échange avec ses serveurs très régulièrement, même sans que la formule d’activation n’ait été prononcée ou lorsque le microphone était désactivé. À moins bien sûr de refuser d’utiliser ces objets tant qu’il ne permettront pas un usage hors connexion, même moins transverse et performant, quand l'utilisateur le souhaite.

Architecture panoptique de la prison de Stateville (Illinois), anonyme, 1925

Conclusion

L’engouement du grand public pour les systèmes d’assistance domestiques a entrainé une course au développement de ces technologies chez les grandes entreprises du numérique. Leurs designers, ingénieurs et commerciaux travaillent conjointement pour concevoir leurs usages simplifiés et faciliter l’intégration de ces systèmes complexes dans nos espaces de vie les plus intimes. On observe pourtant un véritable fossé entre les discours promotionnels qui vantent les formes douces de ces objets ou leurs expériences utilisateur affordantes et la réalité des usages. De nombreuses frictions empêchent encore une interaction fluide entre assistant et utilisateur, aussi bien du fait de mauvaises interprétations des requêtes, d’incompréhensions des logiques de fonctionnement de l’assistant ou de dysfonctionnements techniques purs. La simplicité de forme et d’usage des systèmes d’assistance a avant tout pour but de pousser leurs utilisateurs à délaisser leur esprit critique et leurs préférences réelles, au profit d’un mode de vie basée sur une une recherche absolue du moindre effort, à travers une “ commodité d’usage ”, consentie, de ces objets. Derrière cette simplicité prétendument au service des utilisateurs se cache des techniques commerciales et communicationnelles intrusives, ayant pour but pour le constructeur de se rendre indispensable aux yeux des utilisateurs en devenant le système d’exploitation incontournable de leurs services quotidiens. Face à ces frictions et usages malsains, les designers peuvent jouer un rôle intéressant dans la conception de ces systèmes grâce à leurs méthodes centrées utilisateurs, en basant leur conception sur des constats d’usage plutôt que sur de prétendues innovations technologiques, afin d’accompagner les constructeurs des ces technologies vers une prise de position plus claire quant à leurs choix formels. Pour se faire, les designers se doivent de suivre certains principes de conception précis et d’adopter en interne du développement de ces systèmes une posture critique, garantissant les libertés collectives et individuelles de leurs futurs utilisateurs. Il est essentiel de faire preuve de recul critique dans l’arbitrage bénéfice-risque de la pénétration de ces systèmes complexes dans nos espaces de vie les plus intimes, qui me semble aujourd’hui disproportionnée au regard de leur intérêt d’usage réel.

* Propos traduits par l'auteur

Pour toute question, commentaire ou proposition de collaboration :

martinmoreau95@gmail.com