Se démarquer et se fondre dans la masse : Deux modes de relation entre individus et foules à l’ère de la simulation numérique
A partir du constat des ambivalences de la relation de l’individu à la foule, Tyler Reigeluth s’attache à dévoiler certains des enjeux et limites du déploiement des technologies de reconnaissance faciale.
Individu et foule : une relation tendue
L’histoire de la pensée politique occidentale est indissociable de l’idée de corps politique, quelle que soit la forme que prend ce dernier. Antique, christique ou moderne, la métaphore corporelle irrigue notre pensée contemporaine de l’unité et de la division politique. Il n’est pas question ici de retracer cette histoire déjà richement documentée1 mais simplement de la prendre comme toile de fond à partir de laquelle je relève une relation ambivalente entre le corps individuel et le corps collectif. Plus particulièrement, j’aimerais insister sur le fait que cette relation n’est jamais établie une fois pour toute et dépend notamment du régime de visibilité dans lequel elle s’établit – en l’occurrence celui institué par les technologies de reconnaissance faciale et de gestion de foule. Je distinguerais deux modes de relations entre individus et foules – se démarquer et se fondre dans la masse – qu’il faut comprendre comme deux faces de la même pièce.
Les conceptions du corps politique peuvent, grossièrement, se distinguer selon qu’elles sont indexées à un principe d’unité et d’homogénéité ou qu’elles sont agitées par la dissension et l’hétérogénéité (ce qui n’empêche des formes d’unité mais qui sont dès lors toujours précaires et passagères). On pourrait, dans un geste de simplification extrême, qualifier la première conception d’hobbesienne et la second de spinoziste ou machiavélienne. Le Léviathan de Hobbes contient et régule la disparité de la multitude dans un corps d’ordre supérieur. La multitude devient peuple dans le mouvement de représentation que le Léviathan incarne en devenant son principe unifiant. Au contraire, Spinoza (à la suite de Machiavel) envisage l’individualité du corps politique depuis les mouvements affectifs qui (dés)unissent les corps. L’individualité d’un peuple n’est qu’une situation transitoire qui ne réussit jamais à entièrement subsumer ou épuiser l’hétérogénéité de la multitude2. Comme le souligne Spinoza dans une définition du corps, « Quand un certain nombre de corps, de même grandeur ou de grandeur différente, sont pressés par les autres de telle sorte qu’ils s’appuient les uns sur les autres ou bien, s’ils sont en mouvement, à la même vitesse ou à des vitesses différentes, qu’ils se communiquent les uns les autres leurs mouvements selon un certain rapport, ces corps, nous les dirons unis entre eux, et nous dirons qu’ils composent tous ensemble un seul corps ou Individu, qui se distingue de tous les autres par cette union entre corps ».3 Composés d’individus, une masse peut elle-même devenir individu si les affectes qui l’anime l’y poussent.
Très concrètement, une foule se compose d’un ensemble d’individus. La dynamique de composition et la taille de l’ensemble peut varier sensiblement, d’une coagulation contingente et éphémère à une assemblée récurrente et durable. Une manifestation, une fête foraine, un public de concert, un marathon, les navetteurs à la sortie du métro, une liesse nationale ou sportive… tous peuvent potentiellement être qualifiés de foule. Aussi une foule peut-elle se distinguer par sa taille, sa forme, sa finalité, sa régularité ou au contraire son évanescence temporelle. Il est donc trop réducteur de dire qu’une foule n’est qu’une composition de corps, comme s’il y avait là un simple phénomène d’agrégation quantitative. En fait, ce qu’on a l’habitude d’appeler le corps individuel est lui-même transformé par cette agrégation, sa singularité est assimilée momentanément à l’identité de la foule. Par ailleurs – et c’est ce que nous dit la définition spinoziste – chaque corps peut lui-même être compris comme un ensemble de corps. Tout dépend alors de « l’ordre de grandeur »4 auquel l’activité et l’observation de celle-ci se manifeste. En effet, la relation entre individu et foule témoigne avant tout d’une tension d’échelle qui est mieux saisie en termes de processus dynamique et réversible qu’en termes de différence de substances. Il ne saurait y avoir de critère absolu permettant d’établir ce qui doit compter ou non comme foule – ou d’ailleurs ce qui doit compter ou non comme individu – a fortiori à l’ère du traitement massif de données numériques où chaque individu contient une multitude indéfinie de bouts d’information corrélés à d’autres bouts décontextualisés, ce que Deleuze n’aurait pas manqué d’appeler du « dividuel »5. La foule numérique qui peuple nos agirs quotidiens en sourdine a été remarquablement chroniquée par la journaliste Judith Duportail dans son reportage sur Tinder lorsqu’elle a fait valoir son droit, suivant les provisions du RGPD, auprès de la plateforme à accéder à ses données personnelles. L’entreprise lui a enfin envoyé un dossier de plus de 800 pages comprenant ses moindres faits et gestes sur l’application de rencontre, avec une granularité échappant à la conscience de l’utilisatrice.6 De manière similaire, les algorithmes de recommandation largement utilisés aujourd’hui par les plateformes socio-numériques font correspondre un produit avec un utilisateur non pas de terme à terme mais en passant par une foule de relations entre utilisateurs et produits semblables afin d’émettre des prédictions7. De nouveau, on retrouve cette tension entre une disparité qui compose un individu (ses goûts, ses habitudes, ses préférences, etc.) et l’agrégation de cette disparité dans un individu d’ordre supérieur qui informe en retour l’individu banal et pathétique de ce qu’il cherche, ce qu’il désire, qui module son affectivité. L’individu numérique contient alors une multitude, dont certains éléments font partie d’autres individus et ainsi de suite.
L’indétermination de la foule doit aussi se comprendre dans sa dimension spatiale. En effet, le même nombre de corps rassemblés dans un couloir d’hôpital ou sur la place principale d’une métropole pourrait tantôt apparaître comme une foule concentrée, tantôt avoir une allure plus décousue. La modernité politique réserve d’ailleurs une méfiance particulière pour la foule mais qui est toujours susceptible d’être saisie, mise en forme et canalisée par une puissance ordonnante. A la fois principe d’unité politique individué dans la présence simultanée des corps qui exprimeraient une même volonté (le peuple), et menace de débordement ou de destruction du corps politique dans un mouvement de fragmentation en volontés multiples (la multitude), la foule n’a cessé d’hanter l’espace politique comme étant ce qui ne tient pas en place et risque toujours d’occuper la place. Les stratégies de masse critique, qu’elles se déploient dans l’espace physique ou numérique (comme avec les attaques en DOS), mobilisent cette saturation d’un espace. D’ailleurs, le désaccord permanent entre manifestants et forces de l’ordre sur le recensement de la foule montre bien l’importance politique de savoir combien de corps apparaissent ensemble, de savoir qu’elle est la puissance numérique et affective du corps qui (se) manifeste. En suivant Judith Butler, on pourrait dire que l’assemblée de corps dans un espace publique correspond toujours à l’exercice implicite ou explicite d’un droit performatif à apparaître, de se manifester, d’exprimer le fait que ces corps ci comptent, ce sont eux qui demandent un meilleur emploi, une justice sociale, etc.8
A partir de cette première mise en tension des termes « individu » et « foule », j’aimerais montrer qu’il y a une ambivalence fondamentale qui les fait basculer entre une dynamique centripète (mouvement d’individuation des corps disparates dans un corps collectif) et centrifuge (mouvement de délitement du corps unifié). Cette ambivalence peut nous aider à mieux mettre en scène certains enjeux et limites du déploiement de de technologies de reconnaissance faciale dans des situations de foule.
La foule-archive et la foule augmentée
Depuis la naissance de la statistique moderne, l’individu est renvoyé à la foule invisible à laquelle il appartient à son insu, celle de la distribution normale au sein d’une population. « L’homme moyen » de Quételet n’est rien d’autre qu’un individu abstrait qui regroupe une moyenne de caractéristiques humaines. Sorte de Léviathan statistique, il veille à ce que chacun revienne à la norme que lui seule incarne (Canguilhem). Sans cesse tiraillée entre le détail et l’ensemble9, la statistique organise le disparate sous forme d’entité manipulable sur lequel il devient possible d’établir des corrélations ou d’émettre des prédictions10. Les technologies de reconnaissance faciale s’inscrivent dans la continuité de cet exercice de normalisation d’un ensemble à partir d’un individu-type qui n’a de consistance que statistique. En effet, il s’agit soit de détecter un visage – c’est-à-dire de déterminer si un objet donné correspond bien au modèle statistique d’un visage – ou de reconnaître un visage à partir d’une base de données de visages recherchées, menaçantes ou à risque. Mais dans les deux cas il ne s’agit toujours qu’une de prédiction avec une certaine probabilité de réussite. Si un seuil de probabilité acceptable – il s’agit notamment de trouver un équilibre entre la capacité du modèle à généraliser et le taux de faux-positifs ou faux-négatifs qu’il produit – est relativement facile à atteindre en situation expérimentale contrôlée, il en est évidemment autrement lorsque ces technologies sont déployées sur le terrain (« in the wild »)11. La reconnaissance faciale, en particulier en situation de foule, présente une série de défis techniques, le premier étant évidemment celui de l’échelle (le nombre de visages en présence) et de l’occlusion mutuelle (le fait que les mouvements des corps peuvent cacher en partie ou totalement certains visages) dans des foules très denses. Mais il existe également des défis propres à la nature de la foule rassemblée. En effet, une foule de carnaval présentera le problème du maquillage et du costume, là où un concert pourrait poser celui de la luminosité du lieu ou de l’expression faciale.Ce qui m’intéresse ici n’est pas le débat épistémique autour de ces limitations expérimentales mais plutôt de considérer les formes de subterfuge ou de détournement sur lesquelles ces limitations ouvrent.
Dans un contexte où les systèmes de surveillance et de prédiction numériques ou « intelligents » réclament toujours plus de données pour ajuster leurs modèles en « temps-réel », notamment en matière de reconnaissance faciale, la foule a l’intérêt (du point de vue du développement de ces systèmes) de manifester dans un même lieu et temps une profusion d’occurrences (ici, des visages), en d’autres termes de fournir un vivier de données aux modèles prédictifs. Mais, comme le rappelle Roland Meyer, cette manifestation collective de corps et de visages sous forme de foule tend historiquement à perturber l’exercice du contrôle sur les populations. « Du point de vue des forces de l’ordre et des appareils de contrôle, les masses et les foules constituent un problème récurrent d’adressage. En tant que rassemblement désordonné dans un espace physique, la foule est en quelque sorte le contraire de l’archive. L’indentification, en revanche, suppose l’isolation, l’enregistrement et la désignation, elle est basée sur la production de conditions standardisées qui permettent la comparaison de caractéristiques récurrentes. »12 La question de l’adresse que Meyer souligne ici me semble tout à fait significative. En effet, la foule perturbe doublement l’exercice classique du pouvoir. D’une part, elle n’est que rarement attachée à un lieu fixe (des manifestations plus ou moins longues ou récurrentes comme les Nuits debout ou Occupy font figure d’exceptions remarquables), comme le voudrait l’ordonnancement de l’espace urbain à partir d’un système d’adressage. Si une foule occupe un lieu, c’est d’une tout autre manière qu’une personne occupe une adresse ; il s’agit d’avantage d’une saturation de l’espace qui rend la différenciation des corps impossible, là où l’adressage cherche justement à différencier et sérialiser les corps dans l’espace. D’autre part, elle prive le pouvoir de sa puissance d’interpellation directe comme le mettait en scène Louis Althusser dans la figure du passant qui se constitue en tant que sujet du pouvoir en se reconnaissant dans l’interpellation du policier13. Ce jeu d’interpellation et de reconnaissance caractérise le fonctionnement de l’idéologie dans son évidence, dans toute son apparente naturalité : ce n’est pas tant le pouvoir que le sujet reconnaît en se retournant lorsqu’il est hélé mais lui-même en tant que sujet du pouvoir. C’est l’illusion d’un choix librement consenti qui se rejoue sans cesse dans ce fonctionnement de l’idéologie.
Dans une certaine mesure on pourrait dire les technologies de reconnaissance faciale fonctionnent comme des « appareils idéologiques » en interpellant les sujets à présenter ce qu’il y a de plus évident et singulier de leur identité : leur visage. Pensons à toutes les fois que les utilisateurs de smartphones déverrouillent leurs appareils en utilisant leur visage pour accéder à leurs propres espaces comptes et profiles numériques. L’idéologie de la reconnaissance faciale fonctionne en assignant un visage à son modèle, en indexant la matérialité du visage à une probabilité qu’il s’agit bien du « bon visage ». Le « mauvais sujet » serait d’ailleurs celui qui évite ou refuse de se reconnaître dans « son » visage en adoptant des stratégies d’altération ou de subterfuge de ce dernier. Ceci ne va sans rappeler la critique que formulait Henri Lefevbre à l’encontre d’une mise en transparence du monde : [« …] ces espaces [les villes contemporaines] ont un caractère visuel de plus en plus prononcé. On les fabrique pour le visible : gens et choses, espaces et ceux qu’ils emboîtent. Ce trait dominant, la visualisation (plus important que la « mise en spectacle », que d’ailleurs il inclut) masque la répétition. Les gens regardent, confondant la vie, la vue, la vision. On construit sur dossiers et plans. On achète sur images. La vue et la vision, figures classiques en Occident de l’intelligible, se changent en pièges ; ils permettent dans l’espace social la simulation de la diversité, le simulacre de la lumière intelligible : la transparence »14.
Si l’espace politique moderne s’est, dans une large mesure, développée comme une vaste entreprise de visibilisation par des dispositifs d’adressage15 et d’assignation des individus à un lieu déterminé16, la foule est alors déstabilisante voire dangereuse pour un pouvoir qui se retrouverait sans vis-à-vis clair et distinct, sans sujets à qui s’adresser17. Or, comme le fait remarquer Meyer, l’évanescence de la foule qui échapperait à l’adress(age) se voit désormais transformée en source continue de données numériques, créant ainsi un nouveau rapport de visibilité entre individus et foule qui ne suppose plus la synchronicité d’un corps collectif. « Etant donné que chaque rassemblement est limité par l’espace et le temps, les foules ont toujours été considérées comme des formations instables et passagères. Cependant, maintenant que les rassemblements physiques font l’objet d’un traitement exhaustif de données, leur temporalité s’est transformée en fonction. En effet, il est désormais possible d’accéder à l’information qui s’y réfère à n’importe quel moment et n’importe où. Selon la psychologie des foules, la foule est un collectif sans mémoire. Ses membres s’oublieraient littéralement en agissant comme s’ils étaient en transe. Avec les nouvelles capacités technologiques, les masses qui étaient auparavant passagères sont désormais archivables. Qui plus est, les foules d’aujourd’hui s’enregistrent elles-mêmes. » »18 En effet, les individus passent de plus en plus de temps à s’identifier dans des événements, des lieux, participant activement au processus de reconnaissance faciale. En transposant l’argument d’Althusser on pourrait même dire que ce sont les sujets qui, à travers leurs pratiques d’autoidentification, reproduisent l’idéologie de la reconnaissance faciale.
Le passage ci-dessus de Meyer souligne également le fait qu’il y a nécessairement une certaine phénoménotechnique de la foule : l’appareil fait toujours apparaître d’une certaine manière19. Tantôt la foule peut se représenter de « l’intérieur » (pensons aux innombrables smartphones qui immergent le spectateur dans la foule), tantôt de « l’extérieur » (pensons aux plans de caméras pris depuis un hélicoptère par des journalistes ou policiers). La capture des visages dans la foule peut évidemment se produire par l’enregistrement par des caméras de surveillance mais de plus en plus elle est auto-produite par les utilisateurs de smartphones qui se prennent en selfie, se taguent et géolocalisent leur présence à des évènements ou lieux. La foule, en ce sens, est une entité médiée et médiatisée. Depuis la naissance des médias de masse, elle n’a cessé d’être « augmentée » par la radio ou le cinéma20 pour aujourd’hui se redoublée comme source intarissable de données numériques, notamment par le biais de technologies de surveillance et d’identification mais aussi et peut-être surtout à travers l’utilisation des individus eux-mêmes de leurs dispositifs connectés et géolocalisés. Si le maillage plus ou moins dense des caméras de surveillance constituait déjà une forme d’archivage de l’espace, celle-ci supposait toujours un rapport analogique et représentationnel de l’espace archivé. En revanche, « l’espace augmenté »21 produit par les systèmes connectés et prédictifs tend à rompre cette référentialité à l’espace physique dans la mesure où il n’est plus simplement « augmenté » d’une archive ou d’un ensemble d’enregistrements qui lui seraient indexés, mais d’ensembles de données qui renvoient à d’autres espaces, d’autres contextes. La référentialité spatio-temporelle de l’archive (le cela-a-eu-lieu) cède la place à une logique prédictive d’un réel corrélé à sa simulation, à une « probabilité réelle »22 (le cela-pourrait-être-en-train-d’avoir-lieu).
On pourrait alors dire qu’il y a une foule numérique au-delà de la foule physique. La première ayant non seulement une permanence mais une manipulabilité dont la seconde ne dispose pas. En effet, la seconde ne recoupe jamais parfaitement avec la seconde, elle n’est pas son archive mais sa simulation. « Il devient de plus en plus difficile de distinguer ou opposer ces deux types de foules. Des efforts massifs sont en cours pour établir des connexions stables entre les foules latentes et manifestes, et de les fusionner au sein d’un continuum unique. Tout au long de ce processus le visage sert d’un lien parmi d’autres pour connecter les corps numériques avec les profils numériques. Il est en général plus adapté à cette fonction que d’autres caractéristiques biométriques dans la mesure où il est son image numérique est facilement disponible dans les deux sphères, étant donné que ces images circulent déjà sur internet et ont été enregistré par des caméras de sécurité dans des situations concrètes. ». »23 Le visage de tout un chacun existe potentiellement, à l’état d’une probabilité réelle, dans les prédictions composites effectuées en temps-réel sur des visages dans une foule.
Se démarquer et se fondre dans la masse
Sur la base de ces premières considérations, distinguons déjà deux modes de relation entre individus et foules. « Se démarquer » prend la foule comme corps unifié, contre lequel un corps suspect se manifeste comme une anomalie. « Se fondre dans la masse » consiste au contraire à rentrer dans un rapport d’identité avec la foule au point où cette dernière est potentiellement menaçante dans son ensemble, composé d’une multitude de singularités. Ces deux modes peuvent sont réversibles et toujours susceptibles de basculer de l’un à l’autre. Pour illustrer cette dynamique j’aimerais prendre appui sur un passage du film The Thomas Crown Affair (la version de 1999) dans lequel le personnage principal ramène le tableau volé au Metropolitan Museum of Art de New York. La police, sur le qui-vive, guette la foule de visiteurs à travers les écrans de la salle de surveillance et dirige ses agents déployés dans les couloirs et salles du musée. Le suspect, affublé d’un manteau trois-quarts et une mallette (dans lequel serait supposément le tableau qu’il avait annoncé restituer) se présente, en saluant les caméras avant d’enfiler un chapeau melon. Le clin d’œil au personnage anonyme et récurrent des tableaux de René Magritte n’est évident pas fortuit. En mettant le chapeau melon, il amorce un jeu avec les forces de l’ordre dans lequel il se manifeste et se cache à la fois. En effet, dans un premier temps le spectateur (qui s’identifie aux spectateurs dans le film situé dans la salle de surveillance) ne comprend pas pourquoi il se démarquerait de la foule des visiteurs avec une tenue qui le rend facilement identifiable. Bien que le chapeau soit généralement un habit porté pour cacher le visage du regard des caméras de vidéo-surveillance (thème d’ailleurs extrêmement récurrent dans ce genre d’intrigue cinématographique), il est ici un signe distinctif qui sépare l’individu de la foule. Mais la raison du déguisement ostentatoire devient très vite claire. Parmi la masse des visiteurs émergent d’autres individus portant le même manteau trois-quarts, mallette et chapeau melon. La succession de plans rapides dans cette séquence et l’aller-retour (presque dans une sorte de champ contre-champ) entre la scène surveillée du musée et la salle de surveillance, plonge le spectateur dans la confusion grandissante de la police face à un individu qui se démarque qui devient un individu qui se fond dans la masse. La confusion croit au point ou un des agents demande à son supérieur dans la salle surveillance ce qu’ils doivent faire, ce à quoi ce dernier répond « Just start arresting people », exprimant l’impuissance relative de l’ordre face à la labilité de la foule. La multiplication de figures qui se démarquent en vient à créer une nouvelle foule à l’intérieur de la foule de visiteurs, une foule disséminée et mobile qui ne constitue pas moins une certaine identité et individualité. Ainsi, l’ordre de grandeur de l’individualité bascule d’un corps isolé à un corps collectif. Le ridicule de la situation atteint son comble lorsqu’un agent de police tombe nez à nez avec une affiche du célèbre tableau de Magritte de l’homme au chapeau melon dont le visage est couvert d’une pomme verte. Le clin d’œil implicite à l’anonymité de la figure surréaliste devient une référence explicite, une citation même qui floue le partage entre fiction et réalité comme pour dire « ceci n’est pas un visage ».
Il me semble que cette séquence souligne non seulement la réversibilité des deux modes de relations entre individus et foules mais surtout la dimension mimétique et ludique que cette réversibilité implique. C’est précisément parce que le mode de présence numérique ne suppose pas de référentialité à un contexte spatio-temporel partagé qu’on peut le comprendre comme une forme de simulation. Dans son livre Life on the Screen, Sherry Turkle n’hésite pas à parler de « culture de la simulation » 24 pour qualifier ce rapport aux choses paradoxales où nous savons qu’un bureau d’ordinateur, par exemple, n’est pas vraiment un bureau sans que cela nous empêche d’interagir avec comme cela était sur le même plan de réalité que ce dernier. Comme le formule Turkle en jouant sur l’expression anglaise « to take things at face value » (prendre les choses pour argent comptant), dans cette culture de la simulation nous prenons les choses à « interface value »25, comme si ce qui se présentait à l’interface était la chose elle-même. Pourtant une des spécificités de l’interface numérique est de désolidariser la représentation d’une référentialité directe, d’être – comme le dirait Jean Baudrillard – un simulacre qui précéderait et conditionnerait notre rapport à la réalité26. Sans suivre le diagnostic général de Baudrillard, on peut néanmoins soutenir que la simulation numérique constitue une forme d’expérience inédite, précisément parce qu’elle n’a pas nécessairement vocation à représenter le monde mais à être un monde. Le philosophe des techniques et des jeux vidéo, James Ash, souligne que les interfaces ne sont pas simplement des « points de contact entre différentes choses, ni seulement des représentations symboliques ou graphiques qui indiqueraient vers autre chose, mais bien « environnements réels ; elles sont des écologies d’objets, chacun ayant sa propre capacité de relation avec d’autres objets. ».27 L’interface numérique devient la condition de possibilité d’expérience et avec cette possibilité un espace de jeu s’ouvre où contrôle et subterfuge peuvent se retourner l’un sur l’autre.
Mimesis et simulation
Mon but ici n’est pas de répéter l’antienne critique platonicienne de la caverne selon laquelle le numérique ne serait qu’illusion et perte ou oubli de l’essence mais au contraire de suggérer que le numérique invite à un rapport ludique au monde dans lequel les choses peuvent apparaître sous deux modes simultanément28, comme un individu qui fait partie du corps collectif de la foule tout en demeurant individu. La contagion affective n’implique pas pour autant une aliénation subjective. Il est même possible de lire la duplicité ludique comme l’exercice d’une puissance d’agir, d’un « droit naturel » à expérimenter avec son agentivité29, c’est-à-dire la capacité inaliénable et incompressible à faire apparaître à soi-même ou pour les autres quelque chose comme autre chose. Roger Caillois est l’un des premiers à avoir rappeler le caractère à la fois fictif et perméable de l’activité ludique : « Tout jeu suppose l’acceptation temporaire, sinon d’une illusion (encore que ce dernier mot ne signifie pas autre chose qu’entrée en jeu : in-lusio), du moins d’un univers clos, conventionnel et, à certains égards, fictif. […] On se trouve alors en face d’une série variée de manifestations qui ont pour caractère commune de reposer sur le fait que le sujet joue à croire, à se faire croire ou à faire croire aux autres qu’il est un autre que lui-même. […] Je choisis de désigner ces manifestations parle terme de mimicry, qui nomme en anglais le mimétisme, notamment des insectes, afin de souligner la nature fondamentale et élémentaire, quasi organique, de l’impulsion qui les suscite. »30 En jouant, en rentre dans une illusion performative dans laquelle l’on accepte que les choses puissent apparaître sous différentes formes en même temps et sans contradiction (le jeton en plastique qui a une valeur particulière dans un jeu de plateau, le personnage incarné par une comédienne sur scène).
La plupart des théories sociales et philosophiques du jeu soulignent le fait qu’on ne peut pas être contraint de rentrer dans le jeu et qu’on doit toujours être libre de le quitter. Il faut qu’il y ait un accord minimal et partagé sur le fait qu’il y a jeu pour dire qu’on puisse jouer. Mais le rapport ludique aux choses déborde les périmètres du jeu comme activité sociale plus ou moins instituée. Il s’agit plus largement d’une activité paradoxale où la signification et la charge affective des actions sont réversibles. Pour reprendre les termes de Bateson, « Les actions qui se déroulent ne signifient pas la même chose que ce que signifieraient les actions qu’elles représentent»31 On pourrait dire alors que dans nos interactions numériques on se prête sans cesse au jeu, avec les dédoublements parfois pénibles que cela peut impliquer si l’on pense à l’habitude que nous avons prise à demander à nos interlocuteurs lors de visioconférences s’ils peuvent nous entendre ou nous voir, parce qu’on sait que la perception qu’ils ont de nous est celle de notre simulation (avec laquelle on peut d’ailleurs jouer en modifiant certains paramètres). Pendant la crise du Covid-19, le jeu de simulation a pris des dimensions parfois étonnantes : dans les stades de foot où se jouaient des matchs à huit-clos, on diffusait les chants de supporters extraits des jeux-vidéo Fifa, eux même enregistrés pour les jeux dans les stades (avant le Covid) ; pour égayer les tribunes des matchs de basketball, la NBA a installé des écrans avec des fauteuils virtuels dans lesquels supporters pouvaient prendre place depuis leur webcam à la maison (projetant parfois autre chose qu’eux même à « leur place »32 ). Dans ces cas, l’expérience paradoxale est explicite, on en fait une expérience étrange ou amusante à laquelle on est libre de participer ou non. Mais que se passe-t-il dans les cas où il y a rapport ludique que pour un seul terme et où les autres n’ont pas conscience d’être pris dans un jeu, où l’interface cache le jeu plutôt qu’il ne le révèle ?
Une autre séquence de film, cette fois-ci tirée de Mission Impossible : Ghost Protocol (2011), illustre ce jeu d’interfaces de façon saisissante. Dans une scène d’infiltration, Ethan Hunt et son acolyte, Benji Dunn, avancent le long d’un couloir, au bout duquel est assis un garde, en tenant devant eux un écran sur lequel est projeté le couloir, comme une sorte de mur d’invisibilité. Derrière l’écran une caméra montée sur un bras motorisé suit les mouvements du visage du garde de façon que l’image projetée corrige l’effet de parallaxe. Ce que le garde voit dès lors c’est bien le couloir parfaitement rendu, moins les infiltrants. Il prend effectivement les choses « at interface value » dans la mesure où il lui est impossible de faire la différence entre le couloir et la simulation de celle-ci (à moins d’achopper sur l’écran s’il devait déambuler dans le couloir). On pourrait d’ailleurs interpréter de manière phénoménologique cette scène comme une illustration de la vulnérabilité de la vue lorsqu’elle est dissociée de toute action motrice, lorsque les cartes du « je vois » et « je peux » ne coïncident plus33. Cette vulnérabilité est régulièrement exploitée par des interventions ou détournements ludiques et artistiques comme celui de Simon Weckert qui fait le tour du siège de Google à Berlin avec 99 smartphones géolocalisés dans une charrette pour générer une embouteillage sur GoogleMaps, ou celui de Paolo Cirio dans « Street ghosts » qui a collé des affiches grandeur-nature d’individus photographiés dans la rue à leur insu par les voitures de Google StreetView34.
Si la faisabilité technique du dispositif imaginé dans la scène du couloir de Mission Impossible demeure douteuse, il dramatise néanmoins la réversibilité de la simulation numérique : le trucage est presque révélé au garde lorsqu’un bug technique projette le visage de Benji à l’écran plutôt que le couloir, inversant subrepticement le rapport de visibilité. Comme dans la scène de Thomas Crowne Affair, la tension de la mise en scène s’accompagne ici d’un effet comique qui n’est pas sans rappeler celui suscité par les confusions d’identité dans les pièces vaudevilles : on pense avoir quelqu’un face à soi mais en réalité il s’agit d’un autre. Le théâtre et le cinéma abondent de ce leitmotiv depuis bien avant l’émergence des technologies de reconnaissance faciale. Toutefois, il est vrai que ces dernières viennent amplifier la puissance de contrôle et de surveillance mais aussi de subversion et de détournement. Là où croit le contrôle, croit aussi le jeu. Dans une scène de Mission Impossible : Dead Reckoning (2023) qui doit certainement être un hommage à celle analysée plus haut de Thomas Crowne Affair, Ethan Hunt est poursuivi par les services secrets britanniques dans un aéroport fréquenté. A chaque fois que ces derniers – aiguillés par les agents depuis la salle de surveillance où une IA détecte son visage dans la foule – pense avoir attrapé Hunt il s’agit en réalité d’un autre. Les acolytes de Hunt ont trafiqué les images des caméras en modifiant la signature numérique des visages de sorte que l’IA pense voir (c’est-à-dire prédit avec une certaine probabilité) Hunt là où il n’est pas. La confusion est totale lorsque deux modes de présence se manifestent simultanément : d’une part, les agents sur le terrain indiquent qu’il ne s’agit pas de Hunt et, d’autre part, les agents face aux écrans affichant une probabilité quasi certaine sont certains que c’est bien lui. Le rapport ludique existe dans cet écart où deux identités existent en même temps. Remarquons que cette scène rejoue en fait un thème récurrent à travers la franchise Mission Impossible, celui du masque biomorphique qui simule parfaitement le visage d’un autre35 et qui finit toujours par être arraché dans une scène que l’on pourrait qualifier de révélatrice où, pour reprendre les termes d’Althusser, la reconnaissance évidente révèle sa « fausseté » et laisse place à une méconnaissance qui amorce un rapport renouvelé au réel (et à l’intrigue). Mais de nouveau le thème du masque précède de plusieurs milliers d’années Mission Impossible. Il indique dans le théâtre et le droit romain l’ambivalence du visage de l’acteur et du sujet de droit, sous le terme persona qui renvoie à la fois à une singularité subjective et à personne en particulier36.
Contrairement au couloir simulé, la faisabilité technique de ce dernier exemple paraît bien moins douteuse. Dans l’expérience courante que nous avons des écrans numériques, la qualité de résolution est telle qu’il est souvent impossible de déceler l’effet de composition à partir de pixels individuels. Dans l’expérience fluide et sans accrocs, l’image se manifeste à la perception humaine comme un ensemble unifié, un individu. Or, dans les faits n’importe qu’elle image ou son numérique est le résultat d’une composition de signaux et de valeurs discrètes qui peuvent se révéler dans les glitchs informatiques. Le photographe Robert Overweg saisi ces moments où l’image numérique, notamment dans les jeux vidéo, se répète ou se décompose37. L’image signifiante telle qu’on la perçoit à la surface de l’écran n’est qu’un effet qui émerge à partir des millions d’images (ou pixels) qui la compose. La pratique artistique qui consiste à composer une image à partir d’images disparates assume ouvertement cette réversibilité entre l’individu et la foule d’images : on peut tantôt regarder l’ensemble comme signifiante, tantôt regarder qu’une seule image dont le sens de la juxtaposition avec d’autres images se situe à un niveau asémantique des gradients de couleurs ou textures (on a choisi de mettre telle image à côté d’une autre non parce qu’elles représentent la même chose mais parce qu’elles ont des caractéristiques formelles similaires ou désirées). C’est une logique similaire que l’on voit à l’œuvre dans les General Adversarial Networks (GAN) et les IA « génératives » de type LLM (large language models) fonctionnant précisément sur la dissociation du niveau signifiant global et du niveau syntaxique des éléments qui s’affectent de proche en proche sans représentation de l’ensemble auquel cette contamination affective participe. Les modèles manipulent des « tokens » (un pixel, un bout de mot, etc.) qui est insignifiant pour l’humain lorsqu’il est pris isolement mais qui génère quelque chose qui a l’air d’être signifiant, qui simule l’apparence de la chose suffisamment bien pour qu’on se prête au jeu. L’humain se retrouve en situation d’incertitude quant à savoir si le visage qu’il voit est réel ou simulé. C’est ainsi qu’une image peut nous apparaître comme celle d’une personnalité politique tout en étant altérée au niveau des valeurs imperceptibles des pixels afin que la machine y « voie » autre chose. Deux modes de présence simultanés sont possibles selon l’ordre de grandeur auquel on se situe. Il faut bien saisir que le problème de la simulation et l’incertitude ontophanique qu’elle génère n’est pas marginal mais radical (c’est d’ailleurs quelque chose qu’Alan Turing avait déjà souligné dans sa conception de l’intelligence artificielle à travers son jeu de l’imitation38 ), c’est-à-dire qu’il affecte l’entièreté de nos expériences numériques. Un visage peut se fondre dans la masse physique de la foule à laquelle il est intégrée, tout en apparaissant sur sa carte d’identité lors d’un contrôle d’accès, tout en apparaissant dans une masse numérique d’images de son visage sur un réseau socio-numérique, tout en apparaissant comme une probabilité de correspondance avec un modèle de visage (le « sien » ou celui d’un autre) par une caméra de surveillance « intelligente ». Il me semble alors que les dispositifs de reconnaissance faciale offrent en réalité autant d’occasions ou de potentialités de subterfuge et de détournement qu’il ne permet de mécanismes d’assignation et de surveillance, autant de formes de méconnaissance que de reconnaissance.
Aussi bluffants soient les résultats de ces modèles génératifs, on pourrait leur reprocher leur totale ignorance sémantique, un réductionnisme de la complexité du monde à des prédictions probabilistes, une efficience purement calculatoire dont le rendement énergétique est d’ailleurs tout relatif. Mais une fois ce diagnostic posé, la conscience que nous en avons ne nous libère pas de l’efficace de la simulation à laquelle nous jouons. En d’autres termes, la prise de conscience qu’il existe une idéologie de la reconnaissance faciale à laquelle nous participons plus ou moins activement ne nous sort pas de l’aliénation qu’elle induit. Mais il y a-t-il réellement lieu d’espérer une sortie de l’aliénation ?39 Sans doute devons-nous davantage cultiver des engagements ludiques qui perturbent les règles du jeu imposé. Il me semble que l’essentiel des critiques sociales développées aujourd’hui envers la gamification visent en réalité le fait que nos interactions numériques sont exploitées économiquement sous couvert d’un divertissement (à prendre au sens premier du terme). Sans nier l’importance de la logique extractiviste à l’œuvre, il me semble qu’il existe également un enjeu critique quant à déterminer dans quelle mesure le jeu auquel les technologies de reconnaissance faciale nous enjoignent à jouerlaissent des espaces pour exercer notre droit naturel à se jouer du système, de se manifester sous deux formes à la fois. Bien qu’il ne soit pas directement lié à la reconnaissance faciale, l’exemple mentionné plus haut de Simon Weckert qui produit un faux embouteillage sur Google Maps devant le siège de Google, ou encore celui des utilisateurs qui auraient exploitée une « vulnérabilité » du chatbot Tay de Microsoft40, montrent à quel point les sujets, tout en étant pris dans un jeu algorithmique dont ils ne sont pas maîtres découvrent des manières de se jouer ou déjouer ces dispositifs qui révèlent les failles et surtout la racine simulatrice du fonctionnement de ces derniers.
Le numérique n’annihile pas (toujours) un droit naturel (que l’on ne choisit donc pas mais que l’on peut choisir de protéger et garantir) à apparaître sur différents modes. Au contraire il a tendance à les faire proliférer. Les technologies de reconnaissance (faciale) ne sont pas que des formes de devenir-Léviathan d’un corps politique unifié, elles s’exposent aussi au devenir-multitude d’individualités en mouvement et recomposition. Se fondre dans la masse et se démarquer indiquent alors deux modes de (se) manifester qui ne renvoient à aucune essence identitaire ou vérité du sujet qui se révèle mais qui traduisent la relation ambivalente et réversible entre individus et foules lorsque leurs conditions de manifestation sont toujours déjà numériques. Si la perspective d’individus qui « s’oublient dans la foule » perturbe autant notre représentation du sujet moderne rationnel que le mode d’interpellation et d’adressage du pouvoir moderne (les deux étants indissociables), il faut insister sur le fait qu’il n’est possible de « rappeler » l’individu à lui-même à travers des dispositifs de contrôle et de surveillance numériques qu’au coût d’une simulation, d’un jeu de représentations qui ouvre sur une incertitude encore plus radicale quant à savoir qui apparaît où et à quel moment.
==================
NOTES
- Voir par exemple : Vittorio Morfino, Le temps de la multitude, Editions Amsterdam, Paris, 2010.[↩]
- Filippo Del Lucchese, Tumultes et indignation. Conflit, droit et multitude chez Machiavel et Spinoza, Editions Amsterdam, Paris, 2010. [↩]
- Baruch Spinoza, Ethique II, Abrégé de Physique, deuxième partie, Définition. P. 125: G. II. 99-100.[↩]
- Gilbert Simondon, L’individuation à la lumière des notions de forme et d’information, Editions Jérôme Millon, Grenoble, 2013.[↩]
- Gilles Deleuze, « Post-scriptum sur les sociétés de contrôle », in Pourparlers 1972 – 1990, Les éditions de Minuit, Paris, 1990.[↩]
- Judith Duportail, L’amour sous algorithmes, 2020[↩]
- Tyler Reigeluth « Recommender Systems as Techniques of the Self? » Le foucaldien 3(1) 7 (2017) pp. 1–25, DOI: https://doi.org/10.16995/lefou.29[↩]
- Judith Butler, Notes Toward a Performative Theory of Assembly, Harvard University Press, Cambridge, 2015.[↩]
- Thomas Berns, Gouverner sans gouverner, une archéologie politique de la statistique, Presses universitaires de France, Paris, 2009. [↩]
- Alain Desrosières, Pour une sociologie historique de la quantification, Presses de l’Ecole des Mines, Paris, 2008.[↩]
- Tyler Reigeluth, « De l’état “sauvage” à l’activité sociale : pour une autre vision des machines », Reconnaissance faciale : défis techniques, juridiques et éthiques, Editions Panthéon-Assas, à paraître. [↩]
- Roland Meyer, « Augmented Crowds Identity Management, Face Recognition, and Crowd Monitoring » dans Social Media – New Masses, Inge Baxmann, Timon Beyes, Claus Pias, Diaphanes, Berlin, 2016, p. 106. [Traduit par l’auteur][↩]
- Louis Althusser, « Idéologie et appareils idéologiques d’État », Positions, 1976.[↩]
- Henri Lefebvre, La production de l’espace, Anthropos, Paris, 2000, p. 92[↩]
- Tyler Reigeluth, L’intelligence des villes. Critiques d’une transparence sans fin, Editions Météores, Bruxelles, 2023. [↩]
- Jean-Claude Beaune, Le vagabond et la machine, Champ Vallon, Seyssel, 1983.[↩]
- Remarquons que cette logique peut tout aussi bien s’exprimer sous sa forme inverse, à savoir un pouvoir qui interpelle la foule comme individu, en aliénant ainsi toute puissance d’agir singulière des individus (pour le dire très rapidement, il s’agit de la dynamique grégaire qui affecte toute foule mais qui se manifeste de manière paroxystique dans les rassemblements totalitaires où le vis-à-vis de la foule est face au pouvoir concentré et sublimé dans le corps du seul tyran).[↩]
- R. Meyer, loc. cit., p. 114.[↩]
- Stéphane Vial, L’être et l’écran, Presses universitaires de France, Paris, 2013, p. 136. [↩]
- Anton Kaes, « Movies and Masses » in Crowds, ed. Jeffrey T. Schnapp and Matthew Thiews, Stanford, Stanford University Press, 2006, 149–57.[↩]
- Lev Manovich, « The Poetics of Augmented Space », Visual Communication 5 (2006), 219–40.[↩]
- Mark Hansen, « Our Predictive Condition or, Prediction in the Wild », in The Nonhuman Turn, (ed. Richard Gursin), University of Minnesota Press, Minneapolis, 2015, pp. 118-122.[↩]
- R. Meyer, loc. cit., p. 113.[↩]
- Sherry Turkle, Life on the Screen, Simon & Schuster, New York, 1997, p. 19. [↩]
- Turkle, ibidem. [↩]
- Baudrillard, Simulacres et simulation, 1994. « Aujourd’hui l’abstraction n’est plus celle de la carte, du double, du miroir ou du concept. La simulation n’est plus celle d’un territoire, d’un être référentiel, d’une substance. Elle est la génération par les modèles d’un réel sans origine ni réalité : hyperréel. Le territoire ne précède plus la carte, ni ne lui survit. C’est désormais la carte qui précède le territoire – précession des simulacres – c’est elle qui engendre le territoire et s’il fallait reprendre la fable, c’est aujourd’hui le territoire dont les lambeaux pourrissent lentement sur l’étendue de la carte. C’est le réel, et non la carte, dont les vestiges subsistent çà et là, dans les déserts qui ne sont plus ceux de l’Empire, mais le nôtre. Le désert du réel lui-même. »[↩]
- James Ash, The Interface Envelope, Bloomsbury Academic, London, 2016, p. 31.[↩]
- Gregory Bateson, « A Theory of Play and Fantasy », Steps to an Ecology of Mind, Jason Aaronson Inc., Northvale, NJ, 1987; Brian Massumi, What Animals Teach Us about Politics, Duke University Press, London, 2014.[↩]
- C. Thi Nguyen, Games, Agency as Art, Oxford University Press, New York, 2020. [↩]
- Roger Caillois, Les jeux et les hommes, Gallimard, Paris, 1967, p. 61.[↩]
- Gregory Bateson, « A Theory of Play and Fantasy », op.cit., p. 139. [traduction par l’auteur. La formule originale est « These actions in which we now engage do not denote what those actions for which they stand would denote. »[↩]
- https://www.youtube.com/watch?v=98ICbOMBulA [↩]
- Maurice Merleau-Ponty, L’œil et l’esprit, 1960. [↩]
- https://paolocirio.net/work/street-ghosts/ [↩]
- Je remercie Malik Bozzo-Rey d’avoir attiré mon attention sur ce point.[↩]
- Yan Thomas,« Le sujet de droit, la personne et la nature : sur la critique contemporaine du sujet de droit » , Le Débat, no 100, mai-août 1998, p. 85-107 ; Thomas Berns, « Insulte et droit post-souverain », Multitudes, vol. 59, no. 2, 2015, pp. 120-125.[↩]
- Robert Overweg, https://www.robertoverweg.com/Art [↩]
- Alan Turing, « Computing Machinery and Intelligence », Mind, New Series, vol. 59, n°. 236, 1950, pp. 433-460.[↩]
- Tyler Reigeluth, « Le rapport magique à l’Intelligence Artificielle, ou comment vivre avec l’aliénation technique », Quaderni, 105 | 2022, 35-52.[↩]
- Tyler Reigeluth, « Chapter 51: Machine learning normativity as performativity », Handbook of Critical Studies of Artificial Intelligence, Cheltenham, UK: Edward Elgar Publishing, 2023.[↩]
Tyler Reigeluth est docteur de philosophie de l’Université libre de Bruxelles. Il est Maître de conférences à l’Université Catholique de Lille au laboratoire ETHICS, au sein de l’équipe Ethique, Technologies et Humanités. Ses recherches se situent à la croisée de la philosophie des techniques et les théories sociales critiques, et porte notamment sur les rapports normatifs entre les apprentissages machine et humain à l’ère de l’intelligence artificielle. Il a co-écrit avec Thomas Berns, Ethique de la communication et de l’information (2021) et a récemment publié L’intelligence des villes.Critique d’une transparence sans fin (2023).