« I’ve seen that face before ». Concerts, visages et pouvoir

21 juin 2024 Gabriele Marino

Que nous apprennent les technologies de reconnaissance faciale de nos manières de nous représenter le visage? Gabriele Marino soulève la question et l’applique aux événements musicaux.

Aborder la relation entre le visage, l’identité et la foule

Démasquer le visage

Dans l’un des sketches d’Eric André pour son emission produite par Adult Swim, nous voyons l’humoriste s’attarder devant le stand d’un vendeur de perruques, de lunettes, de maquillage et d’autres accessoires pour se déguiser¹. Le vendeur est amusé par l’enthousiasme d’André (il met une grosse perruque et de grosses lunettes de soleil et commence à appliquer du rouge à lèvres rouge) jusqu’à ce qu’il commence à se déguiser avec un effort exagéré – comme s’il avait vraiment besoin de se cacher de quelqu’un ou de quelque chose.

Le malaise du vendeur se transforme en choc lorsqu’un policier vient à son étal et lui montre un tract avec le visage d’un homme recherché : c’est celui d’Éric André. Le tract ne dit pas quel crime il a commis, mais seulement qu’il est suspect et qu’il doit être arrêté : le danger est thématisé (cet homme est dangereux), mais pas expliqué en détail (nous ne savons pas pourquoi et comment cet homme est dangereux), il est codé de manière heuristique (danger reconnu), mais pas de manière factuelle (danger non spécifié). Le vendeur ne sait pas quoi faire, tandis que le comédien l’avertit de ne pas le dénoncer en faisant le geste du coupe-gorge. Acculé, le vendeur opte pour une position techniquement neutre : il demande à André de rendre la perruque, ce qui permettrait au policier de l’identifier. En d’autres termes, le vendeur choisit de démasquer littéralement André, mais sans le trahir verbalement ni le désigner explicitement. C’est alors qu’un troisième homme, un vigile costaud, apparaît au stand, tenant un autre prospectus sur lequel figure le visage d’un autre homme recherché : le prétendu policier, accusé de rôder déguisé en policier. Comme André, le faux policier avertit le vendeur de ne pas le dénoncer.

Le tout culmine dans une course poursuite surréaliste au ralenti où les trois personnes déguisées – André, le policier et l’agent de sécurité (que nous soupçonnons également) – courent autour de l’étal du vendeur en répétant comme un mantra la phrase «Don’t you say a fucking word !» (Ne dis pas un putain de mot). Le vendeur se retrouve de plus en plus dans une situation grotesque et devient de plus en plus confus, mais peut-être aussi de plus en plus soulagé que toute la scène se soit révélée être une mise en scène. Comme le spectateur de la vidéo connaît le style comique d’André, il ne peut pas décider si le vendeur est aussi un acteur ou non..

La salle de concert comme scène de pouvoir

En 1977, l’économiste et penseur français Jacques Attali, alors membre du Conseil d’État français et conseiller personnel du président François Mitterrand, a publié un pamphlet intitulé Bruits². Dans ce livre, Attali reconstruit l’histoire de la musique occidentale dans le cadre d’une économie politique de la musique. Selon cette perspective, la musique a la capacité d’anticiper indirectement l’histoire : dans le dernier chapitre, intitulé « Composeur », Attali tente même de prédire l’avenir de la musique en anticipant, dans une certaine mesure, le développement de ce que l’on appelle la culture du remix dans la musique électronique populaire et ce que nous définissons aujourd’hui communément comme le contenu généré par l’utilisateur – une ère de production musicale horizontale et généralisée. Pour Attali, le pouvoir se manifeste principalement de manière sibylline à travers la musique : « Lorsque le pouvoir veut faire oublier, elle est sacrifice rituel, bouc émissaire ; faire croire, elle est mise en scène, représentation ; faire taire, elle est reproduite, normalisée, répétition³ .»

La salle de concert coïncide avec la mise en place du réseau ou de la forme de diffusion de la musique qu’Attali appelle « Représentation » : elle est censée simuler et remplacer la valeur de la forme précédente, le « Sacrificiel ». Selon Attali, la salle de concert est une invention bourgeoise apparue en 1771 à l’initiative d’un groupe de marchands dans un hôtel de Leipzig, en Allemagne. Attali voit dans la salle de concert un élément essentiel d’une société « représentative » qui reste fonctionnel dans une « société répétitive », apanage d’une élite qui se nourrit de musique savante.

Attali analyse astucieusement l’importance du concert et de l’environnement dans lequel il s’inscrit à l’ère de la « Répétition », l’époque actuelle est ainsi caractérisée par la technologie de l’enregistrement et un flux constant de musique répétitive consommée comme substitut à l’interaction sociale. Quel que soit le type de musique proposé, la salle de concert reste un instrument de pouvoir et de représentation sociale (tout comme le musée n’est que la traduction politique de la domination mercantile dans le monde de l’art). Attali affirme que le véritable spectacle n’est pas la musique, mais la salle de concert elle-même, où se déroule la dynamique du pouvoir entre le public, le spectacle et l’œuvre d’art. Le public juge souvent la musique plus qu’il ne l’apprécie, le concert étant devenu un prétexte pour affirmer sa propre culture plutôt que de la vivre. L’élite se définit et se protège par les connaissances ésotériques que requièrent les œuvres qu’elle écoute et qui ne sont plus adaptées au public bourgeois. Le concert devient donc un espace où l’élite peut se convaincre qu’elle n’est pas aussi froide, inhumaine et conservatrice qu’on l’accuse de l’être.

En dehors du monde de l’élite, le concert est perçu comme une médiocrité déguisée en fête artificielle. Les concerts de musique populaire ne sont souvent que des copies de musique enregistrée, tentant de recréer la perfection originale par des pratiques de play-back généralisées. La danse folklorique, qui est également devenue une forme de concert, a perdu son sens originel et est devenue une sorte de carnaval sans masques et sans sens du tragique. Dans ce contexte, la musique sert d’excuse à l’absence de communication, où la solitude et le silence sont imposés par le volume du son reproduit.

Attali pense que l’on aurait pu apprendre beaucoup de choses dans le domaine des sciences sociales en analysant la relation entre le public et les musiciens et la composition sociale des salles de concert. Il pense que cela aurait révélé un agencement précis des rapports de force, au point que « Toute la théorie de l’économie politique du dix-neuvième siècle était incluse dans la salle de concert du dix-huitième et annonçait la politique du vingtième siècle⁴ .»

Les réflexions d’Attali sont enveloppées d’un hermétisme stylistique qui correspond à la capacité prophétique attribuée à la musique. Elles se réfèrent d’abord à un monde où les salles de concert accueillent des représentations du répertoire classique et où les concerts populaires imitent des disques devenus dépositaires d’un objet musical paradoxalement “original”, puisqu’ils reproduisent eux-mêmes quelque chose de déjà joué. On peut ne pas être d’accord avec le jugement critique – et techniquement conservateur – d’Attali, mais son diagnostic de la relation entre pouvoir et public à travers la musique et les music-halls éclaire ce qui se passe depuis quelques années dans les spectacles musicaux vivants hautement organisés, spectaculaires et technologisés, qui constitueraient un champ d’investigation parfait pour une approche telle que celle de la sémiotique juridique.

Pour une sémiotique juridique des systèmes de reconnaissance faciale

Visage, reconnaissance, concerts et conséquences de leur triangulation

Il n’est pas possible ici d’entrer dans le détail des différentes questions qu’il faudrait consciencieusement analyser pour esquisser un programme scientifique tel que celui d’une sémiotique juridique des systèmes de reconnaissance faciale dans les concerts : il faudrait au moins se demander ce qu’est (1) un visage, ce qu’est (2) la reconnaissance et ce qu’est (3) un concert en termes d’« unités culturelles⁵. »

(1) À titre indicatif, nous pouvons diviser ce que l’on appelle communément en anglais the face ou en français le visage en au moins trois dimensions différentes : une dimension biologique, une dimension physionomique et une dimension sociosémiotique. Nous avons (a) une partie du corps (b) qui transmet des émotions (un point de rencontre entre la sémiose volontaire et involontaire, à savoir la production de signes et de sens) et (c) qui est exposée au regard du public. Si l’on se réfère à l’étymologie latine d’origine, on peut désigner sémiotiquement la première dimension comme la face (facies = surface) et la seconde comme le visage stricto sensu (visus = ce qui est exposé au regard)⁶.

(2) Nous pouvons expliquer le concept de reconnaissance plus en détail en considérant brièvement trois opérations différentes mais liées. La reconnaissance – le terme le plus large – implique la compréhension de modèles reconnaissables qui vont au-delà des visages humains. L’identification consiste à utiliser les visages comme marqueurs de l’identité personnelle. La typification fait référence à l’extraction d’informations à partir d’un visage sur la base de codes socioculturels. En même temps, chaque système doit passer par une phase de détection (identifier un visage humain en tant que tel) avant la reconnaissance proprement dite (faire correspondre un visage à une identité)⁷.

(3) Nous pouvons provisoirement transformer le terme concert en un discours opérationnel en associant ce terme (qui désigne la prestation en direct d’un artiste musical devant un public, c’est-à-dire des personnes rassemblées en un lieu pour une raison spécifique) à son hypéronyme foule : un rassemblement de personnes dans un espace public et/ou non privé et/ou ouvert (par exemple, spectacles : sport, musique, cinéma, rites, cérémonies ; actions : debout, par exemple dans les transports publics, flâneries, files d’attente, cortèges ; manifestations : protestations, marches, agressions, flash mobs, défis, etc.)⁸.

Ces trois éléments de définition clés (visage, reconnaissance, foule) devraient être précisés et reliés afin de fonctionner en tant que système. À ce stade, nous ne pouvons qu’ajouter que les systèmes de reconnaissance faciale ne se concentrent que sur certains aspects pertinents (littéralement, sur la face au sens strict, c’est-à-dire les paramètres biométriques), à tel point que dans le cas d’interventions radicales(selon leur type, leur force et leur aspectualité, ou en d’autres termes, selon le degré de « parafacialité » – facialité para-textuel ou, système d’appareil facial complémentaire – allant des expressions faciales aux cosmétiques et aux bijoux jusqu’aux modifications corporelles permanentes), la face (en tant que partie du corps) est mis en péril – altéré et/ou caché – et devient ainsi un visage (en tant que position culturelle⁹ ).

Cela a deux conséquences principales : le système doit être capable de séparer le visage de la face, en ce sens qu’il doit être capable de reconstruire le second sur la base du premier, et il doit être capable de séparer le jeton visuel (visual token) (par exemple une image stockée dans une base de données) de la face présente, en ce sens qu’il doit être capable de reconstruire le second sur la base du premier. Un système de reconnaissance faciale ne doit donc pas être une simple technologie de mise en correspondance d’images ni un simple système de reconnaissance faciale, mais ce qu’il convient d’appeler plus précisément un système de reconnaissance du visage. Des données récentes suggèrent que de toutes les méthodes biométriques (qui comprennent les empreintes digitales, l’iris, la paume de la main et la voix), la reconnaissance faciale est la moins précise¹⁰. Cette imprécision peut se produire dans un ou plusieurs des cas suivants, les deux premiers concernant l’ « identité objective » et le troisième l’ « identité subjective » : erreur d’identification (le système ne reconnaît pas certaines caractéristiques de la personne), erreur de catégorisation (le système attribue de mauvaises caractéristiques à la personne) et erreur de reconnaissance due à l’incapacité de déduire l’identité subjective (le système est techniquement incapable de reconnaître les sexes non binaires ou les origines métisses)¹¹.

Il est généralement admis que la reconnaissance faciale a été conçue dans les années 1960 par les pionniers de l’intelligence artificielle Woody Bledsoe, Helen Chan Wolf et Charles Bisson, et qu’elle a été mise en œuvre pour la première fois au milieu des années 1970 par l’informaticien Takeo Kanade. À cette époque, un certain consensus s’était dégagé dans la critique de cette technologie¹², pour deux raisons principales : premièrement, elle a été critiquée pour son imprécision et, deuxièmement, pour ses implications éthiques – en d’autres termes, on a reproché à la reconnaissance faciale de ne pas bien fonctionner ou, au contraire, de trop bien fonctionner. Dans les deux cas, nous pouvons trouver un élément unificateur de préoccupation, qui n’est pas la notion de reconnaissance en soi, mais plutôt le rôle de l’automatisation et la nature non supervisée du processus, qui peut à son tour être liée à ce que nous définirions comme schizopoiesis (littéralement, création séparée, distante, réalisation), à savoir la notion qu’il existe une séparation spatio-temporelle entre le processus de conception piloté par l’homme et sa mise en œuvre pilotée par la machine¹³. D’une part, nous savons que les systèmes automatisés sont biaisés par les biais des humains qui les ont créés (et, par conséquent, par les corpus sur lesquels ils ont été formés¹⁴ ) ; d’autre part, nous n’aimons pas l’idée d’une forme d’agentivité qui n’est pas orientée vers ce que nous avons toujours compris comme l’intentionnalité (humaine).

Le visage dans la foule et son statut énonciatif

Pour tenter d’appréhender les systèmes de reconnaissance faciale d’un point de vue sémiotique, il peut être crucial d’examiner la relation entre un seul visage humain et plusieurs visages, même si ce n’est que d’un point de vue macroscopique.

L’homme des foules (The Man of the Crowd) est une nouvelle d’Edgar Allan Poe datant de 1840¹⁵. Elle est racontée, comme d’habitude chez Poe, à la première personne par un observateur anonyme assis dans un café londonien et se remettant d’une maladie non spécifiée. Il passe son temps à observer les gens qui passent devant la fenêtre afin de les classer en différents types (profession, style de vie, etc.) sur la base de leur apparence et de leur comportement. Le soir venu, l’attention du narrateur est attirée par un vieil homme à l’allure particulière, qu’il décrit comme décrépit mais agile, pauvre mais ostentatoire. Le visage de l’homme présente une complexité d’expressions que le narrateur ne parvient pas à déchiffrer. Intrigué, le narrateur décide de sortir et de suivre l’homme dans ses déplacements à travers la ville. Le vieil homme passe des quartiers riches aux quartiers pauvres et criminels, semble chercher quelque chose ou quelqu’un, mais ne s’arrête jamais longtemps. Le narrateur observe les interactions (ou l’absence d’interactions) de l’homme avec les gens et l’environnement qui l’entourent, essayant de comprendre son but et son caractère : d’un côté, il semble profondément lié à la foule, de l’autre, il en semble complètement détaché. Le narrateur est de plus en plus obsédé par la compréhension de l’homme (la filature dure toute la nuit et le lendemain), mais ses motivations et son identité restent un mystère. À la fin, épuisé et frustré, il est contraint d’abandonner la poursuite. Il conclut que le vieil homme indéchiffrable est un symbole de la condition humaine, d’un lien profond et incompréhensible avec la foule, la ville et la vie moderne elle-même.

L’histoire de Poe peut servir à développer les thèmes de la physiognomonie (la tentative pseudo-scientifique de trouver une correspondance stricte – un code, stricto sensu – entre les traits du visage et le caractère) et des systèmes de reconnaissance faciale (des technologies automatisées capables d’identifier une personne particulière sur la base de la reconnaissance de son visage). L’observation obsessionnelle au centre du récit de Poe et les systèmes de reconnaissance faciale traitent tous deux de l’observation et de la surveillance en tentant de disséquer les identités individuelles dans une mer de visages. Le récit souligne la nature énigmatique de l’étranger, tout comme la reconnaissance faciale vise à supprimer l’anonymat, et soulève la question de savoir s’il est possible et éthique de comprendre quelqu’un en se basant uniquement sur son apparence. L’incapacité du narrateur à comprendre véritablement le vieil homme qu’il suit reflète les limites inhérentes à la technologie pour saisir pleinement la complexité humaine et soulève des questions sur l’étendue et la pertinence de l’utilisation de tels outils pour interpréter le comportement et les intentions de l’homme.

Poe anticipe l’émergence de la foule en tant que catégorie phycologique et anthropologique grâce à l’ouvrage classique de Gustave Le Bon¹⁶ et l’accent mis sur son pouvoir collectif et politique par les réflexions d’Elias Canetti¹⁷. Du point de vue de la sémiotique juridique, la foule est en effet un objet d’étude chiastique intéressant : dans la plupart des démocraties contemporaines, elle a le droit d’exister, elle a le droit de se regrouper dans l’espace public, mais en même temps, une foule en tant que telle n’a pas de droits propres¹⁸. Ce n’est qu’en apparence que foule (crowd, en anglais) est un substantif neutre, car dès son étymologie, il est doté d’une connotation dysphorique, d’un sentiment de malaise découlant de l’idéologie prémoderne sous-jacente (l’image d’un individu opprimé et privé d’action individuelle) : Le mot crowd, attesté depuis 1500 avant J.-C., vient du vieil anglais crūdan (presser), d’origine allemande ; le français encore plus ancien foule (folla, en italien), attesté depuis 1300 avant J.-C., vient du latin vulgaire fullo (la personne qui presse la laine).

En termes sociosémiotiques, la foule est une « totalité intégrale » (indivisible) dotée d’un type d’énonciation qui n’est « impersonnelle » que dans la mesure où elle est « collective »¹⁹. En gros, l’énonciation est le positionnement du locuteur (émetteur, énonciateur, auteur modèle, selon l’idéologie sémiotique) et de l’auditeur (récepteur, énonciataire, lecteur modèle) à l’intérieur d’un élément de communication donné (texte). Comme le sociologue Gary T. Marx le souligne à juste titre en 2001, les foules dépendent de la configuration sémiotique de l’anonymat (un régime précis de visibilité et de narration) pour fonctionner en tant que telles²⁰. Les gens font et deviennent des choses au sein d’une foule qu’ils ne pourraient pas faire ou devenir en dehors de ce cadre, où l’anonymat n’est qu’instrumental et pourtant fondamental : pensez aux rituels, aux comportements qui sont acceptés au sein de certains « cercles magiques » sous forme collective (par exemple, les chants scandés dans les stades) et qui ne sont pas acceptés sous forme individuelle (par exemple, les supporters ne sont pas autorisés à entrer dans le stade, ni à chanter bruyamment à l’extérieur du stade, car il s’agirait d’un cas de trouble à l’ordre public), ou pensez à des festivals tels que les carnavals (comme l’a souligné le spécialiste russe de la littérature Mikhaïl Bakhtine à propos de l’univers littéraire de François Rabelais) qui se situent dans une sorte de zone grise de légitimité qui ne se confond pas toujours avec la légalité²¹. Les systèmes de reconnaissance faciale interviennent précisément dans la nature sémiotique de la foule, dans le but de la briser et de la transformer en une collection d’« unités partitives ».

La représentation erronée de la reconnaissance faciale dans la science-fiction

Pour tenter d’appréhender sémiotiquement les systèmes de reconnaissance faciale, il est peut-être crucial d’examiner, ne serait-ce que d’un point de macrosopique comment une telle unité culturelle est représentée et commentée dans un domaine très emblématique de la culture (populaire).

Avatier, une société californienne fondée en 1997 dont l’activité principale est la gestion de logiciels d’identité, a utilisé un corpus de 18 films grand public pour étudier quelles technologies biométriques sont le plus souvent utilisées dans la science-fiction²². L’analyse montre que les technologies de reconnaissance faciale sont majoritaires (6 films), suivies par la voix (5), les yeux/la rétine (4 films ; cette technologie peut en effet être considérée comme un sous-ensemble de la reconnaissance faciale) et l’ADN (4 films). À titre indicatif, la reconnaissance faciale peut être utilisée pour identifier des personnes (Blade Runner, Robocop) et interpréter leurs émotions (2001 L’Odyssée de l’espace, Ex Machina), surveiller les mouvements (Terminator, Minority Report) et accéder à des informations ou à des zones protégées (Star Trek, I Robot).

Nous pouvons approfondir ce sujet en nous appuyant sur un article publié en 2020 sur le site web du célèbre spécialiste américain des médias Henry Jenkins. Dans cet article, la doctorante Mehitabel Glenhaber examine la représentation erronée de la reconnaissance faciale dans les médias de science-fiction²³. Bien que la science-fiction ait compris – et même anticipé – certaines caractéristiques clés de ces technologies (et les problèmes qui y sont associés), ses récits les plus courants laissent de côté certains aspects importants. Dans les films tels que ceux mentionnés ci-dessus (auxquels il faut ajouter la source implicite de nombre d’entre eux, le roman 1984 de George Orwell), les technologies de reconnaissance faciale sont généralement un outil déployé par une dictature hyper-technologique dans un futur proche, permettant au pouvoir en place de mettre en œuvre une dystopie de la surveillance. Ces systèmes sont décrits comme potentiellement omniprésents, invisibles, froids comme des machines et menaçant la vie privée. Néanmoins, certains aspects ne sont pas abordés dans la science-fiction hollywoodienne et sont au contraire particulièrement pertinents pour une bonne compréhension de la nature de ces technologies, que nous pouvons résumer comme suit : possession, but, précision et objectif.

Alors que dans les films de science-fiction, la reconnaissance faciale est souvent utilisée par des gouvernements totalitaires et répressifs pour surveiller les citoyens, dans le monde réel, la propriété de la technologie de reconnaissance faciale est souvent entre les mains d’entreprises privées qui profitent de la surveillance de l’État, ce qui soulève des inquiétudes quant aux abus et à la discrimination. Conformément à la mythologie technocratique incarnée par des mots à la mode tels que big data, automatisation, algorithme, etc., l’objectif va au-delà de l’identification de sécurité et s’étend à des contextes tels que l’emploi et l’évaluation comportementale : les entreprises et les laboratoires informatiques tentent de nous convaincre qu’ils peuvent déterminer la santé, l’état émotionnel ou même l’orientation sexuelle d’une personne sur la base d’une simple photographie. Contrairement à ce que montrent les films, les systèmes de reconnaissance faciale réels peuvent commettre des erreurs et faire preuve de partialité, en particulier à l’égard des groupes marginalisés. Par conséquent, les films ont tendance à présenter les hommes blancs comme des victimes de la surveillance et ignorent la réalité des personnes de couleur, des femmes et des personnes LGBTQ+ qui sont ciblées. Toutes ces questions, qui sont occultées par le récit hollywoodien, sont au cœur de la relation entre la musique, les espaces, le pouvoir, la législation et la technologie.

Les systèmes de reconnaissance faciale et leur application dans les événements musicaux contemporains

Le secteur de la musique en direct et les technologies

Le 10 octobre 2022, le groupe américain de pop-rock alternatif Animal Collective, acclamé par la critique, a annoncé via Instagram qu’il devait annuler ses concerts au Royaume-Uni et dans l’Union européenne parce que les tournées dans le sillage de la pandémie de Covid-19 sont « une réalité économique qui ne fonctionne tout simplement pas et qui n’est pas durable » : « De l’inflation à la dévaluation de la monnaie, en passant par les coûts d’expédition et de transport, et bien d’autres choses encore, nous n’avons tout simplement pas pu établir un budget pour cette tournée qui ne soit pas déficitaire, même si tout se passait aussi bien que possible »²⁴. Les événements en direct constituent de plus en plus un secteur de revenus stratégique dans le secteur de la musique, surtout après la débâcle des rassemblements collectifs provoquée par la pandémie de Covid : il est de plus en plus coûteux de les organiser et, par conséquent, il est de plus en plus coûteux d’y participer en tant que membre du public. Il s’agit d’un domaine aux mécanismes de plus en plus complexes et délicats. Les musiciens et les organisateurs explorent toutes les possibilités pour s’assurer qu’un événement musical est sûr à tous points de vue.

Blink Identity est une société basée à Austin, au Texas, spécialisée dans un système de contrôle d’accès respectueux de la vie privée qui serait capable de « reconnaître tout le monde en un clin d’œil [in the blink of an eye], indépendamment de la couleur de la peau, du sexe ou de la vitesse de déplacement. » En 2023, l’entreprise a publié un rapport sur l’impact de la technologie sur l’avenir des événements en direct²⁵. Le rapport est intéressant en soi, et il l’est doublement en raison d’un possible conflit d’intérêts : en effet, Ticketmaster de Live Nation – qui détient le monopole mondial dans ce domaine – investit dans Blink Identity depuis 2018 dans le but ultime de remplacer les systèmes de billetterie par des technologies de reconnaissance faciale. Selon le rapport, l’industrie des événements en direct, en particulier les concerts, est en pleine croissance aux États-Unis, générant environ 8 milliards de dollars de revenus en 2017, avec un public composé principalement de jeunes adultes âgés de 18 à 34 ans. Ce groupe démographique, connu sous le nom de « millennials », est réceptif aux innovations et aux expériences technologiques : les organisateurs de concerts et les artistes s’efforcent donc de créer des « expériences mémorables » pour le public, qui valent le coût croissant de la participation à un concert.

Afin d’améliorer les spectacles, d’impliquer le public et d’améliorer l’expérience globale des clients, l’industrie expérimente diverses technologies telles que les bracelets RFID (Radio Frequency Identification, identification par radiofréquence), les applications pour smartphones, la RV (réalité virtuelle), les hologrammes, les médias sociaux et, bien sûr, la reconnaissance faciale. Pour un profane, il peut sembler surprenant qu’une telle technologie soit utilisée dans un contexte tel que les spectacles de musique en direct et les festivals de musique en particulier. La raison en est que cette technologie renforcerait la sécurité et l’efficacité opérationnelle en accélérant les transactions (les paiements sans numéraire et par reconnaissance faciale, déjà opérationnels en Chine à partir de 2020 et au Japon à partir de 2022, réduiraient les files d’attente), en améliorant les contrôles de sécurité et en fournissant des données pour des décisions de marketing personnalisées²⁶.

En effet, ces systèmes sont déployés et se développent, mais ils ne font pas l’objet d’un consensus. Selon une étude réalisée en 2019 par le Pew Research Center, « un groupe de réflexion non partisan qui informe le public sur les questions, les attitudes et les tendances qui façonnent le monde²⁷ », plus de la moitié des adultes américains font confiance à l’utilisation responsable de la reconnaissance faciale par les forces de l’ordre. Dans le même temps, ce même public est moins réceptif à la technologie de reconnaissance faciale lorsqu’elle est utilisée par des publicitaires ou des entreprises technologiques²⁸. Cette tension technologique, pragmatique et juridique est précisément le phénomène que nous voulons explorer.

Pour ou contre la reconnaissance faciale lors des concerts

Nous pouvons chronologiquement identifier une poignée d’études de cas où toutes les parties prenantes (public, musiciens, professionnels, entrepreneurs, autorités, lieux, etc.) ont interagi pour parvenir à un accord sur l’utilisation de systèmes de reconnaissance faciale lors d’événements musicaux en direct.

Peu avant le concert de Beyoncé au Principality Stadium de Cardiff le 17 mai 2023, dans le cadre de sa tournée Renaissance World Tour, la police locale a annoncé l’utilisation de la technologie de « Live Facial Recognition » (LFR, reconnaissance faciale en direct). Il s’agit d’aider à identifier les personnes recherchées pour des délits graves, de soutenir les forces de l’ordre et d’assurer la sécurité des enfants et des personnes vulnérables. La police a expliqué que cette technologie ne serait utilisée que dans des zones spécifiques de Cardiff, clairement indiquées par des panneaux, et pas directement dans le stade, et a souligné que la reconnaissance faciale n’était pas nécessaire pour entrer. Malgré les inquiétudes persistantes et les précédents juridiques notables tels que la tristement célèbre « affaire Bridges » (déc. 2017 – août 2020²⁹ ), la technologie de reconnaissance faciale a finalement été déployée lors du concert de Beyoncé. Cette décision s’inscrivait dans le cadre d’un déploiement plus large et d’une normalisation des services de police au quotidien, appuyés par des dispositifs embarqués, une démarche soutenue par le ministre d’État chargé de la criminalité, de la police et des pompiers, Chris Philp, entre autres. La décision a également été prise à la suite d’un rapport du National Physical Laboratory, qui indiquait que le risque d’erreur d’identité était de 1 sur 6 000³⁰. Cela contraste avec des données antérieures, telles que l’étude de 2018 réalisée par une équipe conjointe du MIT Media Lab et de Microsoft Research, qui a trouvé des erreurs dans 21 % à 35 % des cas pour les femmes à la peau foncée et moins de 1 % pour les hommes à la peau claire³¹.

Le 7 avril 2018, lors d’un concert de Jacky Cheung au Centre sportif international de Nanchang auquel assistaient près de 60 000 personnes, la police chinoise a arrêté un suspect de 31 ans nommé Ao qui était recherché pour « crimes économiques ». Ao s’était caché dans la foule, mais il a été identifié par des caméras de reconnaissance faciale à l’entrée du stade : ses coordonnées étaient stockées dans la base de données nationale et, à son arrivée, les caméras l’ont signalé et ont alerté les autorités. Cette arrestation insolite est liée à l’utilisation croissante de la technologie de reconnaissance faciale en Chine, facilitée par les débuts du système de surveillance Xue Liang (yeux aiguisés), conçu pour surveiller les mouvements des citoyens.

Lors de son concert au Rose Bowl de Pasadena, en Californie, le 18 mai 2018, la star de la country et de la pop Taylor Swift a à la fois enthousiasmé et « trollé » ses fans – en utilisant un système de reconnaissance faciale déguisé similaire à ceux utilisés par les agents fédéraux dans les aéroports pour vérifier l’identité des passagers internationaux. L’équipe de Swift a utilisé des bornes pour prendre des photos faciales de chaque spectateur afin d’identifier les harceleurs potentiels : lorsque les gens entraient dans la salle, une vidéo préenregistrée de Swift était diffusée sur un écran situé à côté de la billetterie ; chaque personne qui passait s’arrêtait et un appareil photo situé dans l’écran prenait une photo de son visage. L’image a ensuite été traitée par un logiciel qui a extrait les données biométriques du visage et les a envoyées par voie électronique au siège d’Oak View Group à Nashville, l’entreprise de logiciels responsable de ce travail. Les données ont été comparées aux images connues des harceleurs de Swift, mais on ne sait pas exactement comment Swift a utilisé les informations recueillies grâce à la technologie de reconnaissance faciale. Les spécialistes de la protection de la vie privée ont exprimé leur inquiétude quant à l’utilisation de cette technologie dans plusieurs grandes salles de concert en Australie, notamment le Melbourne Cricket Ground (MCG), où des dizaines de milliers de personnes, y compris des enfants, se presseront pour assister à la tournée de Taylor Swift en février 2024.

En 2019, le groupe de défense des droits numériques Fight for the Future a lancé un appel et un site web « Ban Facial Recognition » en faveur de l’interdiction des scanners faciaux lors de tous les événements en direct³². Rapidement, le guitariste et activiste Tom Morello, ancien leader du groupe Rage Against the Machine, a rejoint le mouvement et a commencé à diriger un groupe d’artistes qui ont annoncé un boycott des concerts utilisant la technologie de reconnaissance faciale, en invoquant des problèmes de protection de la vie privée et une discrimination croissante. En 2023, les petites salles indépendantes se sont engagées à ne pas utiliser la technologie de reconnaissance faciale pour leurs spectacles.

Le 22 octobre 2022, peu avant un concert de musique country donné par Brandi Carlile au Madison Square Garden de New York, une femme a été abordée par des agents de sécurité qui lui ont vivement conseillé de quitter la salle. Cette femme, identifiée comme Barbara Hart, est une avocate qui travaille pour un cabinet juridique chargé d’un procès contre le Madison Square Garden. Le propriétaire de l’établissement, James Dolan, a mis en place une politique interdisant aux avocats impliqués dans un litige contre l’entreprise de pénétrer dans l’enceinte de l’établissement. En conséquence, la technologie de reconnaissance faciale est utilisée pour identifier et expulser les personnes impliquées dans le litige. Mme Hart et une autre avocate, Kelly Conlon, ont intenté une action en justice contre le Madison Square Garden à la suite de sa radiation. Dans sa réponse, la société a déclaré que les avocats seraient réintégrés une fois les affaires judiciaires résolues.

Comme dans le cas du sketch d’Eric André³³, dans ce dernier cas, il s’avère difficile d’établir un lien de causalité direct entre la reconnaissance et la culpabilité. En effet, cet épisode confirme que l’utilisation des systèmes de reconnaissance faciale lors de concerts est essentiellement instrumentale : la personne dangereuse qui assiste au concert est dangereuse en soi selon des critères idéologiques, en dehors du contexte spécifique (par exemple, elle n’est pas dangereuse pour le public et, dans la plupart des cas, pour l’artiste). Le caractère privé de la plupart des salles et la nature transnationale de ces technologies, qui opèrent néanmoins dans des contextes nationaux, compliquent encore la situation.

Idéologies et valeurs de la face et du visage

La question des systèmes de reconnaissance faciale dans des contextes publics (dans les espaces ouverts de la société civile) ou dans des lieux destinés à des rassemblements collectifs (comme les concerts, qui ont souvent lieu dans des lieux privés) repose essentiellement sur la dichotomie possible entre le fait que le visage soit considéré non seulement comme un lieu d’identité et d’individualité, mais aussi comme un lieu d’humanité, de liberté et de politique.

D’une part, le philosophe italien Giorgio Agamben a poursuivi un idéal explicitement humaniste dans ses réponses immédiates à la pandémie de Covid-19³⁴. Fier ambassadeur d’une tradition continentale allant de la pensée anti-technocratique de Martin Heidegger à celle de Michel Foucault (axée sur la reconstruction des conditions de possibilité de la surveillance et de la punition dans les régimes biopolitiques³⁵ ), Agamben s’est fermement opposé aux restrictions de la vie publique et à l’utilisation prophylactique de masques médicaux – des mesures qu’il considérait comme une négation du visage et donc comme déshumanisantes et anti-humanistes. D’autre part, dans son livre The Revenge of the Real, publié en 2021, le sociologue et designer américain Benjamin Bratton a présenté un véritable manifeste transhumaniste dans lequel, en désaccord flagrant avec Agamben, il fait passer le paradigme biopolitique du négatif au positif³⁶. Dans les passages suivants, je présente la proposition de Bratton de manière synthétique, en la commentant et en l’intégrant à des gloses inspirées par d’autres auteurs. Si, comme l’affirme le philosophe italien Emanuele Coccia (bien qu’il ne soit pas cité par Bratton), « le virus a produit une seconde globalisation³⁷ », cela a été possible parce que nous, en tant qu’humanité, constituons déjà « une vie unique et unitaire³⁸ ». Soutenus par les preuves accablantes que la pandémie nous a fournies, nous ne devrions plus nous considérer comme des sujets individuels et isolés, mais comme faisant partie d’un « bien commun immuno-logique » planétaire et inter-espèces, soutient Bratton, sur la base de ce que le philosophe critique Byung-Chul Han appellerait probablement une « logique d’essaim » (Han n’est pas non plus abordé par Bratton)³⁹. Ainsi, Bratton suggère que nous devrions accueillir non seulement des masques (symbole de la prophylaxie commune), mais aussi des systèmes de surveillance épidémiologique basés sur des données qui ne sont pas seulement biographiques ou biométriques, mais même biochimiques : ainsi, nous passerions d’une dimension individuelle à une dimension simultanément supra-individuelle (le corps social) et sous-individuelle ou pré-individuelle (le corps en tant qu’organisme biologique avec ce qu’il contient et ce qu’il transmet).

Bien que les deux penseurs se situent à des pôles opposés, pour Agamben comme pour Bratton, le masque est le totem d’une transformation sociale et, plus radicalement, anthropologique, fondée sur l’axiologie morale de la sécurité à laquelle tout doit être subordonné. Pour l’un comme pour l’autre, il n’est pas question de se débarrasser du masque, qui resterait une extension – une prothèse – du nouveau citoyen post-pandémique : pour Agamben, il est imposé, pour Bratton, il s’agit d’une décision fière de cacher son visage pour un plus grand bien. Agamben, qui adhère fermement à une vision anthropocentrique, rejette le non-visage de l’Anthropocène, que Bratton accueille avec l’optimisme d’un designer qui est, en un certain sens, perversement latourien (bien que Bratton ne cite pas Bruno Latour), étant enfin en mesure d’unir Nature et Culture sous un seul paradigme⁴⁰.

Nous pourrions donc dire que, même dans les cultures où le fait de se couvrir le visage a traditionnellement été considéré comme un signe de déviance, le masque a mis en évidence que le visage, en tant que « technologie sociale⁴¹ », n’est rien d’autre qu’une interface, un site d’échange entre différents domaines sémiotiques : entre l’humain, l’interne et l’individuel d’une part, et le non-humain, l’externe et le social, d’autre part.

Considérer le visage uniquement comme la face, une réalité ontologique, une simple surface somatique sur laquelle agir, ou comme un palimpseste sur lequel révéler ou projeter l’essence la plus intime de l’être humain, a des conséquences précises : dans le premier cas, rien n’empêche de le traiter positivement, de le modifier, de le dissimuler ou de le traiter comme une donnée quantifiable, identifiable, stockable et vendable ; dans le second cas, il est impensable de le modifier, de le dissimuler ou de le traiter comme un nombre identifiable, stockable et vendable⁴².

==================

NOTES

The Eric Andre Show, saison 6, épisode 5, intitulé Woodchipper Hijinks, diffusé sur Cartoon Network le 18 juin 2023. Voir Eric Takes it to the Streets | The Eric Andre Show | adult swim, téléchargé par Adult Swim le 23 juin 2023 : https://youtu.be/w8GKXf7Kz8w?si=8OenV9d4X-X_QcKT. La scène comique, décontextualisée sans métadonnées, s’est répandue de manière virale sur les médias sociaux tels qu’Instagram avec le simple titre Prank. À propos du titre de cet article : il s’agit d’une référence à la chanson éponyme de Grace Jones (I’ve Seen That Face Before (Libertango), 1981, Island), une magnifique reprise de la mélodie classique d’Astor Piazzolla (Libertango, 1974, Carosello). La chanson a été utilisée dans une scène de danse emblématique avec Harrison Ford et Emmanuelle Seigner dans le film Frantic (1988) de Roman Polanski, dont l’action se déroule à Paris (et qui, soit dit en passant, est aussi l’histoire d’un homme isolé dans un pays dont il ne peut décoder le code).[↩]
J. Attali, Bruits : essai sur l’économie politique de la musique, Paris, PUF, 1977.[↩]
Ibid., p. 39.[↩]
Ibid., p. 115-116.[↩]
U. Eco. Trattato di semiotica generale, Milano, Bompiani, 1975.[↩]
G. Marino, “Cultures of the (masked) face”, Sign Systems Studies 2021/49 (n. 3-4), p. 318-337, https://doi.org/10.12697/SSS.2021.49.3-4.04.[↩]
R. Gramigna & C. Voto, “Notes on the semiotics of face recognition”, Sign Systems Studies 2021/49 (n. 3-4), p. 338-360,https://doi.org/10.12697/SSS.2021.49.3-4.05.[↩]
Cette liste ne constitue pas une typologie systématique, mais plutôt un outil provisoire et opérationnel qui ne veut pas éliminer les différences fondamentales entre, par exemple, une foule ordonnée (par exemple, dans les spectacles de théâtre) et une foule chaotique (par exemple, dans un festival de heavy metal), entre une foule spécifique (par exemple, dans les concerts) et une foule générique (par exemple, dans les rues), etc. Des références importantes peuvent être trouvées dans : M. Leone (dir.), Protesta/Protest, Lexia 2013, n. 13-14.[↩]
G. Marino, op. cit., p. 320-321.[↩]
A. Najibi, “Racial Discrimination in Face Recognition Technology”, Science in the News, 20 octobre 2020, https://sitn.hms.harvard.edu/flash/2020/racial-discrimination-in-face-recognition-technology/. Pour une analyse détaillée de la relation entre la reconnaissance faciale et la reconnaissance par empreintes digitales, voir : M. Leone, “From Fingers to Faces: Visual Semiotics and Digital Forensics”, International Journal for the Semiotics of Law2021/34, p. 579-599,https://doi.org/10.1007/s11196-020-09766-x. [↩]
R. Waelen, “The struggle for recognition in the age of facial recognition technology”, AI Ethics2023/3, p. 215-222,https://doi.org/10.1007/s43681-022-00146-8. [↩]
K.E. Patterson & A. Baddeley, “When face recognition fails”, Journal of Experimental Psychology: Learning, Memory, and Cognition1977/3 (n. 4), p. 406-417.[↩]
Le terme s’inspire de la « schizophonie » du musicien et musicologue Raymond Murray Schafer (R.M. Schafer, The New Soundscape. A Handbook for the Modern Music Teacher, Scarborough-Ont., Berandol, 1969), qui fait référence à la révolution de la phonofixation (enregistrement, dans le langage courant), c’est-à-dire la possibilité de fixer un son sur un support et de l’entendre à nouveau après qu’il a cessé d’exister.[↩]
C. Voto, “From archive to dataset. Visualizing the latency of facial big data”, Punctum 2022/8 (n. 1), p. 47-62,https://doi.org/10.18680/hss.2022.0004.[↩]
E.A. Poe, “The Man of the Crowd”, Graham’s Magazine, décembre 1840, p. 267-270.[↩]
G. Le Bon, 1895, Psychologie des foules, Paris, Alcan, 1895.[↩]
E. Canetti, Masse und Macht, Hamburg, Claassen Verlag, 1960.[↩]
Par exemple, l’article 17 de la Constitution italienne de 1948 stipule : « Les citoyens ont le droit de se réunir pacifiquement et sans armes. Les rassemblements n’ont pas besoin d’être annoncés, même dans un lieu ouvert au public. Les rassemblements dans les lieux publics doivent être notifiés aux autorités, qui ne peuvent les interdire que pour des raisons avérées de sécurité ou d’ordre public ».[↩]
Les catégories « intégrale » et « partitive », « unité » et « totalité » font l’objet d’une discussion sémiotique dans : A.J. Greimas, Sémiotique et sciences sociales, Paris, Seuil, 1976. L’énonciation impersonnelle/collective est abordée dans : B. Latour, Les Microbes: guerre et paix suivi de Irreductions, Paris, Metailie, 1984, et C. Paolucci, Persona. Soggettività nel linguaggio e semiotica dell’enunciazione, Milan, Bompiani, 2020.[↩]
G.T. Marx, “Identity and anonymity: Some conceptual distinctions and issues for research”, in J. Caplan & J. Torpey (dir.), Documenting individual identity. The development of state practices in the modern world, Princeton, Princeton University Press, 2001, p. 311-327.[↩]
M. Bakhtine, Tvorčestvo Fransua Rable i narodnaja kul’tura srednevekov’ja i Renessansa [L’œuvre de François Rabelais et la Culture Populaire au Moyen-âge et sous la Renaissance], Moska, Chudozevennaja literature, 1965. Le concept de « cercle magique », métaphore spatiale qui identifie la dimension du jeu, a été proposé pour la première fois par Johan Huizinga et a été repris ensuite par Roger Caillois, Gregory Bateson et Erving Goffman, entre autres, toujours en référence au jeu comme dimension explicitement alternative, animée par des règles différentes de celles qui organisent la vie quotidienne.[↩]
R. Bonette, “Biometrics in Movies Sci-Fi Security”, Avatier, 31 janvier 2017, https://blog.avatier.com/biometrics-in-sci-fi-movies/.[↩]
M. Glenhaber, “What Science Fiction Media Gets Wrong About Facial Recognition”, Pop Junctions, 20 novembre 2020,https://henryjenkins.org/blog/2020/11/19/mehitabels-post. [↩]
Message publié par le compte Instagram anmlcollective : https://www.instagram.com/p/CjieADlLygL/.[↩]
R. Wajaya, “How is Technology Impacting the Future of Live Events?”, Blink Identity,7 juin 2021,https://www.blinkidentity.com/forum/how-technology-impacts-future-of-live-events.[↩]
The University of Gloucestershire’s degree programs in Events, Hotel and Tourism Management, “Facial Recognition Technology at Music Festivals – Benefit or Invasion?”, University of Gloucestershire’s Blog, 5 mars 2021,https://uniofglos.blog/eventsglos/2021/03/05/facial-recognition-technology-at-music-festivals-benefit-or-invasion/.[↩]
https://www.pewresearch.org/about/. [↩]
A. Smith, “More Than Half of U.S. Adults Trust Law Enforcement to Use Facial Recognition Responsibly”, Pew Research, 5 septembre 2019,https://www.pewresearch.org/internet/2019/09/05/more-than-half-of-u-s-adults-trust-law-enforcement-to-use-facial-recognition-responsibly/.[↩]
En décembre 2017, aux alentours de Noël, Ed Bridges, défenseur des libertés publiques, a remarqué la mention « automatic facial recognition » (AFR, reconnaissance faciale automatique) sur le fourgon de police stationné devant le centre commercial de Cardiff dans lequel il s’apprêtait à entrer. Il a réalisé qu’il aurait pu être scanné par cette technologie à ce moment-là, et la même chose s’est produite lors d’une manifestation contre les armes à Motorpoint Arena en 2018. Bridges, soutenu par l’organisation de défense des droits civiques Liberty, a intenté une action en justice contre la police. Malgré des revers initiaux devant la Haute Cour de Londres, sa persévérance a porté ses fruits en août 2020, lorsqu’il a obtenu une victoire juridique. À cette date, la police avait constitué une base de données de 500 000 images faciales. La Cour a statué en faveur de Bridges sur trois des cinq points soulevés dans l’appel. Il a estimé qu’il n’existait pas de règles claires concernant le déploiement des systèmes AFR ou les critères d’inscription des personnes sur les listes de surveillance. Elle a également souligné que la police avait procédé à une évaluation inadéquate de l’impact sur la protection des données et qu’elle n’avait pas suffisamment cherché à savoir si la technologie AFR était biaisée sur la base de la race ou du sexe. Voir l’article de Connal Parsley et Conor Heaney.[↩]
T. Mansfield, “Facial Recognition Technology In Law Enforcement Equitability Study. Final Report”, Science Police UK, mars 2023, https://science.police.uk/site/assets/files/3396/frt-equitability-study_mar2023.pdf.[↩]
J. Buolamwini & T.Gebru, “Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification”, Proceedings of Machine Learning Research 2018, n. 81, p. 1-15.https://proceedings.mlr.press/v81/buolamwini18a/buolamwini18a.pdf.[↩]
https://banfacialrecognition.com/. [↩]
Voir Par. 1.[↩]
G. Agamben, A che punto siamo? L’epidemia come politica, Macerata, Quodlibet, 2020.[↩]
Foucault a inventé le fameux néologisme « biopolitique » pour définir l’interférence du pouvoir au point de réglementer non seulement les aspects socioculturels de la vie, mais aussi ceux liés à la sexualité, à la santé, à la reproduction et à la mort.[↩]
B. Bratton, The Revenge of the Real: Politics for a Post-Pandemic World, London, Verso, 2021. [↩]
E. Coccia, Metamorfosi. Siamo un’unica, sola vita, Turin, Einaudi, 2022, p. 6. [↩]
E. Coccia, ibid., sous-titre du livre.[↩]
B.-C. Han, Byung-Chul, Im Schwarm. Ansichten des Digitalen, Berlin, Matthes& Seitz, 2013.[↩]
B. Latour, Politiques de la nature. Comment faire entrer les sciences en démocratie ?, Paris, La Découverte, 1999.[↩]
B. Bratton, op. cit., p. 94.[↩]
Cet article a bénéficié d’un financement par le Conseil européen de la recherche (CER) dans le cadre du programme de recherche et d’innovation Horizon 2020 de l’Union européenne (convention de subvention n° 819649-FACETS).[↩]

Gabriele Marino

Gabriele Marino est un sémioticien qui travaille comme chercheur à l'université de Turin, en Italie. Il s'intéresse à la musique, à la communication en ligne et à la théorie sémiotique. Il est secrétaire de l'Association italienne pour les études sémiotiques et de la branche italienne de l'Association internationale pour l'étude de la musique populaire.

Marqué avec Démocratie, Sécurité, Surveillance