Les Crises Les Crises
20.février.201820.2.2018 // Les Crises

[NSA] Trouver votre voix, par Ava Kofman

Merci 46
J'envoie

Source : The Intercept, Ava Kofman, le 19 janvier 2018.

Oubliez Siri et Alexa – Quand on parle d’identification vocale, la NSA règne en « maître absolu ».

Illustration: Brandon Blommaert pour The Intercept

Ava Kofman

19 janvier 2018

Au plus fort de la guerre froide pendant l’hiver 1980, des agents du FBI on enregistré un appel téléphonique dans lequel un homme arrangeait une réunion secrète à l’ambassade soviétique à Washington DC. Le jour de ce rendez-vous, cependant, les agents furent incapables de surprendre l’homme entrant dans l’ambassade. A cette époque, il n’y avait pas moyen de mettre un nom sur un appelant juste avec le son de sa voix, de ce fait, l’espion est resté anonyme. Pendant cinq ans, il a vendu des détails sur plusieurs programmes américains à l’URSS.

Ce ne fut pas avant 1985, grâce aux renseignements procurés par un transfuge russe, que le FBI fut capable d’identifier l’appelant comme étant Ronald Pelton, un ancien analyste de la National Security Agency. L’année suivante, Pelton a été inculpé d’espionnage.

Aujourd’hui, le FBI et les agents de la NSA auraient pu identifier Pelton en quelques secondes pendant son premier appel aux Soviets. Un mémo classifié de la NSA de janvier 2006 décrit comment les analystes utilisent « une technologie qui identifie les gens par le son de leurs leur voix » pour faire correspondre entre eux avec succès des vieux enregistrements de Pelton. « Si nous avions eu cette technologie il y a vingt ans, estime le mémo, une détection précoce et une arrestation auraient été possibles, réduisant considérablement les dégâts faits par Pelton à la sécurité nationale. »

Ceux-ci, plus d’autres documents classifiés procurés par l’ancien contractuel de la NSA Edward Snowden, révèlent que la NSA a développé une technologie, non seulement pour enregistrer et transcrire des conversations privées, mais pour identifier automatiquement le locuteur.

Les Américains utilisent régulièrement cette technologie, connue en tant que « reconnaissance du locuteur, ou identification du locuteur », quand ils réveillent leur Alexa d’Amazon, ou appellent leur banque. Mais une décennie avant que les commandes vocales comme « Hello Siri » et « OK Google » deviennent des formules couramment entendues dans une maisonnée, la NSA utilisait la reconnaissance du locuteur pour surveiller des terroristes, des politiciens, des seigneurs de la drogue, des espions et même des employés de l’agence.

Cette technologie fonctionne en analysant les caractéristiques physiques et comportementales qui rendent la voix de chacun caractéristique, comme la hauteur de ton, la forme de la bouche, et la longueur du larynx. Un algorithme crée alors un modèle digital dynamique des caractéristiques de la voix d’un individu. C’est ce qu’on appelle populairement une « empreinte vocale ». Le processus complet – enregistrer quelques mots, les transformer en empreinte vocale et comparer cette représentation avec d’autres empreintes vocales déjà présentes dans la base de données – peut se produire presque instantanément. Bien que la NSA soit connue pour se fier aux empreintes digitales et faciales pour identifier les cibles, les empreintes vocales, selon un document de l’agence de 2008, sont « le domaine où la NSA règne en maître ».

Ce n’est pas difficile de voir pourquoi. En interceptant et enregistrant des millions de conversations téléphoniques intercontinentales, des vidéos conférences et des appels via internet – en plus d’enregistrer, avec ou sans mandats, les conversations privées des Américains – la NSA a bâti une collection inégalée de voix différentes. Des documents des archives Snowden révèlent que des analystes ont alimenté des algorithmes de reconnaissance de locuteur avec certains de ces enregistrements, qui pourraient connecter des individus avec leurs énoncés précédents, même s’ils avaient utilisé un numéro de téléphone inconnu, des mots codés ou des langages multiples.

Dès l’opération « Opération liberté irakienne », les analystes se servaient de la reconnaissance des locuteurs pour vérifier que des enregistrements « qui semblaient être ceux du chef destitué Saddam Hussein, étaient bel et bien de lui, contrairement aux présupposés dominants ». Les mémos montrent en outre que les analystes de la NSA ont créé des empreintes vocales pour Oussama ben Laden, dont la voix était « caractéristique et remarquablement uniforme dans plusieurs transmissions » ; pour Ayman al-Zawahri, le dirigeant actuel d’Al-Qaïda, et pour Abou Moussab al-Zarqawi, qui était alors le troisième dirigeant du groupe. Ils ont utilisé l’empreinte vocale de Zarqawi pour l’identifier comme le locuteur dans des fichiers audio mis en ligne.

Les documents classifiés, datant de 2004 à 2012, montrent que la NSA affine des itérations de plus en plus sophistiquées de sa technologie de reconnaissance des locuteurs. Ils confirment l’utilisation de la reconnaissance des locuteurs dans les opérations antiterroristes et les arrestations de trafiquants de drogue à l’étranger. Et ils suggèrent que l’agence a prévu de déployer la technologie non seulement pour identifier rétroactivement des espions comme Pelton, mais aussi pour prévenir l’action des lanceurs d’alertes comme Snowden.

Un homme utilisant son smartphone adossé à une cabine téléphonique à New York le 4 mars 2005. Photo : Jewel

Toujours à l’écoute

Les experts des libertés civiques sont préoccupés par ces utilisations en expansion de reconnaissance de locuteurs, celles-ci et d’autres, qui pourraient mettre en péril le droit à la vie privée. « Cela crée une nouvelle capacité du renseignement et une nouvelle possibilité d’abusé », expliquait Timothy Edgar, un ancien conseiller de la Maison Blanche au directeur de la NSA. « Notre voix voyage à travers toutes sortes de canaux de communication où ne nous trouvons pas. A un âge de surveillance de masse, ce genre de possibilité a de profondes implications sur toute notre vie privée. »

Edgar et d’autres experts ont souligné la nature relativement stable de la voix humaine, qui est beaucoup plus difficile à modifier ou à déguiser qu’un nom, une adresse, un mot de passe, un numéro de téléphone ou un code PIN. Cela rend « beaucoup plus facile » la traque d’une personne, selon Jamie Williams, une avocate de Electronic Frontier Foundation. « Dès que vous pouvez identifier la voix de quelqu’un », a-t-elle dit, « vous pouvez immédiatement trouver cette personne chaque fois qu’elle a une conversation, du moment que vous l’enregistrez ou que vous l’écoutez. »

La voix est une donnée biométrique unique et aisément accessible. Contrairement à l’ADN, elle peut être collectée passivement et depuis une grande distance, sans que le sujet le sache ni ne consente. La précision varie considérablement selon l’adéquation entre les caractéristiques de la voix recueillie et celles des enregistrements précédents. Mais, en contrôlant les paramètres – avec un bruit de fond réduit, un environnement acoustique familier, un un signal de bonne qualité – la technologie peut se servir de peu de phrases parlées pour faire correspondre de façon précise des individus. Et avec plus d’échantillons de voix introduites dans le modèle digital, celui-ci devient plus fort et plus « mature ».

Dans ses applications commerciales, la reconnaissance des locuteurs est le plus souvent associée à la détection des fraudes dans les centres d’appels, à la communication avec des assistants vocaux comme Siri et à la vérification des mots de passe pour les services bancaires personnels. Et ses utilisations sont grandissantes. Selon Tactica, une firme d’étude de marché, le revenu tiré de l’industrie de biométrie vocale est en position d’atteindre près de 5 milliards de dollars par an en 2024, avec des applications s’étendant aux contrôles aux frontières, aux soins de santé, aux paiements par carte de crédit, et aux appareils portables.

L’une des inquiétudes majeures des défenseurs des libertés civiles est la possibilité de figer la parole. Trevor Timm, directeur exécutif de la Freedom of the Press Foundation, a fait remarquer comment la technologie de reconnaissance des locuteurs de la NSA pourrait hypothétiquement être utilisée pour traquer les journalistes, démasquer les sources et décourager l’anonymat. Alors que les personnes manipulant du matériel sensible savent qu’elles devraient crypter leurs appels téléphoniques, Timm a indiqué les nombreuses voies – des téléviseurs aux écouteurs en passant par les appareils connectés à Internet – par lesquelles les voix pourraient être enregistrées subrepticement. « Il y a des microphones tout autour de nous tout le temps. Nous portons tous un micro 24 heures sur 24, sous forme de téléphones cellulaires », a dit Timm. « Et nous savons que le gouvernement peut pirater les téléphones et les ordinateurs pour les activer. »

« Malgré les nombreux changements[législatifs] intervenus depuis les révélations de Snowden », a-t-il ajouté, « le peuple américain n’a qu’une compréhension partielle des outils que le gouvernement peut utiliser pour surveiller des millions de personnes dans le monde. Il est important que ce type d’information soit débattu dans la sphère publique ». Mais le débat est difficile, a-t-il fait remarquer, si le public manque d’un sens véritable des utilisations de la technologie, et encore moins de son existence.

Un ancien agent des renseignements de la Défense, qui a parlé à The Intercept dans l’anonymat parce qu’il n’était pas autorisé à discuter de matériel classifié, pense que le profil bas de la technologie n’est pas un accident. « Le gouvernement évite de discuter de cette technologie parce qu’elle soulève de sérieuses questions auxquelles ils préféreraient ne pas répondre », a déclaré le responsable. « C’est un élément essentiel de ce qui est arrivé, à nous et à nos droits, depuis le 11 septembre ». Pour que la technologie fonctionne, le fonctionnaire a noté : « Vous n’avez rien d’autre à faire que d’ouvrir la bouche. »

Ces défenseurs craignent qu’en l’absence de toute discussion publique ou de surveillance de la collecte secrète de nos modèles vocaux par le gouvernement, nous pourrions entrer dans un monde où de plus en plus de voix se taisent.

Le bâtiment du NIST, Department of Commerce’s National Institute of Standards and Technology américain, le 9 octobre 2012 à Boulder, Colorado. Photo : Dana Romanoff / Getty Images

Les nouveaux outils vocaux

Tandis que les américains sont au courant depuis 2013 de la collecte massive de données téléphoniques nationales et étrangères par la NSA, le processus par lequel ces données brutes sont converties en informations significatives est resté largement confidentiel. En 2015, The Intercept rapportait que la NSA avait mis au point une série de « technologies du langage humain » pour donner un sens à l’extraordinaire quantité des données audio recueillies par le gouvernement. En développant des programmes pour traduire automatiquement la parole en texte – ce que les analystes appelaient « Google for voice » – l’agence pouvait utiliser des mots-clés et des « sélecteurs » pour rechercher, lire et indexer des enregistrements qui auraient autrement nécessité un nombre infini des personnes pour les écouter.

La reconnaissance des locuteurs est apparue en même temps que ces logiciels synthétiseurs de la parole au texte comme une technique additionnelle pour aider les analystes à trier les innombrables heures d’interceptions en provenance des zones de guerre. Une grande partie de sa croissance et de sa fiabilité est due aux investissements de la NSA et du Département de la Défense. Avant l’ère numérique, la reconnaissance des locuteurs était principalement pratiquée en science médico-légale. Pendant la Seconde Guerre mondiale, des analystes humains ont comparé les empreintes visuelles des fréquences vocales à la radio. Selon Harry Hollien, l’auteur de Forensic Voice Identification, ces machines à « parole visible », connues sous le nom de spectrogrammes, ont même été utilisées pour réfuter une rumeur selon laquelle Adolf Hitler aurait été assassiné et remplacé par un double.

« Les empreintes vocales étaient quelque chose que l’on pouvait examiner », explique James Wayman, un éminent spécialiste de la reconnaissance vocale qui préside les efforts fédéraux visant à recommander des standards pour la reconnaissance médico-légale des locuteurs. Il a souligné que le terme « empreinte vocale », bien qu’il soit largement utilisé par les fournisseurs commerciaux, peut être trompeur, car il implique que l’information saisie est physique plutôt que comportementale. « Ce que vous avez maintenant, c’est une équation intégrée dans un logiciel qui crache des chiffres », a-t-il dit.

Ces équations ont évolué de simples moyennes à des modèles algorithmiques dynamiques. Depuis 1996, la NSA a financé le National Institute of Standards and Technology Speech Group pour développer et tester ce qu’elle appelle « l’approche algorithmique la plus dominante et la plus prometteuse face aux problèmes de reconnaissance des locuteurs ». Parmi les participants qui testent leurs systèmes avec le NIST figurent des entreprises de pointe en biométrie et des universitaires, dont certains sont financés par la NSA et la Defense Advanced Research Projects Agency, ou DARPA.

Le silence de la NSA autour de son programme de reconnaissance des locuteurs rend difficile de déterminer ses pouvoirs actuels. Mais étant donné les liens étroits qui existent entre la recherche universitaire financée par la NSA et les entreprises privées, une bonne approximation des capacités des NSA peut être tirée de ce que font d’autres pays – et quels fournisseurs les vendent.

Par exemple, Nuance, l’un des leaders du secteur, fait de la publicité auprès des gouvernements, des forces armées et des services de renseignement « un système biométrique vocal national capable d’identifier et de segmenter rapidement et avec précision les individus au sein de systèmes comprenant des millions d’empreintes vocales ». En 2014, l’Associated Press a rapporté que la technologie de Nuance avait été utilisée par la plus grande société turque de téléphonie mobile pour collecter des données vocales auprès d’environ 10 millions de clients.

En octobre, Human Rights Watch a signalé que le gouvernement chinois avait constitué une base de données nationale d’empreintes vocales afin de pouvoir identifier automatiquement les personnes qui parlent au téléphone. Le gouvernement vise à relier la biométrie vocale de dizaines de milliers de personnes à leur numéro d’identité, leur origine ethnique et leur adresse. Selon HRW, le distributeur de logiciels vocaux chinois a même breveté un logiciel permettant de localiser les fichiers audio pour « surveiller l’opinion publique ».

En novembre, un projet international majeur de reconnaissance des locuteurs financé par l’Union européenne a passé son test final, selon un communiqué de presse d’Interpol. Plus de 100 analystes du renseignement, chercheurs et agents des services de police de plus de 50 pays – dont Interpol, le Metropolitan Police Service du Royaume-Uni et la Polícia Judiciária portugaise – ont assisté à la présentation, au cours de laquelle les chercheurs ont prouvé que leur programme pouvait identifier des « locuteurs inconnus parlant dans différentes langues… par le biais de médias sociaux ou de moyens audio légalement interceptés ».

Les documents de la NSA examinés par The Intercept décrivent les contours d’un système aussi extensif – un système qui, dans les années qui ont suivi le 11 septembre, a permis aux « analystes linguistiques de passer au crible des centaines d’heures de montages vocaux en quelques secondes et de sélectionner des éléments d’intérêt potentiel en fonction de mots clés ou de la reconnaissance vocale des locuteurs. »

Un membre du mouvement Sahwa parle sur son téléphone portable près d’un poste de contrôle au centre de Bagdad le 22 novembre 2008. Photo : Ali Yussef/AFP/Getty Images

Des résultats « spectaculaires »

L’histoire partielle du développement par la NSA de la technologie de reconnaissance des locuteurs peut être reconstituée grâce à une décennie de lettres d’information internes de la Direction du renseignement sur les transmissions, ou SID. Tour à tour vantards et laconiques, les mémos du SIDtoday décrivent en détail comment la reconnaissance vocale a évolué en partant une science médico-légale tâtonnante menée par des examinateurs humains pour se transformer en programme algorithmique automatisé utilisant des masses de données vocales. En particulier, les mémos soulignent la façon dont les analystes américains ont travaillé en étroite collaboration avec leurs homologues britanniques au quartier général des communications gouvernementales, ou GCHQ, pour traiter les paquets d’enregistrements vocaux provenant des efforts du contre-terrorisme en Irak et en Afghanistan. Le GCHQ, qui a refusé de répondre à des questions détaillées pour cet article, a vanté ses systèmes dans des bulletins internes pour avoir « joué un rôle important dans notre relation avec la NSA ».

Bien qu’il soit parfois difficile de faire la distinction entre les annonces anticipées du SIDtoday et les capacités réelles de la technologie, il est clair que la NSA utilise la technologie de reconnaissance automatique des locuteurs pour repérer et étiqueter les « messages vocaux où un locuteur important parle » depuis au moins 2003. Chaque fois qu’une voix a été interceptée, explique une note de service SIDtoday, la technologie de reconnaissance vocale pourrait la modéliser et la comparer à d’autres afin de répondre à la question : « Est-ce que c’est bien le terroriste que nous poursuivons? C’est Oussama ben Laden ? »

Mais le système de la NSA a fait beaucoup plus que répondre à des questions « oui ou non ». Dans une série de bulletins de 2006 qui mettent en vedette un programme appelé Voice in Real Time, ou Voice RT, l’agence décrit sa capacité à identifier automatiquement non seulement le locuteur dans une interception vocale, mais aussi sa langue, son sexe et son dialecte. Les analystes pouvaient trier les interceptions par catégories, rechercher des mots-clés en temps réel et mettre en place des alertes automatiques pour les avertir lorsque les interceptions entrantes répondaient à certains critères signalés. Un PowerPoint de la NSA confirme en outre que le programme Voice RT a transformé son « ingurgitation » de données de voix irakiennes en empreintes vocales.

Les mémos de la NSA fournis par Snowden n’indiquent pas l’ampleur du déploiement de Voice RT à ce moment-là, mais les comptes-rendus du Voice/Fax User Group du GCHQ le font. [Le Government Communications Headquarters (GCHQ, littéralement « Quartier général des communications du gouvernement ») est le service de renseignements électroniques du gouvernement du Royaume-Uni, NdT]. Des notes d’agents britanniques expliquent en détail comment le programme de reconnaissance des locuteurs de la NSA a été déployé contre des cibles étrangères. Lorsque le Voice/Fax User Group du GCHQ a rencontré des agents de la NSA à l’automne 2007, les membres ont décrit la présence d’un système de reconnaissance vocale actif qui fournit aux linguistes et aux analystes de la NSA des fonctions d’identification des locuteurs et de la langue, de transcription de discours à texte et de recherche phonétique. « Essentiellement », comme dit le compte-rendu à propos de Voice RT, « c’est du multi-service…. Un effort massif a été déployé pour améliorer l’extension du système ». D’ici 2010, le programme Voice RT de la NSA pourrait traiter des enregistrements dans plus de 25 langues étrangères. Et il l’a fait : en Afghanistan, la NSA a associé l’analyse de la voix à un logiciel de géolocalisation pour localiser les groupes d’antennes de réseau portable où l’on parlait arabe – une technique qui les aurait amenés à découvrir de nouveaux camps d’entraînement d’Al-Qaïda.

Pour sa part, le GCHQ a eu recours à un programme appelé Broad Oak, entre autres, pour identifier des cibles en fonction de leur voix. Le gouvernement britannique a mis en place des systèmes de reconnaissance des locuteurs au Moyen-Orient contre les dirigeants saoudiens, pakistanais, géorgiens et irakiens, entre autres. « Sérieusement », trouve t-on dans le compte-rendu « si vous pensez que nous pouvons vous aider à identifier votre cible d’intérêt parmi le flot de trafic que vous devez ingurgiter, n’hésitez pas à nous contacter et nous serons heureux de discuter de vos besoins et, espérons-le, d’offrir une solution rapide et précise ».

Ce n’était pas une offre vaine. Les comptes-rendus de 2009 se vantent d’agents du GCHQ surpassant leurs homologues de la NSA lorsqu’ils visent Adil Abdul Mahdi, l’un des vice-présidents irakiens de l’époque. « Étant donné que nous n’avons cessé de faire des rapports sur lui [le vice-président] plus rapidement qu’eux, la NSA a abandonné son implication. Cette bonne performance a rehaussé notre réputation à la NSA ». Et un sommaire de recherche du GCHQ de 2010 montre que les deux agences collaborent pour mener des expériences conjointes avec leurs programmes d’analyse de la voix.

Mais le développement des outils de reconnaissance des locuteurs n’a pas toujours été sans faille. À ses débuts, la technologie était loin d’être aussi puissante et efficace qu’aujourd’hui. L’ancien responsable du renseignement de la défense se rappelle que, bien que les analystes aient pu lire des échantillons de voix à leur poste de travail, la recherche d’un échantillon important s’est révélée un défi, puisque les données audio n’étaient pas indexées. Dans une lettre au rédacteur en chef publiée dans SIDtoday, en 2006, un analyste se plaint de l’introduction des outils vocaux « en proie à des accidents » et compare leur vitesse initiale à celle de la « mélasse en janvier à Juneau ».

Cependant, l’année suivante, il était clair que la reconnaissance des locuteurs avait beaucoup mûri. Un mémo célébrant la collecte spéciale de la NSA pour le voyage du président iranien de l’époque Mahmoud Ahmadinejad à New York pour l’Assemblée générale des Nations Unies, fournit une étude détaillée de la technologie en action. Après avoir obtenu l’autorisation légale, les analystes ont configuré un système spécial pour cibler les téléphones du plus grand nombre possible des 143 délégués iraniens. Sur tout ce trafic entrant, ils ont utilisé des algorithmes de détection de l’activité de la parole pour éviter que les analystes écoutent du vide ; des recherches par mots-clés pour découvrir « la transmission d’adresses électroniques et la discussion de personnalités éminentes » ; et la reconnaissance des locuteurs pour localiser avec succès les conversations de « personnes d’intérêt significatif, y compris le ministre des Affaires étrangères iranien ».

Dans une annonce annonçant l’ouverture d’un nouveau laboratoire audio-légal de la NSA en Géorgie cette année-là, l’agence note qu’elle prévoit de mettre ces technologies de la parole à la disposition d’un plus grand nombre d’analystes de l’agence. Et une note de service SIDtoday de l’année suivante faisait état d’améliorations du système qui permettraient aux analystes de « trouver de nouveaux montages de voix pour une cible correspondant aux enregistrements antérieurs de la cible ».

Lorsque les cibles ont élaboré des stratégies pour échapper aux technologies de reconnaissance des locuteurs, les outils ont évolué en réponse. En 2007, les analystes ont remarqué que la fréquence des interceptions de deux cibles qu’ils avaient identifiées comme associées à Al-Qaïda était hors de portée humaine normale. Au cours des années qui ont suivi, les analystes se sont intéressés à d’autres cibles modulant leur voix au Yémen, en Afghanistan, en Irak et ailleurs, « susceptibles d’éviter l’identification par les services de renseignements ». Certains des extraits audio qu’ils ont observés distordent les tonalités vocales de l’orateur pour qu’elles sonnent comme « un personnage d’Alvin et des Chipmunks ». Cela a amené les analystes à supposer que les membres de l’AQAP impliqués dans la tentative d’attentat à la bombe de décembre 2009 à Detroit avaient échappé à la reconnaissance du gouvernement en masquant leur voix avec de nouveaux numéros de téléphone.

En 2010, les techniciens de l’agence ont développé une solution pour démasquer ces voix modulées. Appelé HLT LiTE, le nouveau logiciel recherche des enregistrements de voix modulées ou anormales. Selon SIDtoday, le programme a trouvé au moins 80 exemplaires de voix modifiées au Yémen après avoir scanné plus d’un million de fichiers audio. Il est rapporté que cela a conduit des agents à découvrir des personnes d’intérêt parlant sur plusieurs nouveau téléphones portables.

Au fur et à mesure que les capacités techniques de ces systèmes se sont étendues, leur portée s’est élargie. Un communiqué de septembre 2010 décrit en détail les résultats « spectaculaires » d’un système de reconnaissance vocale amélioré à Mexico – améliorations que le responsable du site a comparées à un « système de détection supplémentaire ». Les analystes ont pu isoler et détecter une conversation relative à une alerte à la bombe en cherchant dans les interceptions audio le mot « bomba ».

Les systèmes de reconnaissance vocale pourraient aussi être facilement reconfigurés pour des utilisations autres que leurs fonctions d’origine. Les procès-verbaux du GCHQ d’octobre 2008 décrivent comment un système mis en place pour « un réseau de personnes de haut niveau impliquées dans le trafic de stupéfiants afghan » a été par la suite « utilisé à des fins créatives ». Pour identifier d’autres cibles, les analystes ont analysé le système « sur un code postal complet où apparaissait une forte quantité de trafic ».

Équipement de réseau dans une salle de serveurs. Photo : Vladimir Trefilov / Sputnik / AP

Du champ de bataille à l’Agence

La NSA a vite réalisé que ses capacités à analyser des enregistrements vocaux pourraient être utilisées pour identifier des employés de la NSA même. Comme le mémo de janvier 2006 qui parlait des fichiers audio de Ronald Pelton l’explique, « Les technologies d’analogies vocales sont appliquées à l’initiative Menace Interne, pour essayer d’attraper les « espions qui se cachent parmi nous » ».

L’initiative Menace Interne, qui contrôle de près les vies des employés du gouvernement, a été publiquement lancée sous l’administration Obama, à la suite des fuites de la lanceuse d’alerte de l’armée américaine Chelsea Manning. Mais ce document semble indiquer que cette initiative était déjà en marche avant l’ordre d’application d’Obama en 2011.

Ce n’est pas surprenant que la NSA puisse détourner ces mêmes technologies biométriques utilisées pour détecter des menaces externes, vers des dissidents de ses propres rangs, selon Trevor Timm de Freedom of the Press Foundation. « Nous avons vu exemples après exemples durant ces dernières 15 années de forces policières utilisant des outils anti-terrorisme invasifs – qu’il s’agisse du repérage ou de la reconnaissance faciale ou de cette technologie utilisée pour identifier les voix des gens – et de les utiliser pour toutes sortes d’autres enquêtes criminelles. »

Timm a fait remarquer qu’au cours des dernières années, les lanceurs d’alerte, les sources et les journalistes ont pris des mesures de sécurité plus strictes pour éviter de s’exposer. Mais que « si les reporters utilisent des numéros de téléphone qui ne sont pas associés à leur identité et que le gouvernement scanne leurs appels téléphoniques avec un mandat ou autrement, la technologie pourrait aussi être utilisée pour museler le journalisme ».

Pour Timothy Edgar, qui a travaillé en tant que premier assistant de la communauté du renseignement pour les libertés civiles, ces risques « se résument à la question suivante : Cherchent-ils des cibles valables ou font-ils quelque chose de malveillant, comme essayer de surveiller les journalistes ou les lanceurs d’alerte ? »

À certains égards, a déclaré Edgar, la reconnaissance des locuteurs peut aider à protéger la vie privée d’une personne. Cette technologie permet aux analystes de sélectionner et de filtrer les appels afin qu’ils puissent se focaliser sur la voix d’une personne d’intérêt et éliminer celle des autres. Une note de service de SIDtoday de 2010 souligne comment la technologie peut réduire le volume d’appels que les agents ont besoin d’écouter en s’assurant que « le locuteur est un leader chinois et non un gars du magasin de doughnuts ».

Ce niveau de précision est « en fait l’une des justifications données par la NSA pour la collecte initiale de métadonnées en vrac », explique Edgar. « L’une des façons de défendre son programme, c’est qu’elle ne collectait pas tout, mais plutôt elle collectait des informations par l’intermédiaire de sélecteurs. »

En même temps, l’objectif même d’identifier des individus précis à partir de grandes quantités de données justifie souvent la nécessité de continuer à en accumuler davantage. Alors que la reconnaissance des locuteurs peut aider les analystes à réduire le nombre d’appels qu’ils écoutent, la technologie semble les encourager à balayer un nombre toujours plus grand d’appels, puisque son but est de trouver chaque instanciation de la voix d’une cible, quel que soit le numéro auquel elle est attachée. Ou, comme le dit la note Pelton, la technologie donne aux analystes la possibilité de « connaître cette voix de n’importe où ».

Bien que ces documents indiquent que l’agence a cherché à appliquer la technologie à ses propres employés, les documents examinés par The Intercept n’indiquent pas explicitement si l’agence a créé des empreintes vocales à partir des conversations de citoyens américains ordinaires.

Le Foreign Intelligence Surveillance Act ou FISA, donne à l’agence une grande latitude pour collecter les données audio transmises sur des serveurs étrangers, des infrastructures étrangères ou provenant d’Américains qui communiquent avec des étrangers. En raison de ce mandat, Edgar dit qu’il est « très concevable » que des empreintes vocales soient faites à partir d’appels intercontinentaux. « Je serais surpris qu’ils ne tirent aucune information quelles qu’elles soient de ces données. C’est un peu leur boulot. »

Cependant, les experts ne sont pas du tout d’accord pour dire si la NSA revendiquerait l’autorisation légale de faire des empreintes vocales à partir des appels de citoyens américains sur le sol américain, dont les voix pourraient être délibérément ou accidentellement collectées sans mandat. Une partie de ce désaccord découle de l’inadéquation de la loi sur la surveillance, qui n’a pas réussi à suivre le rythme des progrès des technologies numériques, comme les locuteurs et la reconnaissance vocale.

Alors que les États-Unis ont développé des lois strictes pour interdire l’enregistrement du contenu des appels sur le sol américain sans mandat, aucune loi fédérale ne régit la collecte et le traitement des données vocales.

Cela se résume en partie à la question de savoir si les empreintes vocales comptent comme contenu, que le gouvernement aurait besoin d’un mandat pour obtenir, ou si la NSA considère les empreintes vocales comme des métadonnées – c’est-à-dire des informations sur le contenu moins protégées par la loi. La loi est largement silencieuse sur cette question, ce qui conduit certains experts à spéculer sur le fait que la NSA exploite cette zone grise juridique.

En réponse à une liste détaillée de questions, la NSA a fourni la réponse suivante : « Conformément à une politique établie de longue date, la NSA ne confirmera ni ne niera l’exactitude des prétendus renseignements gouvernementaux américains mentionnés dans l’article. »

Illustration : Brandon Blommaert for The Intercept

Une approche pour un « arsenal complet »

Jeudi, le Sénat a voté la reconduction de l’article 702 de la FISA, qui donne à la NSA le pouvoir d’espionner, sans mandat, les Américains qui communiquent avec des cibles étrangères. Cette ré-autorisation, qui a fait suite à une action similaire à la Chambre la semaine dernière, a confirmé l’opinion des critiques qui voient la NSA adopter une interprétation de plus en plus ferme et ambiguë de ses pouvoirs juridiques.

Andrew Clement, informaticien et expert en étude des surveillances, a cartographié les activités d’écoute électronique sans mandat de la NSA depuis bien avant les révélations de Snowden. Il croit fermement que l’agence ne se limiterait pas dans l’utilisation de la reconnaissance des locuteurs sur les citoyens américains. L’agence a souvent choisi de classifier toutes les renseignements recueillis jusqu’au moment où un analyste humain les écoute ou les lise en tant que métadonnées, explique-t-il. « C’est juste une énorme faille », dit-il. « Il semble que tout ce qu’ils peuvent tirer algorithmiquement du contenu, ils le classeraient simplement comme métadonnées. »

En tant qu’analogie avec la façon dont la NSA pourrait justifier la création d’empreintes vocales, Clément a souligné la façon dont l’agence a traité les numéros de téléphone et les adresses e-mail. Le programme XKeyscore, révélé par Snowden en 2013, a permis aux agents d’extraire les adresses de courriel – qu’ils ont classées comme métadonnées – hors du volume des e-mails interceptés. Les agents ont également effectué des recherches en mode texte brut pour trouver des mots clés, qu’ils ont également classés comme contexte plutôt que contenu.

D’un autre côté, Edgar dit qu’il serait surpris si le gouvernement prétendait que nos voix comptent comme métadonnées. « On pourrait essayer de faire valoir que les caractéristiques d’une voix sont différentes de ce qu’une personne dit », a dit Edgar, « mais pour faire de la reconnaissance vocale, il faut tout de même recueillir le contenu d’un appel national et l’analyser pour extraire la voix. »

On ne sait pas publiquement combien d’enregistrements de communications nationales ont été recueillis, échantillonnés ou conservés par la NSA. Mais Jamie Williams, de l’EFF, a fait remarquer que la NSA n’aurait pas besoin nécessairement de collecter les enregistrements des Américains pour faire des empreintes vocales américaines, puisque les sociétés privées nous enregistrent constamment. Leurs sources audio ne font que croître. Les voitures, les thermostats, les réfrigérateurs, les ampoules électriques et même les poubelles sont devenus des dispositifs d’écoute « intelligents » (c’est-à-dire équipés d’Internet). Le groupe de recherche des consommateurs Gartner a prédit qu’un tiers de nos interactions avec la technologie cette année se fera par le biais de conversations avec des systèmes vocaux. Les « haut-parleurs intelligents » de Google et d’Amazon ont récemment introduit des systèmes de reconnaissance des locuteurs qui distinguent les voix des membres de la famille. Une fois que les compagnies l’auront, a dit Williams, les forces de l’ordre seront théoriquement en mesure de les obtenir, pourvu qu’elles aient un motif légal valide.

L’ancien fonctionnaire du gouvernement a noté que les données vocales brutes pourraient être stockées par des entreprises privées et accessibles à la NSA par le biais d’accords secrets, comme le programme Fairview, le partenariat de l’agence avec AT&T. Malgré les tentatives du Congrès de dominer la collecte par la NSA des relevés téléphoniques nationaux, l’agence a longtemps cherché à accéder aux données brutes que nous offrons aux bases de données des compagnies. (Les partenariats avec Verizon et AT&T, l’infiltration des systèmes de jeu Xbox, et la collecte clandestine des métadonnées en ligne de millions d’internautes ne sont que quelques exemples récents.) « Les compagnies de télécommunications détiennent les données. Il n y a rien pour les empêcher de lancer un algorithme », a déclaré l’ancien responsable.

Clement se demande si la capacité de la NSA à identifier une voix pourrait même être plus importante pour eux que la capacité d’écouter ce qu’elle dit. « Il leur permet de se connecter à d’autres instances de vous-même et d’identifier votre relation avec les autres », a-t-il dit.

Cela semble être l’objectif final de la NSA. Lors d’une conférence de 2010 – décrite comme « une occasion sans précédent de comprendre comment la NSA met toutes ses énergies créatives à l’œuvre pour traquer un individu » – les dirigeants ont parlé de la manière de mener une stratégie « vie complète » vers leurs objectifs. Ils ont décrit la nécessité d’intégrer les données biométriques, comme les empreintes vocales, à l’information biographique, comme les réseaux sociaux et l’histoire personnelle. Selon les propres mots de l’agence, « Il s’agit de localiser, de suivre et de maintenir la continuité des individus à travers l’espace et le temps. Il ne s’agit pas seulement des communications traditionnelles que nous recherchons, mais d’une approche « arsenal complet » ».

Documents publiés avec cet articlec:

Source : The Intercept, Ava Kofman, le 19 janvier 2018.

Traduit par les lecteurs du site www.les-crises.fr. Traduction librement reproductible en intégralité, en citant la source.

Nous vous proposons cet article afin d'élargir votre champ de réflexion. Cela ne signifie pas forcément que nous approuvions la vision développée ici. Dans tous les cas, notre responsabilité s'arrête aux propos que nous reportons ici. [Lire plus]Nous ne sommes nullement engagés par les propos que l'auteur aurait pu tenir par ailleurs - et encore moins par ceux qu'il pourrait tenir dans le futur. Merci cependant de nous signaler par le formulaire de contact toute information concernant l'auteur qui pourrait nuire à sa réputation. 

Commentaire recommandé

aladin0248 // 20.02.2018 à 08h22

Article complet et complexe qui démontre une fois de plus la nature totalitaire de l’Empire. Les opposants qui devront masquer leur voix devront trouver des outils à la hauteur du dispositif intrusif. Un bon masque de voix comportera un module ‘voix vers texte’, puis ‘texte vers voix de synthèse’. Tout ça existe mais le miniaturiser et l’implémenter sur des téléphones n’est pas à la portée de l’amateur.

16 réactions et commentaires

  • Subotai // 20.02.2018 à 06h51

    C’est rigolo, on parle d’identification; mais tout ça signifie qu’ils sont aussi capables de faire dire n’importe quoi à n’importe qui. A l’insu de son plein gré bien sûr…

      +25

    Alerter
    • aladin0248 // 20.02.2018 à 08h37

      Ça se fait déjà pour la vidéo (Cf. logiciel deepfake). Bientôt, on ne croira plus ni ce qu’on verra, ni ce qu’on entendra. Triste société !

        +16

      Alerter
      • Perséphone // 20.02.2018 à 09h40

        Quand ce genre de montage sera de notoriété publique (c’est à dire dans très peu de temps), la méfiance du public grandira encore vis à vis des infos reçues. Le rôle des journalistes professionnels va certainement s’en voir renforcé, désormais seuls habilités avec les personnes concernées à « certifier » une info dans un potentiel océan de faux. Sachant comme il est déjà difficile de contredire leur discours, même photos et vidéos à l’appui (cf Le Monde et l’Ukraine), la tâche risque de devenir vraiment ardue pour les blogueurs qui cherchent à apporter un regard différent sur une situation donnée.

          +13

        Alerter
        • SanKuKai // 20.02.2018 à 10h35

          Il nous restera toujours la logique. Pas pour se rapprocher de la vérité, mais davantage pour déceler ce qui a une forte probabilité d’être faux.
          Exemples:
          – V. Putin qui ordonne de lancer un missile sur un avion civil, juste pour le plaisir d’avoir la communaute internationale sur le dos et parce qu’il est très très méchant. ca n’a pas de sens.
          – B. Al Assad, qui dépasse les lignes rouges publiquement énoncées (ie: gazer son peuple) à chaque fois qu’il prend l’avantage militairement sur les rebelles, ca n’a pas de sens.

          Bon, évidemment, des fois ca marche pas:
          – La France qui mets des sanctions à la Russie contre ses propres interêts, ca n’a pas vraiment de sens non plus.

            +24

          Alerter
          • Seraphim // 21.02.2018 à 04h36

            Si, la logique ne s’arrête jamais à l’apparence absurde. C’est même là qu’elle commence à agir. S’il y a paradoxe, c’est que l’analyse logique n’est pas assez poussée: la France semble agir contre ses intérêts, c’est donc que soit ses intérêts sont différents des apparences, soit ce n’est pas elle qui « agit ». Autrement dit, soit elle est esclave passive de son maître, soit elle en est collaboratrice active. Sans nuire à ses intérêts, dans les deux cas.

              +3

            Alerter
            • lvzor // 23.02.2018 à 13h15

              Je pencherais plutôt pour collabo active…

              … (comme d’hab).

                +1

              Alerter
  • aladin0248 // 20.02.2018 à 08h22

    Article complet et complexe qui démontre une fois de plus la nature totalitaire de l’Empire. Les opposants qui devront masquer leur voix devront trouver des outils à la hauteur du dispositif intrusif. Un bon masque de voix comportera un module ‘voix vers texte’, puis ‘texte vers voix de synthèse’. Tout ça existe mais le miniaturiser et l’implémenter sur des téléphones n’est pas à la portée de l’amateur.

      +29

    Alerter
  • kisifi // 20.02.2018 à 09h09

    Ah mais voilà qui explique les mystérieux appels inconnus silencieux et répétés sur les téléphones fixes, tout le mondes s’en plaint : c’est la NSA qui cherche Ben Laden 🙂

      +8

    Alerter
  • Contributeur // 20.02.2018 à 11h24

    On peut passer sa vie à se désoler des évolutions offertes par le progrès: ça ne sert à rien.
    Il est plus utile de se tenir informé de ces dernières et d’adapter notre comportement en conséquence: merci à OB pour sa contribution.
    Du coup, il apparait important, voire crucial,que les politiques réagissent pour adapter rapidement la législation à ces nouvelles menaces. Autant dire que ce n’est pas gagné: les entreprises auront toujours un temps d’avance sur la loi, et les politiques ont une tendance naturelle à s’arroger quelques largesses peu accommodantes avec le reste de la population.
    Il apparaît donc que le débat démocratique devient de plus en plus indispensable dans cette configuration, car avec les possibilités presque infinies de flicage de la population, les dictatures à venir seront sans commune mesure avec celles du passé.

      +2

    Alerter
  • max // 20.02.2018 à 11h52

    En Chine, les autorités vont encore plus loin.
    https://dailygeekshow.com/chine-police-lunettes-reconnaissance-faciale/
    http://www.slate.fr/story/155246/chine-journaliste-videosurveillance
    Ils en mettent de partout (des caméras).

      +1

    Alerter
  • Michel Ickx // 20.02.2018 à 12h05

    La reconnaissance par la voix était le thème d’un des livres de Soljenitsyne publié il y aura bientôt un demi siècle. A l’époque de la guerre froide cela nous interpelait comme un témoignage effrayant de l’horreur du régime soviétique.

    Aujourd’hui la NSA fait bien pire mais cela n’inquiète plus le citoyen lambda. Que de chemin parcouru par l’empire qui nous veut du bien!

      +11

    Alerter
  • tepavac // 20.02.2018 à 15h12

    Dire que cet « outil » d’analyse vocale a été inventé par une jeune étudiante Alsacienne, Martine Kempf en 1986 !,
    présenté à l’émission « ambition » de B. Tapie et snobé par les investisseurs Français ….

    Destiné au départ à piloter des mécanismes par la voix, pour les handicapés(ées), ou pour ceux qui ne savent pas taper à la machine à écrire, ou pour…. apporter un bien général.

      +6

    Alerter
  • RGT // 20.02.2018 à 20h49

    Vu le flicage qui croît de manière exponentielle, je vous donne le conseil suivant :
    – Utiliser le moins possible le téléphone (surtout pour appeler votre maîtresse ou votre amant – ça pourrait servir à vous faire chanter).
    – Ne poster que des textes sans intérêt sur les blogs (ce que je fais en ce moment).

    Et surtout : Attendre patiemment l’effondrement énergétique qui enverra tous ces systèmes à la casse par manque de « nourriture », ce qui ne sera pas un mal.

    Dernier point : J’ai lu aujourd’hui un article de scientifiques du MIT qui prouvaient que le cerveau d’une simple mite (moth) était infiniment plus performant que la meilleure intelligence artificielle actuelle et à venir.
    Ce qui prouve que tous ces algos sophistiqués ne sont pas encore prêts à rivaliser avec le plus stupide des insectes.
    Dans les commentaires un lecteur attentif avait remarqué que les mites ne spéculaient pas sur les marchés financiers 🙂 …

    Finalement, nous serons sans doute sauvés par la pénurie énergétique. en retournant au « moyen-âge » nous retrouverons sans doute un peu de liberté..

      +4

    Alerter
    • Philippe // 22.02.2018 à 16h05

      Au moyen-âge il y avait 200/300 millions d’habitants sur terre.
      Si on retourne au moyen-âge, c’est avec les mêmes conditions de vie ce qui implique une diminution de la population.
      La surveillance de masse n’est plus trop nécessaire.

        +0

      Alerter
  • Afficher tous les commentaires

Les commentaires sont fermés.

Et recevez nos publications