Les algorithmes de méga-données qui distribuent l’information à travers les différents moteurs de recherche sont-ils vraiment capables d'anticiper et d'identifier l'information, alors qu'ils ne manient pour la plupart qu'une seule langue sur les 6 000 parlées au monde ? 

Le big data a raté l'épidémie d'Ebola, faute de savoir parler portugais et français

Le « big data » amasse et tisse les empreintes numériques que nous laissons derrière nous après avoir consulté le net. Et pourtant, sur les grands moteurs de recherche, certaines de nos traces s'effacent. Les organismes de la donnée agrègent les flux, puis les organisent avec des attributs (localisation, heure, mot-dièse, …) pour en faire des signaux pertinents. Cependant, ce système technologique reste incapable de traduire précisément la grammaire humaine des événements, faute d'une maîtrise en temps réel des 6000 langues et dialectes parlés à travers le monde. 


Ce mitage de l’information par des méga-données monolingues affaiblit considérablement le rôle des médias, dans l’analyse du débat politique international, ou encore dans la prévention des risques humains. Chaque langue induit en effet un mode de pensée, un regard sur les choses, et une manière de raconter des faits qui sont singuliers. 

A Hong Kong, depuis fin septembre, une effusion spontanée d’individus réclament la démission du Chef de l’exécutif Leung Cheng Ying, et la nomination des candidats par les citoyens. Le groupe « Occupy Central » n’est qu’un courant du mouvement dit des parapluies. Or, quand on veut s’informer à partir des moteurs de recherches internationaux, l’entrée « OccupyCentral » catalyse la quasi-totalité des actualités relatives au vent de révolte hongkongais (82 600 000 résultats sur Google), du simple fait que l’expression est en anglais, et qu’elle correspond à un mot-clef dans la presse, sur les blogs et les réseaux sociaux.

En 2014, 70% des événements rapportés dans les réseaux d’information en portugais n’apparaissent nulle part ailleurs dans le monde dans les fils d’actualité internationaux en anglais. Conséquence : quand, en janvier dernier, des personnels de santé guinéens avaient pris dès le mois de janvier l’initiative de consigner sur leurs blogs les premiers soins portés aux patients manifestant des symptômes d’Ebola, en portugais, langue officielle du pays, les moteurs de recherche internationaux anglophones ont littéralement oblitéré ces informations de première ligne.

Le GDELT Project, un organisme de données qui base ses algorithmes sur Google, se donne pour but de repérer et de traduire chaque jour un échantillon des médias d’information du monde entier en anglais, qui reste la langue utilisée par la plupart des systèmes de veille. Mais, à ce jour, le système reste incapable de traduire à cent pour cent, correctement et en temps réel les informations internationales vers l’anglais.

Le 14 mars, aucune trace sur Google News de la dépêche que l’agence de presse chinoise Xinhua a consacré à la conférence de presse tenue le jour-même par le docteur Sakoba Keita, directeur de la division de la prévention des maladies au département de la santé de Guinée, et diffusée dans tout le pays par la télévision d’Etat. La brève avait été rédigée en français, langue que le GDELT n’a pu traduire à ce moment-là.

Des données et des hommes 

Avoir les moyens de traiter l’ensemble des sources locales d’information et de savoir sur Ebola aurait pourtant permis de gagner considérablement en efficacité pour superviser les vecteurs locaux d’information dans leur travail de prévention des risques sanitaires.

« Le corpus de données utilisé est incomplet », reconnaît Kalev Litaru, chercheur à l'université de Georgetown dont les travaux se concentront sur l'appréhension de la société au travers du «big data». A ses yeux, il ne s’agit pas seulement de permettre à la recherche d’avancer pour libérer la valeur cachée dans les données complexes, mais d’accepter que la data sans l’humain est une abstraction qui ne fait pas sens.

Il faut des hommes formés pour surveiller les machines, leur conception, et leur influence. C’est ce que prévoit en France la loi Informatique et Libertés, qui s'applique depuis 1978. 

Mais, l'exemple d'Ebola montre bien que l'éthique des données personnelles n’est désormais plus le seul enjeu humain du big data. Le rôle des humains est appelé à être repensé en amont et en aval des algorithmes automatiques. Il faut des personnes qui représentent le monde dans sa pluralité culturelle pour équilibrer, étayer et critiquer les données qui forment le canevas de l’information globalisée. 

On aimerait parfois que les données sachent parler à la place des savants, des experts, journalistes, des enseignants, des médecins, des juristes. Toutefois, le discours, parce qu'il induit le débat et la nuance, reste une propriété fondamentalement humaine.

La maîtrise de tout événement par la prévision d’algorithmes nous apparaît comme la signification contemporaine du progrès, ramené à la technologie. Or, le progrès humain a un sens discernable de l’avancée de l’industrie IT.

C’est ce qu’estime aussi Mercedes Erra :  « Que des voix s'élèvent pour freiner les logiques jusqu'au-boutistes de la big data, de la technologie oublieuse de l'humain me paraît sain », a répondu la directrice exécutive de Havas Worldwide au quotidien La Croix qui lui demandait de s’exprimer à partir du mot « demain ».


M'envoyer un e-mail lorsque des personnes publient un commentaire –

Journaliste médias à Intégrales Mag et à Socialter en même temps ; sème aussi des chroniques, notamment à Sud Radio (Le Brunch Médias).
Twitter : @ClaraSchmelck
Press book : myslowmedia@tumblr.com

Vous devez être membre de Atelier des médias pour ajouter des commentaires !

Join Atelier des médias

Articles mis en avant

Récemment sur l'atelier

Atelier des médias via Twitter
Condition des Noirs américains: Serena Williams refuse de se taire: La championne américaine de tenn... http://rfi.my/2dCjuXN  Via @RFI
Il y a 54 minutes
Atelier des Médias - RFI via Facebook

#ConseilDeLecture L'histoire commence ainsi : "Le leader mondial des systèmes…

Atelier des médias via Twitter
Breaking the Black Box: What Facebook Knows About You http://buff.ly/2d7IUxG  By @Propublica #facebook
Il y a 5 heures
Atelier des Médias - RFI via Facebook
Plus...