Avez-vous déjà essayé d’imaginer l’étendue de la mémoire d’Internet ? Au-delà, avez-vous seulement réfléchi à l’usage que des historiens, chercheurs, romanciers pourront faire de nos traces numériques ? La Bibliothèque nationale de France (BNF) et l’Institut national de l’audiovisuel (INA) collectent depuis 2006, au titre du dépôt légal, le web français. 


Il était une fois dans le web, c’est le nom de la conférence organisée par la BNF et l’INA à Paris en novembre 2016, à l’occasion des 20 ans de l’archivage du web. Deux journées dédiées aux évolutions de l’archivage du web et à la reconnaissance du patrimoine numérique. Je suis allée à la rencontre de ces chercheurs qui réfléchissent à l’histoire et à l’avenir de nos archives connectées.


Quels ont été les pionniers ?



• En 1996, l’américain Brewster Kahle crée Internet Archive, une fondation dont l’ambition est d’archiver la Toile mondiale. Il développe un crawler (un robot) capable de naviguer automatiquement et de stocker des copies de pages web. Aujourd’hui, sur sa page d’accueil, archive.org revendique 279 milliards de pages archivées depuis 1996.




• En France, ce sont les institutions publiques qui ont pris à bras-le-corps cette problématique. En 1999, la BNF s’interroge sur son rôle face à ce nouveau média, Internet. Comment former une archive utile pour le futur ? Julien Masanès, aujourd’hui président de l’Internet Memory Foundation, a été l’un des initiateurs de ce projet, de 1999 à 2005,pour le compte de la BNF. « Nous avons mené des expérimentations pour définir une politique d’archivage qui permette de répondre aux défis, notamment techniques, de l’internet. Mais finalement, ce qui est important dans le web, c’est que tout à chacun devient producteur d’un blog ou d’un site, donc on a eu à faire à beaucoup plus d’acteurs que pour dépôt légal imprimé. »

Pour en savoir plus sur Le Web des années 90.

• En 2006, la loi DADVSI (Droit d’auteur et droits voisins dans la société de l’information), charge officiellement la BNF et l’INA de collecter, conserver et communiquer l’histoire du web français au titre de dépôt légal.




• Pour rappel, le dépôt légal a été institué par François Ier en 1537. Il s’agit de l’obligation pour tout éditeur de déposer à la BNF, chaque document qu’il édite, imprime, produit ou importe en France. Ce dépôt légal est organisé pour permettre la collecte et la conservation de tous les documents produits en France et surtout pour constituer des archives cohérentes pour les chercheurs ou les historiens.

Aujourd’hui, le dépôt légal numérique n’est pas une obligation pour les éditeurs de contenus sur Internet. Tous les nouveaux sites enregistrés en France sont automatiquement répertoriés dans les bases de données de la BNF.  


Quand on archive l’Internet, qu’est-ce qu’on archive ?




• A la BNF, le dépôt légal concerne tous types de publications numériques. Emmanuelle Bermès, chargée de l’archivage du web à la BNF: « A l’origine l’objectif c’est de garder une mémoire de tout ce qui est publié en France. On ne sélectionne pas en fonction de la qualité, on va aussi bien conserver des skyblogs, des réseaux sociaux, des lolcats que des publications scientifiques, des sites institutionnels ou des médias en ligne. »

La démarche de la Bibliothèque nationale se veut encyclopédique puisqu’elle réalise chaque année un instantané du domaine national en archivant les sites enregistrés en France (c’est-à-dire tous les noms de domaines du .fr au .org en passant par les extensions régionales comme .bzh).


• L’INA, dans la continuité de ses collections audiovisuelles, collecte et conserve les sites officiels de chaînes de télévision et de radios, les sites d’émissions ainsi que les blogs ou sites de fans, et une partie des réseaux sociaux.


• Il y a aussi ce qu’on appelle les collectes d’urgence qui dépendent de l’actualité. Exemple avec les attentats qui ont frappé Paris en 2015. Valérie Schafer, chargée de recherche au CNRS :
 « On a suivi l’archivage des attentats de 2015, Charlie Hebdo et le Bataclan. Le responsable du dépôt légal du web à l’Ina lance la collecte vers 23h et la poursuit pendant plusieurs semaines à la suite des événements. Le but n’est pas de choisir si on va chercher de l’information ou des réactions, c’est déjà de trouver quelques bons hashtags en temps réel. » 
  




On ne peut pas archiver tout l’Internet : alors, comment choisir ?



• Valérie Schafer : « La BNF s’appuie sur des listes fournies par l’AFNIC, une association française pour le nommage Internet, pour repérer les sites et savoir lesquels collecter. Ainsi 4,5 millions de noms de domaines français sont moissonnés chaque année. Il y a des choix humains qui ordonnent les collectes, ensuite la technique prend le relais : des robots fouillent et archivent les sites, parfois on archive les hyperliens, des tas de métadonnées. Cette opération une hybridation entre des choix humains et des choix techniques. »


• Agnès Magnien, directrice déléguée aux collections de l’INA : « On exerce une veille permanente qui nous permet d’élargir ou de supprimer des captations. Ensuite la question plus technique est de savoir à quel niveau de profondeur, à quelle fréquence on va capter. Pour le web, ce que nous avons mis en place c’est une captation à chaque fois que le site est modifié éditorialement. »





• Emmanuelle Bermès, chargée de l’archivage du web à la BNF : « C’est impossible d’avoir une conservation exhaustive d’internet car c’est une conversation qui change constamment en temps réel. Donc on est obligé de faire des choix, de collecter de façon à avoir quelque chose de représentatif de ce qu’est le web français aujourd’hui et que les historiens de demain pourront utiliser pour comprendre la société dans laquelle on vit dans toutes ses interactions. »




Combien d’archives sont conservées en 2016 ?

• Aujourd’hui, est stockée à la BNF une collection de 668 Teraoctets (To) d’archives qui s’accroît d’environ 120 Teraoctets par an, ce qui représente 26 milliards de fichiers. au total.




• Depuis 2006, l’INA a capté plus de 14 000 sites, 12 millions de vidéos, 12 000 comptes Twitter soit plus de 400 millions de tweets. L’Institut conserve donc plus de 50 milliards de pages depuis 2011.
 Soit un total de 4 200 Teraoctets archivés par l'INA. 


Où sont stockées toutes ces données ?

• Les collections de la BNF sont conservées entre les murs de l’institution. Emmanuelle Bermès : « La BNF a mis en place un système de préservation numérique qui s’appelle Spare et dont la vocation est de conserver sur le très long terme tous les documents numériques que la Bibliothèque nationale préserve ou produit. »




En raison des enjeux de préservation numérique de ces archives, il faut régulièrement les déplacer sur de nouveaux supports pour éviter qu’elles se dégradent.



Les données personnelles sont-elles aussi archivées ?

• Il y a une partie du web qui ne veut pas être archivée pour des raisons de restrictions techniques. Emmanuelle Bermès : « L’archivage de l’internet pose tout de suite la question du droit à l’oubli. Evidemment, la BNF ne passe aucune des barrières techniques qui sont installées par des sites comme Facebook pour protéger de l’information privée. »
 C’est-à-dire que les robots ne franchissent pas les pages qui demandent des mots de passe, des identifications. « On ne va pas chercher de l’information privée. Néanmoins, dès lors qu’une publication été communiquée à un public, c’est la définition du dépôt légal, elle a vocation à être conservée. »



Qui peut consulter ces archives ?

• Toute personne justifiant d’un projet de recherche peut consulter les archives du web. Mais parce qu’elles sont tenues par le Code du patrimoine et afin de protéger le droit d’auteur, ces deux institutions publiques n’ont pas le droit d’ouvrir largement les archives à la consultation. C’est pourquoi elles ne sont pas en ligne. Elles sont donc consultables sur place, à la BNF, ou dans l’une des 18 bibliothèques autorisées en région.



Archiver l’Internet, à quoi ça sert ?




Pour Louise Merzeau, enseignante-chercheuse en sciences de l’information et de la communication à l’Université de Nanterre, il y a trois points majeurs :



« Garantir un recours aux sources pour la recherche car le web est un média de flux très instable, beaucoup de contenus disparaissent ou changent d’adresse. »





« Le web est une mémoire au quotidien, c’est devenu un lieu de recherche pour vérifier le sens d’un mot ou consulter des carnets de recherche, des thèses en ligne.»
 


« Et puis c’est une ressource pour étudier des mouvements sociaux, des faits historiques. »


• Par ailleurs, « ce qui est très important dans l’archivage institutionnel fait à la BNF et à l’INA au titre du dépôt légal, c’est qu’il permet un accès de droit à tous les citoyens. Donc c’est aussi un moyen de contrecarrer les logiques d’enfermement, de concentration qui sont développées par tous les grands acteurs économiques du web aujourd’hui. »



Quel est le prochain enjeu pour l’archivage du web ?




• Jean-Baptiste Soufron, avocat et ancien secrétaire général du Conseil national pour le numérique : « Il y a un point qui aujourd’hui n’est pas archivé, ce sont les choix éditoriaux. Autrefois,quand on archivait les quotidiens, on archivait la une. Qu’est-ce que c’est l’équivalent de la une sur Facebook ou Twitter ? C’est l’algorithme. Aujourd’hui on ne s’y intéresse pas, et il va falloir s’y mettre le plus vite possible. »



Pour en savoir plus sur la rencontre Il était une fois dans le web, le hashtag #20ansDLweb a été archivé. 

Crédits image : Morgane Tual

M'envoyer un e-mail lorsque des personnes publient un commentaire –

Vous devez être membre de Atelier des médias pour ajouter des commentaires !

Join Atelier des médias

Récemment sur l'atelier

Atelier des Médias - RFI via Facebook

L'Atelier des Médias c'est terminé pour cette semaine ! Si vous avez 💘,…

Atelier des médias via Twitter
Il y a 23 heures
Atelier des médias via Twitter
Vous avez 💘 l'émission ? N'hésitez pas à nous le dire !
Il y a 23 heures
Atelier des médias via Twitter
Vite, l'émission c'est dans 10 minutes sur @RFI ! 📻📻📻
hier
Plus...