Via un billet paru sur ReadWriteWeb (et reproduit ci-dessous), j’ai découvert que Wikileak CouchApp, une application basée sur les données massivement fuitées sur Wikileaks, fonctionne avec la base de données CouchDB. Le principe de cette base NoSQL est de distribuer chez tous les clients une partie des données, rendant de fait ceux-ci acteurs dans la distribution du contenu (a chaque fois qu’un client consulte la base de données, il télécharge une partie du contenu, et devient lui-même serveur de ce contenu, sur le principe du P2P). Via cette base de donnée distribuée, la montée en charge n’est donc plus un problème (car plus il y a de clients, plus il y a de serveurs), et surtout, il devient impossible de supprimer le contenu (sauf si tous les clients le suppriment de leur ordinateur, ce qui signifierait que le contenu n’aurait plus de valeur intrinsèque).
De la même façon que pour la technologie BitLet (BitLet.org montre que le P2P viendra peut-être au secours des services de partages de vidéos tels Youtube ou Dailymotion), le P2P vient donc au secours des applications lourdes en données, chargées en nombre de connections, et dans le cas présent, menacé d’extinction à cause de la sensibilité du contenu lui-même.
Plus généralement, je ne serais pas étonné que ce type de technologie finisse par prendre une importance non négligeable dans l’univers du web (mais je pensais ça déjà il y a un an, et force est de constater que la situation n’a pas beaucoup évolué). Même si on a Twitter qui utilise désormais BitTorrent pour ses déploiements servers, Wikileaks CouchApp n’est que la seconde innovation médiatisée que je vois passer utilisant ce type de technologie. C’est pourtant financièrement très intéressant, même si cela demande beaucoup plus de R&D qu’une simple mise en place d’un SI classique avec relation basique client/server.
Le billet de RWW FR (licence CC BY-SA) :
CouchDB se sert de Wikileaks pour mettre en valeur son aptitude au datajournalisme
Ecrit le 10 août 2010 par Audrey Watters
Alors que les poli ti ciens, les experts, les mili taires et les jour na listes évaluent et débattent des conséquences de la publi ca tion par Wikileaks du «Afghan War Diary» – sa léga lité, son aspect éthique, son impact sur la guerre, et l’émergence de la pre mière orga ni sa tion de presse apa tride – bon nombre de déve lop peurs se plongent dans les 91.000 docu ments mis à la dis po si tion du public et cherchent ce qu’ils vont bien pou voir faire de ces données.
La quan tité de don nées est conséquente, datés de 2004 à 2010, il y a du HTML, du CSV, du SQL, ainsi que plu sieurs fichiers KML. Mais même les docu ments HTML ne rendent pas la tâche aisée. Ce sont des don nées brutes, et l’on peut vou loir en extraire aussi bien le type, la caté go rie, la région concer née, l’affiliation, la date, la sévé rité d’un incident…
Analyser les don nées brutes de Wikileaks
Der Spiegel, le Guardian et le New York Times ont reçu les don nées de Wikileaks un mois avant qu’elles ne soient acces sibles au public, et leurs deve lop peurs ainsi que leurs journa listes ont fouillé l’information pour en extraire des récits à pré sen ter à leurs lec teurs. Le Guardian offre égale ment à ses lec teurs des outils inter ac tifs pour les aider à com prendre les documents.
Mais main te nant que les docu ments sont acces sibles publique ment, la recherche et l’analyse des don nées sont dis tri buées. Sur son blog Zero Intelligence Agents, Drew Conway, un étudiant en sciences poli tiques de la New York University a com mencé une ana lyse sta tis tique des don nées. Ses scripts ajoutent une brique aux projets simi laires qui sont déve lop pés et par ta gés un peu partout.
Construire l’application Wikileaks CouchApp
L’un de ces projets est le Wikileaks CouchApp, créé par Benoit Chesneau, fon da teur deEnki Multimedia et membre de la com mu nauté CouchDB. L’application est construite à par tir de plu sieurs outils open source dont CouchDB 1.0, GeoCouch, jQuery, Simile Timeline et OpenLayer, et s’intègre à une Google Map. Cet assem blage per met aux documents de Wikileaks, une fois impor tés dans CouchDB à par tir des fichiers CSV, d’être catégo ri sés et triés avec des para mètres tem po rels et géo gra phiques. En par cou rant la timeline de l’application, vous pou vez navi guer à tra vers les rap ports confi den tiels par date et les situer sur une carte. En cliquant sur la carte, vous faites appa raitre une popup, où vous pou vez prendre connais sance des infor ma tions rela tives au rap port ou deman der à le lire dans son intégralité.
Pourquoi CouchDB ?
CouchDB est une base de don nées post-relationelle. Par rap port aux schéma stricts des bases de don nées rela tio nelles, CouchDB est plus flexible, et stocke les don nées d’une façon semi-structurée en uti li sant un modèle de vue basé sur Javascript pour géné rer ses résul tats. Cette flexi bi lité per met aux uti li sa teurs d’effectuer des requêtes à la demande, plu tôt que, selon les mots du créa teur de CouchDB Damien Katz, d’être res treint à la façon dont un autre à pensé la base de don nées. Vous pou vez faire plus avec vos don nées avec CouchDB sou tien Katz, parce que vous pou vez écrire vos requêtes.
Mais ce n’est pas la seule flexi bi lité qui fait de CouchDB un choix inté res sant pour la base de don nées de Wikileaks. CouchDB est un sys tème de base de don nées dis tri buée de pair à pair. En d’autres terme, chaque par ti ci pant l’utilisant – ser veur ou client offline – peut avoir une réplique indé pen dante de la même base de don nées. Ces copies peuvent être plei ne ment inter ac tives avec une capa cité à faire des requêtes, ajou ter, éditer et effa cer, et les chan ge ments appor tés à la base de don nées peuvent être répliqués sur toutes les copies miroir en quasi temps réel.
Pour une entre prise, uti li ser CouchDB per met de syn chro ni ser de façon fiable des bases de don nées entre de mul tiples machines, aug men ter la redon dance du sys tème, aider au load balan cing… Et dans le cas de la War Diary CouchDB app, cela signi fie qu’il sera impos sible de fer mer Wikileaks. Pour l’instant, l’application est héber gée sur le ser veur de CouchDB, et bien que des copies aient été réa li sées, ni Katz, ni Chesneau n’ont entendu par ler de copie mise à la dis po si tion du public.
Katz parle de CouchDB comme «une pla te forme de dis sé mi na tion de l’information du futur». Mettant en avant sa sécu rité, sa capa cité de mon tée en charge, et sa flexi bi lité, Katz pense que la tota lité du site Wikileaks, et pas seule ment cette appli ca tion, devrait migrer sur CouchDB. A l’heure où l’armée amé ri caine demande à ce que lui soit rendu «tous les docu ments» et que cer tains appellent à ce que l’hébergeur sué dois de Wikileaks ferme le site, qui sait si Wikileaks ne pren dra pas ce chemin.
Des outils tech no lo giques pour un futur piloté par les données
Comme avec tout ensemble de don nées consé quent, les docu ments de Wikileaks fournissent des don nées brutes, aptes à ser vir de matière pre mière pour la construc tion d’outils ana ly tiques ou de visua li sa tion propre au datajour na lisme. Mais si les don nées de Wikileaks et leur publi ca tion prêtent à contro verse, il n’est pas illé gal de les posséder.
Drew Conway, lui, a choisi de conti nuer avec son ana lyse sta tis tique de ces don nées, arguant du fait qu’avec les outils ana ly tiques appro priés, ces don nées pour raient révé ler des logiques propres du conflit que les méthodes d’agrégation ne mettent pas en évidence.
Cette volonté d’analyser, de visua li ser, et de dis sé mi ner l’information, semble être la motiva tion qui a donné nais sance à cette nou velle géné ra tion d’outils dédiés à Wikileaks, et ceux-ci seront essen tiels pour abor der l’explosion d’information à venir, qui croit en ce moment à un rythme exponentiel.