Du bruit au signal (et inversement)

Aller au contenu | Aller au menu | Aller à la recherche

dimanche 10 février 2008

Un projet collaboratif d'indexation sociale: PhotosNormandie

PhotosNormandie est un projet collaboratif d'indexation sociale portant sur 2763 photos historiques de la Bataille de Normandie (6 juin à fin août 1944).
Le projet a pour but d'améliorer les légendes de ces photos en utilisant les possibilités d'annotations de la plate-forme Flickr.
Je m'en occupe avec Michel Le Querrec depuis plus d'un an et c'est un assez gros travail...

Toutes les photos sont proposées en haute définition et légendées selon le standard professionnel IPTC/IIM.
Les photos proviennent du site Archives Normandie 1939-1945 réalisé par le Conseil Régional de Basse-Normandie en 2004 pour le soixantième anniversaire du Débarquement.
Le projet est décrit plus en détail ici.
Les photos sont .

Tournez les pages de votre PDF

Après Scribd et consoeurs, voici Issuu qui non seulement widgétise votre PDF, mais y ajoute ce côté tourne livre si désuet mais qui plait tant et qui manquait à Scribd. Manque plus que le bruit de la feuille ;-).
.../...
Par Hubert Guillaud sur lafeuille
Vu aussi sur Bibliobsession et La mémoire de Silence

La Library of Congress sur Flickr - petite revue de blogs francophones

Le 16 janvier dernier, la Library of Congress a mis en ligne sur Flickr plus de 3000 photos.
Cette information a bien sûr fait le tour des blogs culturels anglophones.
L'information a également été commentée sur plusieurs sites ou blogs français. Comme je surveille ce sujet en ce moment, en voici une petite liste qui ne prétend pas être exhaustive:

  • 16 janvier - l'information est publiée sur le blog de Nicolas Morin.
  • 17 janvier - Ecrans, le site du journal Libération dédié aux ... écrans, a également été l'un des premiers à en parler dans un article factuel et assez complet. Rien n'y manque: la description des deux collections en ligne (photos d'actualités des années 1910 et photos en couleurs des années 1930-1940), la création d'une licence Flickr spécifique pour ce projet « Flickr Commons », et enfin l'appel aux visiteurs pour aider à améliorer les légendes et mots-clés associés aux photos.
  • 17 janvier - Le Fil d'Ariane, un blog tenu par une étudiante canadienne en bibliothéconomie, relaie l'information depuis divers blogs anglophones.
  • 17 janvier - AFP-Mediawatch, le blog New Media, New Journalism ? de l'AFP signale l'information très brièvement, sans analyse.
  • 18 janvier - Descripteurs, un site dédié aux thésaurus et autres vocabulaires contrôlés pour l'accès à l'information, décrit le projet dans le contexte de la "libération" des ressources (patrimoniales), des utilisateurs et de l'indexation.
  • 19 janvier - Le chercher nomade, blog canadien, mentionne l'information et suggère que la Bibliothèque et Archives nationales du Québec (BAnQ) pourrait faire de même avec une partie de ses importantes collections de photographies.
  • 20 janvier - le projet de la Library of Congress est analysé sur Affordance, le blog d'Olivier Ertzscheid, dont je cite l'analyse très pertinente: « Il faut aller chercher les usagers là où ils sont. Et si l'on peut être sûr d'une chose, c'est que les usagers ne sont pas sur les sites des bibliothèques. En tout cas certainement pas de prime abord, certainement pas de "prime accès". Mettre à disposition des fonds documentaires professionnellement construits et administrés, sur des services privés mais publiquement accessibles et massivement accédés, autoriser les publics, TOUS les publics, à indexer à leur tour ces fonds documentaires quelle que soit leur nature, laisser les publics se les approprier (l'un des objectifs du projet est de permettre aux usagers d'indexer, de tagguer ces images), c'est probablement le meilleur moyen de recréer le désir ... d'aller en bibliothèque. ». L'auteur cite également Nicolas Morin: « ce qu’on a de plus intéressant ce ne sont pas nécessairement des interfaces, mais des données; et il faut aller mettre nos données là où sont les usagers, en leur permettant de se les approprier. ». Billet relayé sur Actualités de la recherche en Histoire visuelle.
  • 20 janvier - analyse sur La mémoire de Silence.
  • à partir du 21 janvier, l'information est reprise succinctement par différents blogs comme Schizodoxe, Le Monde du blog, e-Moleskine qui écrit « La Bibliothèque du Congrès a été l’un de premier fournisseurs de contenus publics sur l’Internet, alors que pendant ce temps, en les sombres années 90, les Institutions publiques françaises - IGN, INA, INSEE, greffes des tribunaux de commerce, INPI, Universités, musées, etc. - arc-boutés sur leurs revenus Minitel pour une part et sur leur culte de la valorisation du silo d’information, tenaient réunions stratégiques et colloques sur la manière de “protéger leur patrimoine informationnel” ».
  • 22 janvier - description et reprises d'analyses sur le blog du Bulletin des Bibliothèques de France.
  • enfin, l'information a fait l'objet d'un article dans Télérama paru le 6 février sous le titre "En quête de légende", repris ici sur le site du magazine.

On constate donc que les réactions sont toutes positives, mais que peu de blogs analysent véritablement cette annonce; en particulier je n'ai pas lu de comparaison entre cette initiative tout de même innovante pour une bibliothèque majeure et la politique très peu "partage patrimonial" et encore moins "indexation sociale" de la Bnf qui commercialise ses photos à la fois sur son propre site et sur le portail d'agences PixPalace.

Les documents numériques ont une face cachée

L'application collaborative Lunarr enrichit les documents numériques d'une page "verso". Sur celle-ci seront affichées des annotations, des informations relatives à la vie du document et un service de courrier électronique.
.../...
par Julien François sur L'Atelier, site de veille technologique de BNP-Paribas
Commentaire: la métaphore du "verso" de document est jolie, mais à l'heure de la généralisation des métadonnées, des annotations et du travail collaboratif, s'agit-il vraiment d'un concept innovant ?

samedi 9 février 2008

Le comité des standards de l'IPTC vient d'approuver la version 2.0 de NewsML-G2

Pour en savoir plus sur ce nouveau standard riche et prometteur:

Comme pour NewsML version 1.0, les projets qui utiliseront NewsML-G2 dans la "real-life news production" (dixit Laurent Le Meur, chairman de NewsML) seront portés par les grandes agences de presse (Reuters, Hina, ANSA, AFP) et les diffuseurs (VRT), pas par les éditeurs de presse ou les "petits" fournisseurs de contenus spécialisés. On peut le regretter.

vendredi 8 février 2008

Systèmes éditoraux: être clair quand on parle de XML

Le billet précédent où je m'étonne que certains discours sur XML me paraissent parfois un peu confus dans le domaine des systèmes éditoriaux me conduit à mentionner deux articles maintenant un peu anciens (car tout évolue vite bien sûr):

  • l'étude XML et les formats de traitement de texte et de mise en page, au format PDF, que j'ai réalisé pour l'IFRA et dont la dernière révision date d'octobre 2006. Certaines descriptions de systèmes mentionnés ne correspondent plus aux dernières versions des fournisseurs (pardon Carlos et Michela de ressortir ce papier...), mais la typologie proposée des outils de mise en page et des traitements de textes au regard de leurs capacités XML me semble toujours actuelle.
  • l'étude XML and databases par Ronald Bourret, dont la dernière révision date de septembre 2005; j'avais traduit en français cet article en 2003. Cette étude essentielle, qu'il est préférable de lire en anglais (!), est assez difficile parfois, mais la lecture en vaut la peine car elle introduit des critères objectifs concernant les capacités XML des bases de données; l'expression "base de données XML native" prend tout son sens dans cet article, et pour être ainsi qualifiée, une base de données doit répondre à des caractéristiques bien précises. Je n'en citerai que deux ici, la notion de "collection de documents" et le "round-tripping":

« De nombreuses bases XML natives supportent la notion de collection. Ce concept joue un rôle similaire à la table dans une base de données relationnelle ou au répertoire dans un système de fichiers. Supposons par exemple que vous utilisiez une base XML native pour stocker des ordres de ventes. Dans ce cas, vous devriez définir une collection ordres de ventes de telle manière que les recherches sur des ordres de ventes soient limitées aux documents de cette collection.../...
Une caractéristique importante des bases XML natives est qu’elles permettent l’aller-retour des documents (Round-Tripping). Cela signifie que l’on peut stocker un document XML dans une base XML native et obtenir à nouveau le "même" document. Cette propriété est importante pour les applications orientées document pour lesquelles des choses comme les sections CDATA, l’utilisation des entités, les commentaires, et les instructions de traitement sont parties intégrantes du document. Elle est également cruciale pour de nombreuses applications légales et médicales qui doivent conserver légalement des copies exactes des documents.../... Toutes les bases XML natives permettent l’aller-retour des documents au niveau des éléments, des attributs, des PCDATAs et de l’ordre interne du document. Les possibilités supplémentaires en matière d’aller-retour dépendent de la base considérée. » (R. Bourret)

- page 19 de 20 -