Du bruit au signal (et inversement)

Aller au contenu | Aller au menu | Aller à la recherche

mardi 30 juin 2009

Sur la légitimité des contenus générés par les utilisateurs

[Première version le 30 juin 2009, dernière modification le 2 juillet 2009]

Le Web 2.0 est contributif. Les contenus générés par les utilisateurs constituent l'une de ses caractéristiques fondamentales. Dès leur apparition, on s'est interrogé sur la légitimité et la validité de ces contenus issus du crowdsourcing ainsi que sur l'absence d'autorités de référence lors de leur production. Ces interrogations qui prennent souvent la forme de critiques sont bien connues dans le cas des entreprises emblématiques comme Wikipedia - comparé aux encyclopédies classiques - ou encore pour le journalisme citoyen tel qu'il s'exprime notamment à travers les blogs politiques et d'actualités ou les services de micro-blogging comme Twitter. Ces questions méritent également d'être abordées en ce qui concerne des projets collaboratifs d'envergure et d'audience bien moindres mais dont les méthodes et les enjeux sont d'une toute autre nature. Ce billet décrit en détail le processus de validation qui s'est naturellement mis en place dans le cadre du projet PhotosNormandie et examine en conséquence la question de la légitimité des contenus générés par les utilisateurs dans ce travail.

Lire la suite...

samedi 27 juin 2009

Les limites du crowdsourcing [signalement]

Larry Cebula, professeur d'histoire à l'Eastern Washington University, vient de publier un intéressant billet sur son blog :

"Lick This": LOC, Flickr, and the Limits of Crowd Sourcing

Il constate qu'une grande partie des contenus générés par les utilisateurs (notes, commentaires, tags, envois dans un groupe) sur une photographie proposée par la Library of Congress dans le cadre du projet The Commons sont sans intérêt. La plupart des notes par exemple sont anodines ou constituent des plaisanteries ; aucune n'apporte d'information historique. Le "bruit" est également très présent dans les commentaires et les tags ajoutés. Au final, Larry regrette que les rares informations valables générées par les utilisateurs soient noyées dans une masse de textes inintéressants et que l'extraction de ces pépites demande beaucoup de temps.

Dans la discussion à propos de ce billet, j'ai suggéré que ce phénomène est probablement lié à la popularité de la Library of Congress ; sur notre projet PhotosNormandie en tout cas, nous n'observons pas du tout ce genre de comportement de la part des utilisateurs et presque tous les commentaires proposés présentent un intérêt direct ou indirect avec les photos commentées.

Le billet est relayé sur le groupe Flickr Commons où la discussion qu'il provoque est très intéressante.

vendredi 12 juin 2009

7ème colloque du chapitre français de l’ISKO - Intelligence collective et organisation des connaissances

L’ISKO (International Society for Knowledge Organization) est une société savante internationale créée en 1989, à but non lucratif, destinée à favoriser la recherche et les échanges entre les chercheurs et les spécialistes du domaine de l'organisation des connaissances.
L'ISKO réunit environ 600 spécialistes de 54 pays qui travaillent sur les problèmes de l’organisation de l’information selon des approches complémentaires issues en particulier des sciences de l'information, de la linguistique, de l'informatique et des sciences cognitives.

Le 7ème colloque du chapitre français de l’ISKO, intitulé Intelligence collective et organisation des connaissances, se tiendra à Lyon les 24, 25 et 26 juin 2009. Il est organisé par l’Université Jean Moulin Lyon 3 et l'ENSSIB.
Le programme complet est disponible ici.

J'interviendrai le jeudi 25 juin après-midi sur la redocumentarisation iconographie dans l'Atelier 3 Image, travail collaboratif et réseaux sociaux animé par Gérard Régimbeau et Christophe Catanese.

mardi 26 mai 2009

Traiter (des photos) pour trouver [signalement]

Dans son blog Descripteurs, Sylvie Dalbin revient sur mon billet récent concernant l'indexation des photos en mettant l'accent sur "les difficultés à articuler méthodes et outillages techno-documentaires "manuels" et automatiques".

À lire ici.

samedi 9 mai 2009

Un million de visites sur PhotosNormandie

La galerie PhotosNormandie sur Flickr a été vue à ce jour un million de fois, ce qui correspond à plus de 1200 visites quotidiennes depuis le démarrage du projet le 29 janvier 2007.
Les 2763 photos de ce corpus en cours de redocumentarisation ont été vues plus de 2 600 000 fois.
Nous avons complété et corrigé au total 4486 descriptions. Ce nombre plus élevé que celui des photos s'explique parce que certaines légendes ont été corrigées plusieurs fois.

Un grand merci à Michel Le Querrec, co-responsable du projet, à tous les contributeurs passionnés et inlassables qui ont assuré son succès, aux amis et visiteurs qui nous ont manifesté leur intérêt tout au long de cette entreprise qui se poursuit toujours.
À paraître
  • Une interview pour le livre
    A Different Kind of Web: New Connections Between Archives and Our Users with Web 2.0, Edited by Kate Theimer, the Society of American Archivists
    Il s'agit d'un ensemble d'essais qui explorent la manière dont le Web 2.0 modifie les relations des services d'archives avec leurs utilisateurs. L'ouvrage comportera différentes études de cas sur les expériences menées par The Library of Congress, The National Archives (UK), The New York State Historical Association, plusieurs universités américaines, et ... PhotosNormandie.
Pour en savoir plus
PS : j'en profite pour signaler un beta test en cours sur Fotonauts et une nouvelle version du billet Variations sur un symbole américain

mardi 28 avril 2009

Quelques remarques sur l'indexation des photos

Les agences photos utilisent des techniques diverses pour permettre la recherche de leurs images. Quelques-unes se servent de thésaurus ou de vocabulaires contrôlés pour l'indexation, certaines possèdent des plans de classement hiérarchisés, d'autres encore qualifient les mots-clés avec des "types" ou mettent en œuvre des classements à facettes, la plupart, enfin, n'utilisent pas de techniques documentaires particulières. Au final, en sortie de ce processus de description et de classement, elles utilisent pratiquement toutes depuis de nombreuses années le standard IPTC/IIM dans leurs flux d'images légendées. Mais l'adoption de ce standard conduit parfois à des résultats surprenants lors de l'encapsulation des informations dans l'image. Une indexation efficace en interne, sur le système utilisé par l'agence, semble ensuite d'une qualité documentaire médiocre quand on observe la photo légendée en IPTC. Notre propos ici est d'analyser une partie des informations contenues dans les images diffusées par les agences professionnelles (les mots-clés en l'occurrence) sans référence aux techniques spécifiques que celles-ci utilisent en amont pour produire ces informations. Il s'agit d'examiner les métadonnées des images indépendamment des opérations documentaires et informatiques qui les génèrent. C'est en effet ce résultat d'un processus souvent complexe qui est utilisé dans la diffusion des images sur les portails et les offres packagées. La recherche sur ces flux d'images de plus en plus utilisés s'effectue alors sur des métadonnées que l'on peut considérer bien souvent comme une présentation simplifiée, voire édulcorée dans certains cas, du travail d'indexation effectué en agence. Ces outils importent en effet les données IPTC et - contrairement aux bases documentaires des agences - effectuent une recherche full text sur la plupart ou sur la totalité des données en question. Les informations qui apparaissent alors ne sont plus liées aux outils documentaires, elles ne bénéficient donc plus des dictionnaires de synonymes, des plans de classement et autres thésaurus. L'utilisation de métadonnées déconnectées des outils qui ont servi à les générer pose un certain nombre de questions que nous examinons ici.

Lire la suite...

- page 2 de 4 -