Du bruit au signal (et inversement)

Aller au contenu | Aller au menu | Aller à la recherche

dimanche 23 mars 2008

Comparaison de moteurs de recherche open source

Je profite du billet de Nicolas Morin à propos du moteur Terrier de l'Université de Glasgow pour signaler l’intéressante étude A Comparison of Open Source Search Engines (format PDF) de Christian Middleton et Ricardo Baeza-Yates.

Après avoir envisagé que leur étude puisse porter sur 29 moteurs open source, les auteurs en ont éliminés plusieurs parce qu'ils étaient visiblement non suivis; ils n'ont pas retenu non plus Nutch basé sur Lucene, ni Datapark, mnoGoSearch, Namazu, OpenFTS, et Glimpse dont les temps d'indexation étaient 3 à 6 fois supérieurs aux autres.

Les moteurs effectivement analysés sont donc: ht://Dig, Indri, IXE, Lucene, MG4J, IBM OmniFind Yahoo! Edition, Omega, SWISH-E, SWISH++, Terrier, XMLSearch, Zettair.

  • les meilleurs temps d'indexation sont réalisés par: ht://Dig, Indri, IXE, Lucene, MG4J, Swish-E, Swish++, Terrier, XMLSearch, Zettair.
  • taille des index, trois groupes peuvent être distingués:
    • IXE, Lucene, MG4J, Swish-E, Swish++, XMLSearch, Zettair: taille d'index égale 25% à 35% celle de la collection
    • Terrier: 50% à 55% de la taille de la collection
    • ht://Dig, Omega, OmniFind: supérieure à 100% à 55% de la taille de la collection
  • utilisation de la mémoire RAM:
    • usage constant: ht://Dig, Lucene, XMLSearch
    • usage croît linéairement avec la taille de la collection: IXE, MG4J, Swish-E, Swish++, Terrier
  • meilleurs temps de réponse: Indri, IXE, Lucene, XMLSearch.
  • tests sur une collection de 10 GB divisée en sous-collections:
    • Indri, IXE, MG4J, Terrier, Zettair seuls capables d'indexer correctement la collection.
    • meilleure performance d'indexation: Zettair
Conclusion de l'étude:
"There are some considerations to make, based on the programming language (e.g. to be able to modify the sources) and/or the characteristics of the server (e.g. RAM memory available). For example, if the size of the collection to index is very large and it tends to change (i.e.   needs to be indexed frequently), maybe it can be wise to focus the attention on Zettair, MG4J or Swish++, since they are fast in the indexing and searching stages. Swish-E will also be a good alternative. On the other hand, if one of the constraints is the amount of disk space, then Lucene would be a good alternative, since it uses few space and has low retrieval time. The drawback is the time it takes to index the collection. Finally, if the collection does not change frequently, and since all the search engines had similar searching times, you can make a decision based on the programming language used by the other applications in the website, so the customization time is minimized.  For Java you can choose MG4J, Terrier or Lucene, and for C/C++ you can choose Swish-E, Swish++, ht://Dig, XMLSearch, or Zettair."

samedi 22 mars 2008

Littérature et Google Maps

Penguin Books lance un nouveau site WeTellStories qui promet Six nouvelles, six auteurs, six semaines.
Le texte de la première nouvelle publiée, The 21 Steps par Charles Cumming, est littéralement mis en scène sur des cartes. Le lecteur suit le protagoniste de l'histoire sur une carte de Londres.
(d'après Google Lat Long Blog)


ajout le 22/03 à 21:00:
Lire l'interview d'Adrian Horn par Virginie Clayssen sur teXtes.
Adrian Horn est le créateur de la société Six to Start qui a réalisé cette application.

vendredi 21 mars 2008

Une API pour Google Translate

Google annonce la disponibilité d'une API Ajax pour Google Translate
On va se régaler...

ajout le 23/03 à 11:00:
Lire aussi Google AJAX Language API first impressions par Kevin Pirkl (Intel).
Pour ma part, je regrette que cette API soit proposée uniquement pour JavaScript et qu'elle ne soit pas disponible sous forme de Web Service.

jeudi 20 mars 2008

Des nouvelles de la Library of Congress sur Flickr

Le 16 janvier dernier, la Library of Congress a mis en ligne sur Flickr plus de 3000 photos. J'ai décrit dans un précédent billet la réception de cette information sur différents blogs francophones.

Un ancien employé de la LoC a découvert que celle-ci vient d'ajouter des photos sur son compte Flickr. La mise à jour est modeste: 50 nouvelles photos datant du début des années 1900. Sur le blog de la LoC, Matt Raymond a confirmé cette nouvelle et précisé qu'il y aura régulièrement d'autres téléchargements par lots de 50 nouvelles photos.

Le billet indique aussi que 68 notices bibliographiques ont été mises à jour grâce aux informations fournies dans les annotations de photos sur Flickr. Pour s'en rendre compte, il suffit de taper "Flickr" dans le Prints and Photographs Online Catalog (PPOC); il rappelle également que la version haute définition des images est disponible à partir du catalogue PPOC (attention: les hautes définitions au format TIFF sont dodues...).

Géolocalisation des images numériques fixes - présentation disponible

La présentation sur la Géolocalisation des images numériques fixes que j'ai réalisée hier lors de la table-ronde CampusXML est disponible:

Nouvelle version de l'éditeur XML Syntext Serna

Syntext Serna est un éditeur XML destiné aux auteurs de contenus. Il permet de travailler en mode WYSIWYG sur des documents XML volumineux.
La gestion de l'affichage est assurée en XSL-FO par des transformations XSL. Il gère nativement les formats DocBook, TEI, DITA, NITF, CALS. La validation est assurée par Schémas XML.
Syntext annonce la disponibilité de la version 3.6; les améliorations concernent essentiellement le support de DITA.
<mode_onan>L'interface utilisateur de Serna est multilingue; j'ai réalisé la traduction française.</mode_onan>

lundi 17 mars 2008

Lire un magazine avec l'interface de Google Maps

Zkimmer est un nouveau concept d'interface de consultation d'un magazine.
Il utilise l'API Google Maps en remplaçant les cartes habituelles par les pages du magazine.

Si vous connaissez Google Maps, vous ne serez pas dépaysé.
Consultez le numéro 4 (août-septembre 2007) du magazine Space.

(d'après le blog Google Maps mania)

vendredi 14 mars 2008

Des mashups Google Maps au MoMA

L'exposition en ligne Design and the Elastic Mind du MoMA (Museum of Modern Art) de New York présente 14 mashups Google Maps.
(ici puis cliquer sur la flèche en bas pour afficher les suivants)
D'autres représentations graphiques à découvrir dans cette exposition en ligne dont l'interface Flash vaut le détour, en particulier dans les colonnes Visualization et Thought to Action.

Dans la série des graphes, signalons aussi Vers le graphe social du livre vu chez La feuille et Tous les statuts des entêtes HTTP en un seul schéma chez Webilus.

jeudi 13 mars 2008

Formats de fichiers, argument "à la Bush", et principe du tiers exclu

Le tout dans un billet de Rick Jelliffe à propos de la guerre des formats ODF et OOXML:
The anti-OOXML mob need to lift their game

à lire également sur Neteco un article de Julien Jay:
OpenXML: la longue route vers la certification ISO

ajouté le 14 mars: OpenXML : la machine à polémiquer par Raynald Fléchaux sur LeMagIT

<mode_onan>
J'en profite pour signaler l'étude XML et les formats de traitement de texte et de mise en page, au format PDF, que j'ai réalisé pour l'IFRA et dont la dernière révision date d'octobre 2006; ça commence à dater, je sais, mais la typologie proposée des outils de mise en page et des traitements de textes au regard de leurs capacités XML me semble toujours actuelle.
</mode_onan>

mercredi 12 mars 2008

Compfight, un outil de recherche sur Flickr

Compfight est un outil de recherche d'images sur Flickr développé en Ruby on Rails. Il présente le résultat de la recherche par planches de 200 vignettes, tout comme Flickrleech, un autre outil de recherche sur Flickr actuellement plus avancé puisqu'il permet de rechercher selon différents critères (Interestingness, Username, User ID, Favorites, Photoset, Group Pool). Un bon point cependant pour Compfight qui permet de limiter la recherche aux photos sous licence Creative Commons et propose une option permettant d'afficher la résolution originale à l'aide du trait bleu sous la vignette; par contre, l'option Safe Search active par défaut m'énerve...
Compfight et Flickrleech s'appuient tous deux sur l'API de Flickr et s'adressent explicitement aux directeurs artistiques ou autres chercheurs d'images qui n'apprécient pas la présentation des résultats de recherche dans Flickr (because paging sucks annonce Flickrleech).

Lire aussi le billet d'Eric Dupin sur Presse-Citron

A noter également le billet Flickr ideation tool qui recense divers outils pour Flickr.
Le plus intéressant me semble retrievr, un moteur de recherche graphique développé en Python qui permet de rechercher des images similaires à un croquis grossièrement tracé. Les résultats sont parfois surprenants... Il est également possible de télécharger une image qui sera prise comme modèle. La base d'images recherchées n'est hélas pas tout Flickr mais un sous-ensemble des photos "les plus intéressantes".

- page 2 de 6 -