Du bruit au signal (et inversement)

Aller au contenu | Aller au menu | Aller à la recherche

mardi 25 mars 2008

L'actualité géolocalisée

À l'occasion du lancement de Metacarta GeoSearch News (voir ci-dessous), voici une petite liste de sites proposant des informations d'actualités géolocalisées, c'est-à-dire figurées sur une carte ou une mappemonde:
  • Metacarta GeoSearch News
    • affichage: cartes Google Maps
    • source des informations: agrégation de fils d'actualités
    • mise à jour chaque heure, les informations sont catégorisées, possibilité de recherche par localisation
  • Yahoo! NewsGlobe
    • affichage: mappemonde en animation Flash
    • source des informations: nouvelles principales (top stories) de Yahoo! News sur un globe, donc peu de nouvelles sont proposées
    • possibilité de visualisation en mode automatique ou en mode interactif
  • Global Incident Map
    • affichage: cartes Google Maps
    • source des informations: compilation de sources ouvertes par Terroristwarning.com et Transitsecurityreport.com; recensement des actes terroristes et problèmes d'insécurité dans le monde
    • mise à jour toutes les 5 minutes
    • possibilité de filtre par types d'incident, par pays, villes, dates
  • EMM NewsBrief et EMM NewsExplorer
    • affichage: Google Earth dans NewsBrief (cliquer sur le bouton Map en haut) et Flash dans NewsExplorer
    • source des informations: Europe Media Monitor qui recueille, rassemble et analyse des articles de sites de journaux en ligne du monde entier; projet du JRC (Joint Research Centre) de la Commission Européenne
  • Newsmap
    • affichage: SVG, attention, le plugin SVG est nécessaire
    • source des informations: Reuters (quelques dépêches)
    • "Newsmap est une représentation instantanée de l'état du monde fondée sur le géo-référencement des dépêches d'agences de presse. Plus un pays est cité dans le flux d'une agence, plus sa mise en évidence est importante." (réalisation: Sysin)
Voir aussi: Mapperz, Outils Froids,
À suivre également le projet MapNews de Marty Kupe (affichage MapQuest, source des informations: AOL).
Si vous connaissez d'autres réalisations ou projets, je suis intéressé...

Quand peut-on dire que deux algorithmes sont identiques ?

When Are Two Algorithms The Same? par Andreas Blass, Nachum Dershowitz, et Yuri Gurevich.

« On considère généralement que les algorithmes sont plus abstraits que les programmes qui les implémentent. La manière naturelle de formaliser cette idée est de considérer que les algorithmes constituent des classes d'équivalence de programmes selon une certaine relation d'équivalence appropriée. Nous soutenons dans cet article qu'il n'existe pas de telle relation d'équivalence.  »

"Capturer" la notion intuitive d'algorithme (de façon analogue à la thèse de Church-Turing qui tente de "capturer" la notion intuitive de calculabilité) signifie être capable de proposer une définition de la relation d'équivalence qui relie deux algorithmes identiques (et pas seulement deux algorithmes qui calculent la même fonction). L'objet de l'article est de mettre en avant plusieurs difficultés concernant cette tentative et de donner des exemples qui indiquent que la notion intuitive n'est pas suffisamment bien définie pour permettre de définir une relation d'équivalence précise.
L'argument principal est que l'équivalence entre algorithmes est une notion subjective.
L'article aborde aussi des problèmes analogues comme la question de reconnaître quand deux preuves sont identiques ou deux idées sont identiques.

Lire aussi les billets sur God Plays Dice et Lambda the Ultimate.

dimanche 23 mars 2008

Comparaison de moteurs de recherche open source

Je profite du billet de Nicolas Morin à propos du moteur Terrier de l'Université de Glasgow pour signaler l’intéressante étude A Comparison of Open Source Search Engines (format PDF) de Christian Middleton et Ricardo Baeza-Yates.

Après avoir envisagé que leur étude puisse porter sur 29 moteurs open source, les auteurs en ont éliminés plusieurs parce qu'ils étaient visiblement non suivis; ils n'ont pas retenu non plus Nutch basé sur Lucene, ni Datapark, mnoGoSearch, Namazu, OpenFTS, et Glimpse dont les temps d'indexation étaient 3 à 6 fois supérieurs aux autres.

Les moteurs effectivement analysés sont donc: ht://Dig, Indri, IXE, Lucene, MG4J, IBM OmniFind Yahoo! Edition, Omega, SWISH-E, SWISH++, Terrier, XMLSearch, Zettair.

  • les meilleurs temps d'indexation sont réalisés par: ht://Dig, Indri, IXE, Lucene, MG4J, Swish-E, Swish++, Terrier, XMLSearch, Zettair.
  • taille des index, trois groupes peuvent être distingués:
    • IXE, Lucene, MG4J, Swish-E, Swish++, XMLSearch, Zettair: taille d'index égale 25% à 35% celle de la collection
    • Terrier: 50% à 55% de la taille de la collection
    • ht://Dig, Omega, OmniFind: supérieure à 100% à 55% de la taille de la collection
  • utilisation de la mémoire RAM:
    • usage constant: ht://Dig, Lucene, XMLSearch
    • usage croît linéairement avec la taille de la collection: IXE, MG4J, Swish-E, Swish++, Terrier
  • meilleurs temps de réponse: Indri, IXE, Lucene, XMLSearch.
  • tests sur une collection de 10 GB divisée en sous-collections:
    • Indri, IXE, MG4J, Terrier, Zettair seuls capables d'indexer correctement la collection.
    • meilleure performance d'indexation: Zettair
Conclusion de l'étude:
"There are some considerations to make, based on the programming language (e.g. to be able to modify the sources) and/or the characteristics of the server (e.g. RAM memory available). For example, if the size of the collection to index is very large and it tends to change (i.e.   needs to be indexed frequently), maybe it can be wise to focus the attention on Zettair, MG4J or Swish++, since they are fast in the indexing and searching stages. Swish-E will also be a good alternative. On the other hand, if one of the constraints is the amount of disk space, then Lucene would be a good alternative, since it uses few space and has low retrieval time. The drawback is the time it takes to index the collection. Finally, if the collection does not change frequently, and since all the search engines had similar searching times, you can make a decision based on the programming language used by the other applications in the website, so the customization time is minimized.  For Java you can choose MG4J, Terrier or Lucene, and for C/C++ you can choose Swish-E, Swish++, ht://Dig, XMLSearch, or Zettair."

samedi 22 mars 2008

Littérature et Google Maps

Penguin Books lance un nouveau site WeTellStories qui promet Six nouvelles, six auteurs, six semaines.
Le texte de la première nouvelle publiée, The 21 Steps par Charles Cumming, est littéralement mis en scène sur des cartes. Le lecteur suit le protagoniste de l'histoire sur une carte de Londres.
(d'après Google Lat Long Blog)


ajout le 22/03 à 21:00:
Lire l'interview d'Adrian Horn par Virginie Clayssen sur teXtes.
Adrian Horn est le créateur de la société Six to Start qui a réalisé cette application.

vendredi 21 mars 2008

Une API pour Google Translate

Google annonce la disponibilité d'une API Ajax pour Google Translate
On va se régaler...

ajout le 23/03 à 11:00:
Lire aussi Google AJAX Language API first impressions par Kevin Pirkl (Intel).
Pour ma part, je regrette que cette API soit proposée uniquement pour JavaScript et qu'elle ne soit pas disponible sous forme de Web Service.

jeudi 20 mars 2008

Des nouvelles de la Library of Congress sur Flickr

Le 16 janvier dernier, la Library of Congress a mis en ligne sur Flickr plus de 3000 photos. J'ai décrit dans un précédent billet la réception de cette information sur différents blogs francophones.

Un ancien employé de la LoC a découvert que celle-ci vient d'ajouter des photos sur son compte Flickr. La mise à jour est modeste: 50 nouvelles photos datant du début des années 1900. Sur le blog de la LoC, Matt Raymond a confirmé cette nouvelle et précisé qu'il y aura régulièrement d'autres téléchargements par lots de 50 nouvelles photos.

Le billet indique aussi que 68 notices bibliographiques ont été mises à jour grâce aux informations fournies dans les annotations de photos sur Flickr. Pour s'en rendre compte, il suffit de taper "Flickr" dans le Prints and Photographs Online Catalog (PPOC); il rappelle également que la version haute définition des images est disponible à partir du catalogue PPOC (attention: les hautes définitions au format TIFF sont dodues...).

- page 13 de 20 -