Du bruit au signal (et inversement)

Aller au contenu | Aller au menu | Aller à la recherche

Tag - traitement de texte

Fil des billets - Fil des commentaires

mercredi 21 janvier 2009

XML sur le poste auteur selon Quark

J'ai écrit en octobre 2006 une étude sur les capacités XML de divers formats de traitement de texte et de mise en page (*). Cet article destiné à une organisation de recherche sur les technologies de la presse (l'IFRA) mentionnait non seulement des outils habituels dans ce milieu, comme Word, OpenOffice, XPress et InDesign, des systèmes éditoriaux spécialisés, mais également des logiciels XML généralistes tels que XMetal Author, Syntext Serna, XXE ou PTC Arbortext. Ces derniers outils permettent une saisie XML directe sur le poste auteur mais demeurent largement méconnus dans la presse, et je me souviens de quelques commentaires étonnés concernant leur évocation dans le contexte de l'étude. Je concluais l'article en estimant que l’exploitation avancée de XML dans l'édition technique et, singulièrement, la montée en puissance de DITA devraient davantage inspirer les acteurs de la presse et plus généralement des médias. Avec le rachat de la société In.vision Research Corporation par Quark en juillet 2008, le rapprochement que j'évoquais alors entre ces différents secteurs devient effectif et les entreprises des médias s'intéressent désormais aussi aux architectures documentaires modulaires.

Lire la suite...

jeudi 20 mars 2008

Nouvelle version de l'éditeur XML Syntext Serna

Syntext Serna est un éditeur XML destiné aux auteurs de contenus. Il permet de travailler en mode WYSIWYG sur des documents XML volumineux.
La gestion de l'affichage est assurée en XSL-FO par des transformations XSL. Il gère nativement les formats DocBook, TEI, DITA, NITF, CALS. La validation est assurée par Schémas XML.
Syntext annonce la disponibilité de la version 3.6; les améliorations concernent essentiellement le support de DITA.
<mode_onan>L'interface utilisateur de Serna est multilingue; j'ai réalisé la traduction française.</mode_onan>

jeudi 13 mars 2008

Formats de fichiers, argument "à la Bush", et principe du tiers exclu

Le tout dans un billet de Rick Jelliffe à propos de la guerre des formats ODF et OOXML:
The anti-OOXML mob need to lift their game

à lire également sur Neteco un article de Julien Jay:
OpenXML: la longue route vers la certification ISO

ajouté le 14 mars: OpenXML : la machine à polémiquer par Raynald Fléchaux sur LeMagIT

<mode_onan>
J'en profite pour signaler l'étude XML et les formats de traitement de texte et de mise en page, au format PDF, que j'ai réalisé pour l'IFRA et dont la dernière révision date d'octobre 2006; ça commence à dater, je sais, mais la typologie proposée des outils de mise en page et des traitements de textes au regard de leurs capacités XML me semble toujours actuelle.
</mode_onan>

vendredi 8 février 2008

Systèmes éditoraux: être clair quand on parle de XML

Le billet précédent où je m'étonne que certains discours sur XML me paraissent parfois un peu confus dans le domaine des systèmes éditoriaux me conduit à mentionner deux articles maintenant un peu anciens (car tout évolue vite bien sûr):

  • l'étude XML et les formats de traitement de texte et de mise en page, au format PDF, que j'ai réalisé pour l'IFRA et dont la dernière révision date d'octobre 2006. Certaines descriptions de systèmes mentionnés ne correspondent plus aux dernières versions des fournisseurs (pardon Carlos et Michela de ressortir ce papier...), mais la typologie proposée des outils de mise en page et des traitements de textes au regard de leurs capacités XML me semble toujours actuelle.
  • l'étude XML and databases par Ronald Bourret, dont la dernière révision date de septembre 2005; j'avais traduit en français cet article en 2003. Cette étude essentielle, qu'il est préférable de lire en anglais (!), est assez difficile parfois, mais la lecture en vaut la peine car elle introduit des critères objectifs concernant les capacités XML des bases de données; l'expression "base de données XML native" prend tout son sens dans cet article, et pour être ainsi qualifiée, une base de données doit répondre à des caractéristiques bien précises. Je n'en citerai que deux ici, la notion de "collection de documents" et le "round-tripping":

« De nombreuses bases XML natives supportent la notion de collection. Ce concept joue un rôle similaire à la table dans une base de données relationnelle ou au répertoire dans un système de fichiers. Supposons par exemple que vous utilisiez une base XML native pour stocker des ordres de ventes. Dans ce cas, vous devriez définir une collection ordres de ventes de telle manière que les recherches sur des ordres de ventes soient limitées aux documents de cette collection.../...
Une caractéristique importante des bases XML natives est qu’elles permettent l’aller-retour des documents (Round-Tripping). Cela signifie que l’on peut stocker un document XML dans une base XML native et obtenir à nouveau le "même" document. Cette propriété est importante pour les applications orientées document pour lesquelles des choses comme les sections CDATA, l’utilisation des entités, les commentaires, et les instructions de traitement sont parties intégrantes du document. Elle est également cruciale pour de nombreuses applications légales et médicales qui doivent conserver légalement des copies exactes des documents.../... Toutes les bases XML natives permettent l’aller-retour des documents au niveau des éléments, des attributs, des PCDATAs et de l’ordre interne du document. Les possibilités supplémentaires en matière d’aller-retour dépendent de la base considérée. » (R. Bourret)