Cyberdocs et le document structuré

J'ouvre aujourd'hui le blog de Cyberdocs, avec comme objectif de détailler ici les développements en cours, les tests et les évolutions de la plateforme Cyberdocs, mais également de remédier, au moins partiellement, au manque de communication sur le projet. En effet, les annonces se font rares et les listes de diffusion ne sont plus aussi actives qu'auparavant. Me concernant, c'est surtout par manque de temps - les trois dernières années ayant été aussi très riches en bouleversements.

Avant d'entrer dans le détail lors des prochains articles, je tiens à expliquer pourquoi le XML a été choisi comme format pivot et pourquoi utilisé un outil de conversion de fichiers comme Cyberdocs.

Cyberdocs offre une réponse à la problématique d'archivage et de diffusion de documents structurés, longs et complexes, dans des formats libres, ouverts et respectueux des standards d'Internet. Bien d'autres outils existent aujourd'hui pour réaliser cela, mais il faut bien prendre en compte les éléments suivants, pour bien comprendre ce que nous cherchons à traiter ici :

Ce que nous avons :

  • Des documents sources dans des formats hétérogènes : DOC (Word 97, 2000, XP, 2003), DOCX (Word 2007), SXW (OO1), ODT (OO2, OO3), LaTeX, demain autre chose...
  • Des documents souvent en plusieurs morceaux (record à 50 morceaux !).
  • Des documents statiques - qui n'évoluent pas dans le temps.
  • Des métadonnées plus ou moins complètes sur le document.
  • Des documents mis en page pour une impression papier et non pour la diffusion en ligne (bien que cela a tendance à s'améliorer).
  • Des documents souvent partiellement structurés, parfois pas du tout (table des matières à la main)
  • Des objets incorporés dans des formats hétérogènes et issus de logiciels et de systèmes en tout genre : graphiques, dessins, photos, vidéo, son

Ce que nous souhaitons :

  • Des documents indexables dans un moteur de recherche permettant des recherches approfondies et intelligentes (proximité, lemmatisation...) dans une base de documents ou dans un seul document : par type de partie, niveau de titre, éléments (notes de bas de pages, légendes, citations etc.) cumulé à une sélection selon les métadonnées (catégories, mots clef, disciplines, auteurs, date etc.).
  • Des documents consultables, en navigant par table : des matières, des illustrations, des tableaux, des notes de bas de pages, des résultats d'une recherche, etc. et pourquoi pas en comparant des documents, calculer des statistiques...
  • Des documents consultables selon les choix de l'utilisateur et les possibilités techniques (taille de l'écran, couleurs ou n&b, connexion rapide ou lente, etc.)
  • Des documents archivés dans des formats ouverts et libres, facilement manipulables (sans application particulière) et conservant avant tout la structure du document pour s'adapter aux formats futurs et aux nouveaux besoins.
  • Des documents illustrés et animés, accessibles avec des outils libres et ouverts.

On pourrait penser que la solution de facilité serait de faire du PDF, format portable, norme ISO etc.. Je ne rentrerai pas dans le débat du meilleur format de diffusion - car cette question n'a de sens que dans un contexte donné, qui est différent pour chaque type d'utilisation et évolutif dans le temps - et je ne dirai pas non plus que le PDF est un mauvais format car cela est totalement faux. Simplement, le PDF ne répond pas à notre problématique :

  • Archivage : le PDF n'a pas été créé pour l'archivage car c'est avant tout un langage de description de pages d'impression (papier). De plus, bien qu'étant un format ouvert, le PDF n'est pas libre et les versions successives rendent les traitements futurs incertains - le résultat peut être déjà différent d'une librairie à l'autre !
  • Formats respectueux des standards d'Internet : un fichier binaire et monolithique pour diffuser sur Internet un document complexe, ne rentre pas dans cette catégorie (scalabilité).
  • Document structuré : le PDF peut contenir une table des matières complète, mais il s'agit avant tout de liens pour naviguer dans le document. Le contenu n'est pas vraiment structuré, mais surtout mis en page. La transformation vers un autre format devient alors très difficile et l'indexation dans un moteur de recherche peu intéressante.
  • Diffusion et accessibilité : la notion de "page" est amenée à disparaitre car la lecture sur un écran est très dépendante de la taille de l'écran. Nous ne savons pas à quoi ressembleront les appareils de lecture de demain ! Pourquoi figer la mise en page ? Mieux vaut adapter le rendu et le format de diffusion en fonction de l'utilisation, en convertissant régulièrement depuis un format pivot indépendant de l'affichage. De plus, la mise en forme est volontairement figée (c'est même l'objectif du format PDF) alors qu'il peut être utile et même nécessaire de la faire évoluer selon l'utilisation et le besoin de l'utilisateur (surligner des passages recherchés globalement, évolution des polices, des couleurs, charte graphique commune et évolutive pour tous les documents, etc.). Sans compter, que pour afficher directement la dernière page d'un fichier PDF de 357Mo sur un appareil portatif, et bien bon courage, car tout le contenu doit être téléchargé ! Laughing

Inversement, le XML permet tout cela : archivage parfait pour des contenus statiques, structuration du contenu, indépendance du support et des applications, conversion aisée vers d'autres formats (même le PDF !), indexation efficace et intelligente par un moteur de recherche.

Ce point de vu est bien sûr discutable, car il s'agit surtout de la perception d'un document : il n'est plus uniquement une suite de caractères inscrits sur une suite de pages statiques, mais un texte structuré, indépendant du support et amené à être conservé et diffusé dans le temps.

Voilà pourquoi il est nécessaire de former le plus possible à la structuration des documents numériques, dans des formats libres et ouverts, indépendamment du support (pages, volumes etc.) pour que les écrits puissent évolués avec les techniques de diffusion et être retrouvés facilement pour une accessibilité aux plus grands nombres. Il en va également de la pertinence des recherches et donc du contenu : car malheureusement sur Internet, un document qui n'est trouvé par une recherche, n'existe pas pour l'utilisateur...