Le codage d'ouvrages littéraires sous forme électronique a été abordé
par un certain nombre de groupes de travail: en SGML avec la TEI, le
W3C avec HTML, XML et XHTML, et le Open eBook Initiative
pour
les livres élétroniques et le matériel associé...
Tous ces groupes ont un but commun: fournir des recommandations PUBLIQUES pour l'encodage de documents électroniques afin de libérer l'éditeur de la spécification et de la maintenance de son propre format. Et par conséquent, libérer l'utilisateur des spécificités d'un produit lié au format interne utilisé par celui-ci. Un format commun permettant une plus grande portabilité des ouvrages, à travers les différents matériaux mais également à travers le temps.
Tous travaillent maintenant dans une direction commune: une codification basée sur XML avec plus ou moins de restrictions pour arriver à une structure uniforme de représentation des ouvrages, et une utilisation par les outils standards sur le Web.
Text Encoding Initiative
La TEI, initiée dès 1987, s'est intéressée à l'encodage de textes électroniques pour les chercheurs. à ses débuts, le format retenu était SGML, pour sa flexibilité, sa possibilité d'extention et son usage dans le monde des professionnels de l'édition. Ses objectifs initiaux étaient:
- être suffisamment précise pour représenter les propriétés des textes
utilisés par les chercheurs
- être simple, claire et précise
- être utilisable sans nécessiter l'utilisation de logiciels spécifiques
- être modifiable par l'utilisateur
- respecter les normes en vigueur ou sur le point d'être adoptées
Depuis l'arrivée de XML, la TEI se prépare à une migration de SGML vers XML. Cette migration devrait se faire sans trop de peine puisque SGML et XML sont très proches l'un de l'autre pour la plupart des applications SGML. Des feuilles de styles XSL sont d'ailleurs d'ores et déjà disponibles.
Exemple de document codé en TEI (issu du site de la TEI):
<TEI.2>
<teiHeader>
[Source and processing information gs here]
</teiHeader>
<text id=AusEmma>
<front>
[preface, etc gs here]
</front>
<body>
[main body of the text gs here]
</body>
<back>
[appendices, etc gs here]
</back>
</text>
</TEI.2>
Le W3C avec la norme HTML4, XML et XHTML, apporte une codification des textes pour des supports autres que le simple navigateur Web. Différents types de médias sont d'ores et déjà pris en compte, l'impression papier, le rétroprojecteur, la synthèse vocale et le matériel spécifique Braille (embosseuse, plage Braille ).
De plus en plus, HTML permet d'introduire des notions sémantiques structurantes du texte et non plus seulement des notions de présentation ( sémantique des différents éléments constituant un tableau, niveaux de titre, listes...).
Avec XML et XHTML, il est possible de combiner complètement la représentation finale du texte avec sa structure sémantique, c'est-à-dire associer à chaque bloc de textes une correspondance entre le contenu et la forme.
Avec les travaux du WAI (Word Accessibility Initiative) , la traduction en Braille des documents est donc pleinement prise en compte.
But: donner aux producteurs de documents des recommandations communes minimales pour assurer la fidélité de présentation sur divers supports de livres électroniques.
La spécification doit se rapporter aux standards.
Cette spécification est basée sur XML/HTML et CSS, et utilise les
métadata
définies par la Dublin
Core Metadata Initiative.
Participent à ce groupe des grands noms du numérique: Adobe, Xerox...
Encoder un texte pour qu'il soit visualisable sur de nombreux médias est un problème qui est donc en cours de résolution par un certain nombre de groupes internationaux.
Dans le domaine de la transcription braille, il faut bien séparer deux utilisations différentes:
- Une utilisation de type personnel: même si le Braille n'est pas parfait, l'essentiel du document produit est utilisable et sa transcription automatique à partir d'un document original non préparé suffit largement.
- Une utilisation plus professionnelle: accepterait-on un ouvrage d'éditeur réduit à l'impression telle quelle d'un document HTML? La réponse, pour ma part est non! La qualité d'édition pour un document Braille doit donc être la même que celle d'une édition papier!
Les problèmes soulevés ci-après sont ceux rencontrés dans le deuxième cas. La transcription d'ouvrages et la volonté de rester fidèle à une représentation papier d'un volume soulèvent certaines difficultés. Ces problèmes sont la plupart du temps traités dans tous les logiciels de traduction braille actuels (BrailleStar, DuxBury, Nfbtrans...)
- Correspondance entre la version imprimée Noire et la version
imprimée Braille
Tenir à jour une double numérotation des pages
HTML4 permet d'insérer des balises de mise en page
- Présentation de tables et abréviations.
- Nécessité de respecter les conventions braille pour l'écriture de
dates/chiffres romains/téléphone...
- Braille abrégé (partie de textes abrégeable/non-abrégeable)
En attendant que les outils déjà en place, sachent se débrouiller avec XML/HTML, plusieurs solutions peuvent être envisagées:
- Ne pas utiliser XML/HTML... Dommage !!!
- Ne pas mettre les informations spécifiques à la transcription
Braille dans le document... Re-Dommage !!!
- Mettre les informations spécifiques à la transcription Braille
dans le document...
Oui mais nouveaux problèmes... comment
passer du document initial au document Braille correct?
Pour le point 3), il s'avère que la difficulté est de trouver une interface entre HTML/XML et les produits courants de transcription Braille.
Malheureusement, ces produits ont des performances très diverses et donc des exigeances d'informations tout aussi diverses! Certaines informations seront donc nécessaires pour un soft et complètement inutiles pour un autre.
Une solution possible consiste donc à ajouter ces informations sous
forme de Tag
XML, sachant qu'à terme, on peut espérer
qu'un certain nombre d'entre eux ne seront plus utiles.
Pour les spécifier, encore plusieurs solutions:
- Utiliser des commentaires pour le traitement Braille, de façon à
être compatible avec la plupart de éditeurs/browsers de HTML
Envisageable si possibilité automatique de mise à jour lors de
la mise en place d'une solution convenable!
- Utiliser directement du XHTML (namespace) ou du XML pour
spécifier les particularismes.
L'absence d'outils conviviaux pour écrire un document rend difficile la production d'ouvrages avec ces formats. Nécessité d'apprentissage.
L'émergence de la nouvelle recommandation sur XSL devrait ouvrir en grand les portes à XML, en fournissant un outil de spécification de réécriture de documents XML, sans avoir à fournir soi-même le moteur de réécriture!
- Emacs (sgml/Non wysiwyg)
- Amaya (html/Wysiwyg)
- XML Spy
- Amaya (html)
- EI5
- modzilla ...
Quelles que soient les recommandations, il est incontournable de pouvoir
construire automatiquement les bases de données associées à une base d'ouvrages
électroniques. En conséquence, les documents doivent être auto-documentés.
Les meta-tags
de Dublin Core
Metadata Initiative (1995) font actuellement référence. Ils sont
implémentés en HTML sous forme de tags META, et en XML sous forme de tags de
l'espace de nomage dc
(RFC 2413,2731).
Ils permettent de spécifier auteurs, titre, éditeur d'une uvre, mais également d'autres propriétés telles que mots-clefs, personnes ayant contribué à l'uvre sans en être véritablement l'auteur, les droits associés à l'ouvrage... Il est possible et prévu d'étendre ce concept à la totalité des champs utilisés dans les diverses classifications bibliographiques comme UNIMARC
Le monde de l'édition et des professionnels du numérique s'accorde autour du fait que XML sera très bientôt incontournable pour l'édition électronique. Même si les outils sont encore peu nombreux et que la sécurité des documents ne soit pas complètement pris en compte, aussi bien par les spécification que par les outils. Pour ce qui est de l'accessibilité, XML se prête très bien à un accès adapté. Les méthodes de transformation XSLT devrait à cours terme donner naissance à des outils XML vers Braille. Cette situation devraient donc facilité l'accès uniforme des voyants et non-voyants.
Bruno Marmol, Février 2000
Droits de reproduction et de diffusion réservés -
Colloque sur le livre numérique - BrailleNet-Cité des sciences-INSERM-UPMC