Les formats de documents pour le Braille

Petit et Rapide état des lieux

Le codage d'ouvrages littéraires sous forme électronique a été abordé par un certain nombre de groupes de travail: en SGML avec la TEI, le W3C avec HTML, XML et XHTML, et le Open eBook Initiative pour les livres élétroniques et le matériel associé...

Tous ces groupes ont un but commun: fournir des recommandations PUBLIQUES pour l'encodage de documents électroniques afin de libérer l'éditeur de la spécification et de la maintenance de son propre format. Et par conséquent, libérer l'utilisateur des spécificités d'un produit lié au format interne utilisé par celui-ci. Un format commun permettant une plus grande portabilité des ouvrages, à travers les différents matériaux mais également à travers le temps.

Tous travaillent maintenant dans une direction commune: une codification basée sur XML avec plus ou moins de restrictions pour arriver à une structure uniforme de représentation des ouvrages, et une utilisation par les outils standards sur le Web.

TEI: Text Encoding Initiative

La TEI, initiée dès 1987, s'est intéressée à l'encodage de textes électroniques pour les chercheurs. à ses débuts, le format retenu était SGML, pour sa flexibilité, sa possibilité d'extention et son usage dans le monde des professionnels de l'édition. Ses objectifs initiaux étaient:

- être suffisamment précise pour représenter les propriétés des textes utilisés par les chercheurs
- être simple, claire et précise
- être utilisable sans nécessiter l'utilisation de logiciels spécifiques
- être modifiable par l'utilisateur
- respecter les normes en vigueur ou sur le point d'être adoptées

Depuis l'arrivée de XML, la TEI se prépare à une migration de SGML vers XML. Cette migration devrait se faire sans trop de peine puisque SGML et XML sont très proches l'un de l'autre pour la plupart des applications SGML. Des feuilles de styles XSL sont d'ailleurs d'ores et déjà disponibles.

Exemple de document codé en TEI (issu du site de la TEI):

<TEI.2>
<teiHeader>
[Source and processing information gœs here]
</teiHeader>
<text id=AusEmma>
<front>
[preface, etc gœs here]
</front>
<body>
[main body of the text gœs here]
</body>
<back>
[appendices, etc gœs here]
</back>
</text>
</TEI.2>

le W3c

Le W3C avec la norme HTML4, XML et XHTML, apporte une codification des textes pour des supports autres que le simple navigateur Web. Différents types de médias sont d'ores et déjà pris en compte, l'impression papier, le rétroprojecteur, la synthèse vocale et le matériel spécifique Braille (embosseuse, plage Braille ).

De plus en plus, HTML permet d'introduire des notions sémantiques structurantes du texte et non plus seulement des notions de présentation ( sémantique des différents éléments constituant un tableau, niveaux de titre, listes...).

Avec XML et XHTML, il est possible de combiner complètement la représentation finale du texte avec sa structure sémantique, c'est-à-dire associer à chaque bloc de textes une correspondance entre le contenu et la forme.

Avec les travaux du WAI (Word Accessibility Initiative) , la traduction en Braille des documents est donc pleinement prise en compte.

L'Open eBook Group

But: donner aux producteurs de documents des recommandations communes minimales pour assurer la fidélité de présentation sur divers supports de livres électroniques.

La spécification doit se rapporter aux standards.

Cette spécification est basée sur XML/HTML et CSS, et utilise les métadata définies par la Dublin Core Metadata Initiative.

Participent à ce groupe des grands noms du numérique: Adobe, Xerox...

Les problèmes spécifiques à la transcription d'ouvrages:

Encoder un texte pour qu'il soit visualisable sur de nombreux médias est un problème qui est donc en cours de résolution par un certain nombre de groupes internationaux.

Dans le domaine de la transcription braille, il faut bien séparer deux utilisations différentes:

- Une utilisation de type personnel: même si le Braille n'est pas parfait, l'essentiel du document produit est utilisable et sa transcription automatique à partir d'un document original non préparé suffit largement.

- Une utilisation plus professionnelle: accepterait-on un ouvrage d'éditeur réduit à l'impression telle quelle d'un document HTML? La réponse, pour ma part est non! La qualité d'édition pour un document Braille doit donc être la même que celle d'une édition papier!

Les problèmes soulevés ci-après sont ceux rencontrés dans le deuxième cas. La transcription d'ouvrages et la volonté de rester fidèle à une représentation papier d'un volume soulèvent certaines difficultés. Ces problèmes sont la plupart du temps traités dans tous les logiciels de traduction braille actuels (BrailleStar, DuxBury, Nfbtrans...)

- Correspondance entre la version imprimée Noire et la version imprimée Braille
Tenir à jour une double numérotation des pages
HTML4 permet d'insérer des balises de mise en page

- Présentation de tables et abréviations.
- Nécessité de respecter les conventions braille pour l'écriture de dates/chiffres romains/téléphone...
- Braille abrégé (partie de textes abrégeable/non-abrégeable)

Solutions

En attendant que les outils déjà en place, sachent se débrouiller avec XML/HTML, plusieurs solutions peuvent être envisagées:

- Ne pas utiliser XML/HTML... Dommage !!!
- Ne pas mettre les informations spécifiques à la transcription Braille dans le document... Re-Dommage !!!
- Mettre les informations spécifiques à la transcription Braille
dans le document...
Oui mais nouveaux problèmes... comment
passer du document initial au document Braille correct?

Pour le point 3), il s'avère que la difficulté est de trouver une interface entre HTML/XML et les produits courants de transcription Braille.

Malheureusement, ces produits ont des performances très diverses et donc des exigeances d'informations tout aussi diverses! Certaines informations seront donc nécessaires pour un soft et complètement inutiles pour un autre.

Une solution possible consiste donc à ajouter ces informations sous forme de Tag XML, sachant qu'à terme, on peut espérer qu'un certain nombre d'entre eux ne seront plus utiles.

Pour les spécifier, encore plusieurs solutions:

- Utiliser des commentaires pour le traitement Braille, de façon à
être compatible avec la plupart de éditeurs/browsers de HTML
Envisageable si possibilité automatique de mise à jour lors de
la mise en place d'une solution convenable!
- Utiliser directement du XHTML (namespace) ou du XML pour spécifier les particularismes.

Les outils disponibles

L'absence d'outils conviviaux pour écrire un document rend difficile la production d'ouvrages avec ces formats. Nécessité d'apprentissage.

La recommandation XSL

L'émergence de la nouvelle recommandation sur XSL devrait ouvrir en grand les portes à XML, en fournissant un outil de spécification de réécriture de documents XML, sans avoir à fournir soi-même le moteur de réécriture!

Les éditeurs génériques

- Emacs (sgml/Non wysiwyg)
- Amaya (html/Wysiwyg)
- XML Spy

Les visualiseurs

- Amaya (html)
- EI5
- modzilla ...

Le classement des documents

Quelles que soient les recommandations, il est incontournable de pouvoir construire automatiquement les bases de données associées à une base d'ouvrages électroniques. En conséquence, les documents doivent être auto-documentés. Les meta-tags de Dublin Core Metadata Initiative (1995) font actuellement référence. Ils sont implémentés en HTML sous forme de tags META, et en XML sous forme de tags de l'espace de nomage dc (RFC 2413,2731).

Ils permettent de spécifier auteurs, titre, éditeur d'une œuvre, mais également d'autres propriétés telles que mots-clefs, personnes ayant contribué à l'œuvre sans en être véritablement l'auteur, les droits associés à l'ouvrage... Il est possible et prévu d'étendre ce concept à la totalité des champs utilisés dans les diverses classifications bibliographiques comme UNIMARC

Le monde de l'édition et des professionnels du numérique s'accorde autour du fait que XML sera très bientôt incontournable pour l'édition électronique. Même si les outils sont encore peu nombreux et que la sécurité des documents ne soit pas complètement pris en compte, aussi bien par les spécification que par les outils. Pour ce qui est de l'accessibilité, XML se prête très bien à un accès adapté. Les méthodes de transformation XSLT devrait à cours terme donner naissance à des outils XML vers Braille. Cette situation devraient donc facilité l'accès uniforme des voyants et non-voyants.

Bruno Marmol, Février 2000

Droits de reproduction et de diffusion réservés -
Colloque sur le livre numérique - BrailleNet-Cité des sciences-INSERM-UPMC