Pour ceux qui s’intéressent au côté technique des choses, ce petit article présente nos outils et méthodes pour numériser les livres.


Xserves
Le rêve.

Nous utilisons des ordinateurs Apple Macintosh, sous Mac OS X ou Windows lorsque requis. Pour nous, le plus gros avantage des Mac est l'environnement de programmation, qui permet de développer des applications très facilement. Bien qu'un ordinateur de milieu de gamme suffise, il est beaucoup plus efficace d'utiliser une machine puissante; traiter des centaines d'images de résolution typique 1650 x 2550 en un temps raisonnable demande une grosse puissance de calcul. Si on considère un livre de 600 pages et un traitement d’une page par minute, il faudra 10 heures de traitement pour le livre complet.

Notre machine la plus puissante est un Mac Pro à 8 processeurs (2,8 GHz), avec 14 Go de mémoire et 2 To de disques durs (3 disques de 750 Go en RAID 0). Bien qu’on puisse traiter 8 pages simultanément, ce Mac est pourtant très lent pour les images de haute résolution (600 dpi ou plus). Qu’on compare ça avec la grappe de 24 serveurs (photo à droite), pouvant traiter 192 pages simultanément !

Première étape : la numérisation


La numérisation des livres est faite sur un numériseur OpticBook 3600 spécialement conçu pour les livres. Il n'est pas très rapide et la qualité des images est moyenne, mais il a l'avantage de produire des images uniformes même près de la reliure du livre. Il est toujours délicat de manipuler de vieux livres, et l'OpticBook permet aussi de les abîmer le moins possible. L'OpticBook ne fonctionne que sous Windows.


Brut
Une page numérisée avant nettoyage

On peut aussi utiliser un appareil photo numérique pour photographier chaque page d'un livre. Personnellement nous n'utilisons pas cette méthode. Les images résultantes sont beaucoup trop courbées à cause de la reliure. Il est aussi difficile d'obtenir un éclairage et une netteté uniformes de chaque page, surtout si on utilise le flash de l'appareil.

Pour numériser des photocopies de livres ou d'articles, nous utilisons un Fujitsu ScanSnap. Le numériseur est pour Mac uniquement, mais il existe aussi une version PC. Il est rapide et peut numériser des feuilles en recto-verso. La qualité des images est correcte. Son plus gros défaut est que parfois il prend deux feuilles simultanément, et la feuille prise par erreur n'est pas numérisée. Le ScanSnap génère des images en couleur ou monochrome (pas de niveau de gris). Une copie de Adobe Acrobat est incluse avec le numériseur.

Au final, les images brutes sont en niveau de gris ou en couleur, avec une résolution de 300 dpi au minimum. Les numériseurs permettent de numériser directement en noir et blanc (images monochromes), mais une image monochrome offre moins de possibilité d'amélioration (netteté, contraste), et certains livres ont des photos ou des dessins qu'il faut reproduire en niveaux de gris ou en couleur. Avec le OpticBook, on arrive à numériser une centaine de feuilles en 45 minutes. Le ScanSnap numérise 100 feuilles en 20 minutes. Il est très important de s’appliquer à obtenir les meilleures numérisations possibles, avec une illumination uniforme, une netteté adéquate, peu ou pas d’ombre. Plus l’image brute est uniforme, plus le nettoyage sera facile.

Deuxième étape : le nettoyage


On ne peut pas se contenter de diffuser les images brutes de numérisation, à cause de leur taille excessive. Il faut au minimum les convertir en noir et blanc (binariser) afin de réduire leur taille. Toutefois, si on veut pouvoir imprimer le résultat et avoir un livre convenable, il faut faire un « nettoyage » de chaque page : redresser l'angle, enlever les taches, centrer le texte dans la page.


Migne1
Le logiciel Migne


Nous avons développé un programme de nettoyage des pages, baptisé « Migne » en l'honneur de l'abbé Migne, le grand éditeur de la patrologie (voir sa vie ici). Le programme Migne ne fonctionne que sur Mac (il tire partie des bibliothèques de traitement d'images sur Mac). Voici les traitements qu'il effectue :

  • Séparation des pages en recto-verso.
  • Renforcement des caractères (pour les pages trop claires).
  • Renforcement du fond (pour les pages trop sombres).
  • Redressement de chaque page.
  • Conversion en noir et blanc.
  • Suppression des taches.
  • Centrage du texte dans la page.

Ces traitements sont automatiques. Certaines pages sont parfois mal redressées ou mal cadrées. Un mode manuel permet de faire une deuxième passe de nettoyage pour corriger les défauts du mode automatique.
La durée du nettoyage automatique dépend des options de traitement. Cent pages peuvent être nettoyées en quelques minutes ou en plusieurs heures. Ceci dit, laisser l'ordinateur travailler toute une nuit n'est pas un problème.

Les traitements effectués par Migne sont très basiques par rapport à l’état de l’art du traitement des images. Avec du temps, on pourrait ajouter d’autres fonctionnalités. Si vous êtes développeur Objective-C/Cocoa et que vous voulez nous donner un coup de main, vous êtes le bienvenu !

On utilise aussi GraphicConverter sur Mac pour retoucher les photos et les gravures parfois présentes dans les livres. C'est un logiciel à bas prix, suffisant pour nos besoins.

Sur PC, il existe des logiciels de nettoyage : Book Restorer ou VirtualRescan, mais leur prix est assez élevé.

Troisième étape : la reconnaissance de caractères


Si on veut pouvoir faire une recherche de mots dans le livre numérisé, il faut faire une reconnaissance optique de caractères. Le meilleur logiciel de reconnaissance est ABBYY FineReader 9. Il ne fonctionne que sous Windows. FineReader permet aussi de redresser l'angle de chaque page, et de redresser la courbure des lignes proches de la reliure du livre.

141FR
Le redressement des courbures effectué par FineReader

Quatrième étape : la création du fichier final


Pour la création du PDF, on utilise soit Acrobat, soit PDFClerk sur Mac. PDFClerk est très utile si on veut imprimer le PDF sous forme de livre (imposition de 2 pages par feuille dans le bon ordre).

En guise de conclusion


Si nous diffusons les livres en fac simile, c'est parce que c'est la méthode la plus rapide. Mais pourquoi se donner la peine de nettoyer les pages ? Tant que le texte est lisible, ne vaut-il pas mieux le diffuser sans nettoyage ? Il est vrai que le contenu prime, et si le but est uniquement de préserver le contenu des vieux livres, on peut s'épargner le nettoyage. Notre but est la diffusion des bons livres, et la forme est importante si on veut faciliter la lecture. On lira plus facilement un texte propre plutôt que des pages sales, qui fatiguent la vue.

Idéalement il faudrait recomposer chaque livre, comme nous avons fait avec le tome 3 de La Révolution de Mgr Gaume, mais c'est un travail excessivement long. Nous avons utilisé Mellel sur Mac pour composer ce livre. Que les typographes puristes ne se scandalisent pas de ce que nous n'utilisons pas TeX ou une de ses variantes : Le signe de la Croix et Le pape saint Libère ont été composés avec XeTeX.

Nous espérons que ce petit aperçu d'un environnement de numérisation d'amateurs donnera envie à ceux qui ont des livres de les numériser. Si vous avez des conseils à nous donner sur comment améliorer nos méthodes, n’hésitez pas à nous en faire part.