Préambule
Le dictionnaire de Justin Storck est une ressource incroyable sur tout ce qui touche la menuiserie, l'ébénisterie et la charpente.
- Il est disponible en ligne sur le site de Gallica: tome 1, tome 2 et supplément,
- seulement, la navigation n'est pas aisée car on ne peut rechercher un mot dans le texte intégral;
- Il existe également le site justinstorck.free.fr/
- toutefois, le site n'est pas complet dans le sens où toutes les entrées du dictionnaire ne sont pas présentes (pas d'article sur les scies !!)
Contexte
Alors j'ai fait un PDF de chaque tome (1, 2, supplément ), avec reconnaissance de texte.
Il est donc possible de chercher un mot dans le PDF.
chaque fichier pèse environ 50 MB, c'est ~500 pages quand même !
Mais on est loin des 1 GB par tome avant conversion en noir et blanc.
J'ai également mis des signets dans le PDF, pour aller directement à une lettre donnée (A, B, C, ...). Mais ce n'est pas suffisant pour aller directement à une entrée donné. Et rechercher le mot sapin dans le texte ne va pas mener directement à l'article SAPIN s'il est utilisé par ailleurs (c'est le cas...).
Alors l'idéal serait d'avoir d'avoir un signet par entrée dans le PDF. Oui, ça va faire beaucoup de signets, mais il est possible -avec tout visionneur PDF- de chercher un mot dans les signets.
Demande d'aide
C'est là que vous entrez en action.
Il faut définir ces entrées. Et indiquer le numéro de la page concernée.
Bref, faire une liste. Je vous montre:
- Abaque 9
- Abatage 9
- Abat-foin 10
- Abatant 10
- Abat-jour 12
- ...
Je ne vais pas y arriver tout seul.
Si on se répartit le travail, plus on est nombreux, moins on a de pages à traiter par personne.
Bref, même si vous ne souhaitez traiter que 10 pages, cela vaut le coup.
Alors si vous avez un peu de temps à consacrer à ce projet, ça me ferait grand plaisir.
Et ça permettrait à tout le monde de disposer d'une version PDF utilisable car pratique du fameux dictionnaire. Bien entendu, je le partagerai en ligne.
L'avantage, c'est que cela vous donnera l'occasion de découvrir le dictionnaire et son contenu. Choisissez donc bien les lettre/pages que vous voulez lire
Organisation
Qui fait quoi ?
Un petit tableau pour indiquer qui fait quoi, histoire de synthétiser les contribution et éviter les doublons:
**par ici les inscriptions
lite.framacalc...8b-justinstorck
Si une lettre comporte trop de pages pour vous, rajouter une ligne pour subdiviser.
Sinon, demandez moi, je compléterai le tableau.
Comment faire en pratique ?
- Allumer son ordi,
- afficher le PDF,
- ouvrir un éditeur de texte,
- lister les entrées (une entrée par ligne, avec numéro de page séparé par une espace),
- et voilà !
Je centraliserai alors pour créer le PDF qui va bien.
Ou alors vous remplissez le document en ligne:
annuel2.framap...stinstorck-9m8g
Comment nommer les fichiers d'entrées à transmettre ?
On va essayer un truc comme ça:
- tome1-004-023.txt pour les pages 4 à 23 du tome 1;
- supplement-120-123.docx pour les pages 120 à 123 incluses du supplément.
Format txt ou word/libreoffice, à votre convenance.
les numéros de page à fournir sont les numéros figurant en haut des pages.
Et oui, je sais, dans le tome 1 il y a une bourde: il existe la page 144bis entre la 144 et la 145 ! Je ne débrouillerai avec ça...
8 réponses
Je remercie infiniment tous ceux qui ont contribué à lister les entrées du dictionnaire. andrefy dependancesbois benoit96 MoFran loub Neiru Eric78 Niouniou . J'espère n'avoir oublié personne.
Je voulais mettre les pdf dans la section plans du présent site, malheureusement la taille maximale admissible est de 60 MB.
En attendant, voici les liens vers les fichiers:
~80 MB par tome.
La couche de texte OCR n'est pas encore parfaite. J'y travaille avec LionelDraghi .
Lecture du pdf
J'ai visiblement encore quelques problèmes de création de pdf car ils ne sont pas lisibles sur tous les lecteurs pdf et dans tous les systèmes d'exploitation.
Bref, si les pages sont blanches, essayez un autre lecteur pdf ou un autre navigateur pour l'afficher. Pour l'instant, je ne peux rien faire d'autre !
Détails techniques sur la création des pdf
Voici dans les grandes lignes les étapes pour la création de ces pdf:
- récupérer les images en résolution native (400dpi) sur Gallica. En effet, le pdf que l'on peut télécharger n'est qu'en 72dpi. Il faut donc utiliser cette astuce;
- transformer les JPG couleur en TIF noir et blanc (avec graphicsmagick, bien plus rapide que ImageMagick). La compression JBIG2 permet éventuellement de diviser par 2 environ le poids des fichiers;
- faire une reconnaissance de caractères sur les images (Tesseract ou autre ...);
- construire le fichier PDF:
- conversion TIF vers PDF (tiff2pdf),
- ajout de la couche de texte OCR (qpdf),
- ajout des signets/entrées au pdf (cpdf).
Plus de détails dans ces articles: premier, second.
Taille des fichiers
Bref, chaque tome fait environ 1 GB en JPG natif, on arrive à moins de 100 MB en passant en noir et blanc sans perte de qualité autre que le seuillage N&B. Soit un facteur 10.
Tome | 1 | 2 | Suppl. |
---|---|---|---|
JPG natif | 900 MB | 1.0 GB | 1.1 GB |
TIF N&B | 92 MB | 75 MB | 82 MB |
JBIG2 N&B | 53 MB | 38 MB | 46 MB |
couche texte | 3.7MB | 3.5 MB | 3.7 MB |
J'ai souvent eu du mal avec certaines définitions et pas toujours évident de les retrouver.
J'imaginais bien une catégorie lexique dans l'ADB, mais je comprends que ce soit compliqué à mettre en place et faire vivre.
Donc je veux bien apporter ma pierre à cette indexation. Je vais travailler sur le lien Gallica parce que je n'arrive pas à ouvrir tes PDF. Enfin si, mais je n'ai que des pages vierges...
bonjour
je connais bien ce dictionnaire il a ses limites , il est facilement consultable , je préférai une edition critique car il n est pas d'une grande utilité pour les gens de metiers et il y a beaucoup de chose a revoir
vial devait faire un supplement ce qui n' a pas été fait ,seulement un nouvel ouvrage a été publié ouvrage qui n est pas la suite de ce dictionnaire
ce travail reste a faire
etienne
J'en suis, très probablement avec un rendement faible, mais si onb est nombreux avec un faible rendement ça sera aussi très bien !
Question annexe : que compte tu faire de cet index par la suite ?
Sinon, comme le suggère titimaster ça doit être jouable avec ce qu'on appelle un parser, on doit pouvoir extraire tous les mots du dictionnaires.
Ils sont facilement identifiable car ils sont en majuscule (avec éventulement des caractère style tiret) suivi d'une virgule et d'un espace, par exemple :"ABAT-JOUR, "
Restera "plus qu'à" associer un numéro de page
j'oserai jamais répondre a ton préambule, je te partage ce que je ressens comme un manque sur ADB > un dictionnaire...
quand quelqu'un vient poser une question, il arrive quand même qu'elle soit pas assez précise par manque de vocabulaire, ou même que la personne ne sache pas répondre par ce qu'il bute sur un terme,
du coup une section ressources, dictionnaire dans un onglet catalogues permettrait d'y déposer des dessins de réalisations, d'ouvrages, avec photos, vue 3D avec des légendes renvoyant dans l'idéal a une définition encyclopédique (trés trés phantasmé tout ca)
mais on est loin de ta proposition...
bonne question en tout cas
Pas tant que ça. Car une fois que le dictionnaire Justin Storck sera facile à naviguer/utiliser, alors on pourra l'utiliser comme tel ! Et ce ne sont pas les illustrations qui manquent. Je ne connais pas plus complet.
Ps: pour info
merci a trente six seb d'avoir regroupé cette question, j'aime particulièrement la question de Tchabissi
et comprend la réponse de Boris Beaulant > techniquement c'est faisable. Sans dire que c'est facile. Mais pas insurmontable. Il y a pas mal de briques de logiciels libres qui pourraient être utilisées pour aider à ça >
si ta proposition est l'ingrédient principal qui permettrait via un onget recherche présent sur ADB de tomber sur l'info recherchée, ne faudrait il pas demander a Boris si le pdf suffira a faciliter suffisament cette évolution pour la rendre possible un jour? (tant qu'a participer a un projet autant qu'il serve a simplifier la vie de la communauté) j'aime le pdf version vacances déconnectées, au quotidien j'apprécie le clic direct
par ce qu'en fait c'est un peu trop fourni le Strock (pour 95% des questions que se pose les visiteurs découvreurs, pour nommer "le morceau de bois qui sert a " il suffirait d'une 20aine de planches sur des themes généralistes pour commencer
mais je suis d'accord que Strock doit présider, c'est juste ma question: est ce cohabitable au sein d'une même recherche? et si éventuellement oui, alors a quelles conditions de mise en forme?
MoFran dans ce cas, la version en ligne que je mentionne plus haut devrait te suffire.
justinstorck.free.fr/
Et je ne sais pas s'il existe un dictionnaire simple qui convienne à tout le monde. Chacun veut son dictionnaire avec un niveau de détail/technicité qui lui convienne. Cela a déjà été évoqué...
Ensuite, faire un pdf indexé est le plus simple et direct. Transformer cela en page web ou simplement en html est bien trop lourd car les illustrations sont très très nombreuses (et indispensables).
Je sais de quoi je parle, j'ai déjà farfouillé dans un certain nombre de livres sur Gallica et autres (voir ici). Et j'en ai réédité quelques uns. C'est un très gros boulot. Texte seul, ça va, mais avec images ça rend la tâche bien plus longue.
PS: il y a également des index/glossaires dans le Roubo ou le Jamin, mais étant plus courts, ils sont faciles à parcourir et ne nécessitent pas autant de travail.
certainement, excuse moi de réagir de cette manière, bonne continuation
MoFran y'a pas de souci, je ne t'en voulais pas. Je ne voulais pas être agressif.
y a aucun soucis, je m'emballe sur des super idées qui résoudraient pleins de trucs, ca ne fonctionne bien sur pas comme ca, avec un Storck qui répond a la recherche ca sera déjà un pas énorme.
Je ne pense pas pouvoir être utile, essentiellement par manque de compréhéssion des logiques de classement.
Sit tu fais un pas a pas dédié avec un exercice de tuto, si j'y arrive (installations logicielles etc) je pourrai peut être me taper une tranche de Stork
MoFran euh, il faut juste savoir ouvrir un fichier PDF, parcourir les pages et copier le texte des entrées à indexer dans un fichier texte, dans l'ordre alphabétique. Ensuite tu me le transmets ou alors tu complètes le framapad en ligne.
Bonjour,
je veux bien contribuer à l'édifice. J'ai chargé les deux tomes en pdf (50 Mo/fichier en effet), mais... ils sont vierges !
Plus exactement, c'est écrit... blanc sur blanc !
Je suis avec Foxit...
Que faire ?
andrefy Merci beaucoup.
mince, mince mince. As-tu essayé un autre lecteur PDF ? Avec le lecteur intégré à ton navigateur ?
Peux tu essayer avec ces pdf et Foxit et me dire ?
J'ai testé avec pdfstudioviewer, okular et evince.
Je dois avoir des soucis avec la compression JBIG2 des images . Et les fichiers moins comprimés pèsent deux fois plus lourd
Dis moi si aucun de tes lecteur ne peut le lire...
OUI !!! Ça c'est bon !
Le problème des autres, c'est l'écriture en blanc ! Je peux sélectionner, je vais essayer de copier le texte..
Ah, c'est bon avec les liens que tu as mis en dessous !
Je vais essayer un peu ce soir, mais j'ai plein de choses à faire, je me débarrasse d'un véhicule demain...
andrefy pense à t'inscrire sur le lien framacalc, pour éviter les doublons. Merci !
Oui, oui, mais peux-tu me dire pour le framapad :
tu veux qu'on écrive dessus ? Qu'on en fasse un autre ? On peut le faire sur n'importe quoi ?
Et dans ton exemple framapad, pourquoi n'as-tu pas les entrées avant la page 12 ?
Merci.
andrefy j'ai complété les A entre 9 et 12, merci pour l'alerte.
Écris cela sur un fichier local de ton ordi, et tu copies sur le framapad quand tu as fini une lettre par exemple.
Mieux vaut un doublon local.
Merci à tous, je vois que cela avance.
Pour clarifier les choses, voici ce que cela donnerait avec les premières entrées