-
Notifications
You must be signed in to change notification settings - Fork 7
GT Guide Transkriptionsprobleme bei Inkunabeln
Unterscheidung Macron/Tilde -> wichtig, oft ist im Originaltext kaum zu erkennen, was von beiden verwendet wurde.
.
Es empfiehlt sich, die Transkription im Level zwei zu erstellen. Aus diesem Grund wird in der Regel keine Unterscheidung vorgenommen, wenn das Zeichen mit der gleichen Bedeutung verwendet wird. Es wird eine Zeichenkombination aus dem Graphem und in der Regel aus einer übergestellte Tilde gebildet. Wenn eine Unterscheidung nicht möglich ist sowie es sich in allen Fällen um ein Kürzungsstrich handelt, ist die übergestellte Tilde zu verwenden. Dazu wird der Unicode U+0303, COMBINING TILDE
genutzt
Sollen nachträglich angebrachte handschriftliche Anmerkungen (z. B. Seitenzahlen) aufgenommen werden?
Sollen handschriftliche Eintragungen/ neuzeitliche Seitenangaben mit aufgenommen werden?
Bei Druckwerken werden handschriftliche Anmerkungen als GraphicRegion type="handwritten-annotation"
gekennzeichnet.
Bei Druckwerken werden handschriftliche Textkorrketuren in der Regel nicht transkribiert.
Transkription, wenn ein Zeichen in unterschiedlichen Bedeutungszusammenhängen verwendet wird (z.B. z)
Bei der Erstellung von GT wird weitestgehend von Bedeutungszusammenhängen unabhängig transkribiert. Jedoch kann davon abgewichen werden, wenn das Trainingsmaterial:
- für einen sehr spezielle Nutzung,
- für eine sehr homogene Sammlung von Dokumenten/Vorlagen vorgesehen ist.
Für die Nutzung solch eines GT sollten Metadaten darauf hinweisen, dass Zeichen in unterschiedlichen Zusammenhängen transkribiert wurden.
Wenn Initiale Teil des ersten Wortes ist, ohne Spatium anschließen aber dennoch Großbuchstabe?
Eine Initiale ist ein Anfangsbuchstabe, der am Beginn eines Kapitels oder Abschnitts steht. Dieser Buchstaben zeichnet sich durch seinen Schmuck, Verzierung oder durch seine vollständige andersartige Gestaltung gegenüber der verwendeten Schriftart aus.
Die Initiale sollte in der Regel immer Teil des ersten Wortes sein, (Anfangsbuchstabe). Die Transkription der Initiale ist ohne Spatium anzuschließen.
Die Initiale ist mit einer spezifizierten TextRegion auszuzeichnen.
<TextRegion type="drop-capital">
Bei diesem Beispiel handelt es sich nicht um eine Initiale.
Wie ist mit Wörtern umzugehen, die durch Beschädigungen der Vorlage (Löcher, Risse) unvollständig sind?
Wenn das Wort dadurch gar nicht mehr identifizierbar ist?
Beschädigungen der Vorlage (Löcher, Risse...) sind nicht die Regel, sondern eine Ausnahme. Damit mit dem Trainingsmaterial (GT) stabile und robust neuronale Netze trainiert werden können, ist dieses geringe Vorkommen zu beachten.
Wenn Schäden transkribiert werden sollten diese wenn möglich als <NoiseRegion> ausgezeichnet werden.
Welcome to the OCR-D wiki, a companion to the OCR-D website.
Articles and tutorials
- Running OCR-D on macOS
- Running OCR-D in Windows 10 with Windows Subsystem for Linux
- Running OCR-D on POWER8 (IBM pSeries)
- Running browse-ocrd in a Docker container
- OCR-D Installation on NVIDIA Jetson Nano and Xavier
- Mapping PAGE to ALTO
- Comparison of OCR formats (outdated)
- A Practicioner's View on Binarization
- How to use the bulk-add command to generate workspaces from existing files
- Evaluation of (intermediary) steps of an OCR workflow
- A quickstart guide to ocrd workspace
- Introduction to parameters in OCR-D
- Introduction to OCR-D processors
- Introduction to OCR-D workflows
- Visualizing (intermediate) OCR-D-results
- Guide to updating ocrd workspace calls for 2.15.0+
- Introduction to Docker in OCR-D
- How to import Abbyy-generated ALTO
- How to create ALTO for DFG Viewer
- How to create searchable fulltext data for DFG Viewer
- Setup native CUDA Toolkit for Qurator tools on Ubuntu 18.04
- OCR-D Code Review Guidelines
- OCR-D Recommendations for Using CI in Your Repository
Expert section on OCR-D- workflows
Particular workflow steps
Workflow Guide
- Workflow Guide: preprocessing
- Workflow Guide: binarization
- Workflow Guide: cropping
- Workflow Guide: denoising
- Workflow Guide: deskewing
- Workflow Guide: dewarping
- Workflow Guide: region-segmentation
- Workflow Guide: clipping
- Workflow Guide: line-segmentation
- Workflow Guide: resegmentation
- Workflow Guide: olr-evaluation
- Workflow Guide: text-recognition
- Workflow Guide: text-alignment
- Workflow Guide: post-correction
- Workflow Guide: ocr-evaluation
- Workflow Guide: adaptation-of-coordinates
- Workflow Guide: format-conversion
- Workflow Guide: generic transformations
- Workflow Guide: dummy processing
- Workflow Guide: archiving
- Workflow Guide: recommended workflows