Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Missing parts of documents #9

Open
zby opened this issue Apr 8, 2024 · 3 comments
Open

Missing parts of documents #9

zby opened this issue Apr 8, 2024 · 3 comments

Comments

@zby
Copy link

zby commented Apr 8, 2024

I tried to parse: https://www.pzu.pl/_fileserver/item/1540593

import openparse
from pprint import pprint

doc_path = 'data/OWU_szpit.pdf'

parser = openparse.DocumentParser()
parsed_doc = parser.parse(doc_path)

pprint(parsed_doc.model_dump())

The saved output does not contain for example:

PRZEDMIOT UBEZPIECZENIA
– czyli co ubezpieczamy
3. �Ubezpieczamy zdrowie ubezpieczonego.
ZAKRES UBEZPIECZENIA
– czyli jakie zdarzenia obejmujemy ochroną

The output has:

                      'y1': 642.85}],
            'text': ' 32)**współmałżonek/partner**– wskazana we wniosku o '
                    'ubezpieczenie osoba, która pozostaje z ubezpieczonym z '
                    'umowy \n'
                    'podstawowej w dniu zawarcia umowy terminowej i tej '
                    'umowy:<br><br> a) w związku małżeńskim – w przypadku '
                    'współmałżonka, \n'
                    ' b) we wspólnym pożyciu – w przypadku '
                    'partnera.<br><br>**2.**Jeżeli te OWU nie stanowią '
                    'inaczej, określenia, które zdefiniowaliśmy w OWU umowy '
                    'podstawowej używamy w tych OWU w takim \n'
                    'samym znaczeniu.',
            'tokens': 166,
            'variant': {'text'}},
           {'bbox': [{'page': 4,
                      'page_height': 841.89,
                      'page_width': 595.276,
                      'x0': 55.98,
                      'x1': 529.83,
                      'y0': 406.04,
                      'y1': 471.61}],
            'text': '**4.**Zakres ubezpieczenia obejmuje wystąpienie w okresie '
                    'naszej ochrony zdarzenia lub zdarzeń wskazanych w tabeli '
                    'w pkt 8.\n'
                    '**5.**Umowę możesz zawrzeć w jednym z czterech wariantów. '
                    'Warianty różnią się zakresem ochrony, czyli rodzajami '
                    'zdarzeń, za które \n'

and the entire fragment is missing.

@zby
Copy link
Author

zby commented Apr 8, 2024

I had similar missing fragments when trying to parse https://data.consilium.europa.eu/doc/document/ST-5662-2024-INIT/en/ - mostly titles. But it is long and takes a lot of time to parse.

@Filimoa
Copy link
Owner

Filimoa commented Apr 8, 2024

Currently the library is configured to use some heuristics to try to append a title to a section. If nothing is found it drops it since stubs are undesirable come query time. We may do more experimentation here.

I will look into the failing doc.

@lngr
Copy link

lngr commented May 24, 2024

See my comment in #40

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants