Première version de l'agrégat brut IRVE statique #4397

thbar · 2024-12-18T15:30:07Z

Dans cette PR, une première itération de la construction d'un fichier IRVE consolidé statique à partir des ressources présentes sur data gouv, avec les restrictions suivantes:

pas de dédoublonnage ni de "validation" au sens TableSchema / frictionless / validata
un typage fort sur les colonnes par contre
une récupération uniquement des ressources marquées du format "etalab/schema-irve-statique"

Le tout peut être lancé localement avec mix run scripts/irve/data-frame.exs.

Note: les commentaires restant le sont volontairement, car j'itère beaucoup sur le code qui reste un script actuellement.

La prochaine PR déplacera le code (refactoring) au propre dans des éléments applicatifs et avec des modules plus structurés.

L'idée est déjà de passer cette première PR pour pouvoir itérer sur la suite, car il y a un volume de code déjà important.

Les questions sont bienvenues, les refactorings attendront probablement le prochain tour toutefois (vu que c'est déjà prévu).

Exemple d'output

Voir Archive.zip, avec:

data-tmp/irve-consolidation.csv : un fichier avec tous les PDC qu'on aura réussi à lire
data-tmp/irve-report.csv : une liste des ressources analysées, avec rapport d'erreur, estimation du nombre de PDC etc

Notes techniques

Le script extrait des DataFrame avec des colonnes un peu plus flexibles initialement (ex: booléen stockés en tant que string), qui sont ensuite remappé puis castées vers le bon type.

Le tout semble bien rapide (et pourrait encore être optimisé à quelques endroits).

Le résultat donne un DataFrame résultat de la concaténation de tout ce qu'on a réussi à lire, qui peut facilement être dumpé vers un csv (et on pourra également facilement appliquer des statistiques dessus).

Echange avec biz-dev

Le comportement actuel a été présenté à @stephane-pignal et @AurelienC et constitue un développement itératif avec eux (merci !).

Les prochaines étapes sont spécifiées / notées dans Notion.

Prochaines étapes

Refactoring de ce code pour le rendre plus simple à comprendre
Améliorations pour élargir le nombre de PDC récupérés
Publication en dataset caché toutes les nuits pour itérer plus facilement avec la team biz-dev

This allows to differentiate "non latin 1" CSV files from binary (pdf/jpg etc) files which are incorrectly marked as IRVE.

…ter to handle it)

thbar

Le tout est prêt pour review, j'ai mis pas mal de notes.

Attention le code est très script-ish, et sera mis au carré dans la prochaine PR, avec "promotion" du code vers des modules applicatifs organisés, maintenant que j'y vois plus clair.

apps/transport/lib/irve/data_frame.ex

scripts/irve/data-frame.exs

ptitfred

J'ai laissé des commentaires et suggestions, rien de rédhibitoire pour autant.

apps/transport/lib/irve/data_frame.ex

.gitignore

scripts/irve/data-frame.exs

Co-authored-by: Frédéric Menou <[email protected]>

@ptitfred

Good call @ptitfred

thbar · 2025-01-30T07:59:47Z

Merci @ptitfred pour ta review, c'était productif, j'ai pris en compte ou répondu.

ptitfred

🚀

thbar added 30 commits October 29, 2024 15:06

Add explorer for data frames

2991ace

Create data-frame.exs

543a715

Create schema-irve-statique.json

e3bcb39

Leverage IRVE schema to build Explorer dtypes

dd99d43

Merge branch 'master' into irve-dataframe

c9e0633

Add static IRVE factory

1f2849d

Promote IRVE DataFrame to app code

a5d3888

Save WIP tests

f0569a6

Fix broken test

d31f3ea

Split independent modules, add tests

dcd590d

Mix format

3a6f583

Merge branch 'master' into irve-dataframe

aea430e

Remove bogus characters

af7a11b

Merge branch 'master' into irve-dataframe

48b0656

Add @moduledoc (credo)

f1a9bcf

Document field parsing typing via DocTests

975c661

Test & document behaviour on unspecified fields

3988269

Update doc

1409c5c

Reformat for clarity

7f0cef1

Merge branch 'master' into irve-dataframe

a35805c

Fix credits

c744aa7

Improve code

85a27a0

Rename for improved clarity

17e3910

Restructure as module

1c89d3b

Merge branch 'master' into irve-packing

ab0b2fa

Merge branch 'master' into irve-packing

0f97e4e

Fix incorrect mapping (number is float)

80c1e05

Update data-frame.exs

50ab453

Implement lax/strict

680663d

Bubble up organisation id (to filter out data gouv)

1a64001

thbar added 13 commits January 20, 2025 22:22

Reject large (> 300MB at least) test data marked as data gouv

565eed1

Add logging (avoids silent console when data is already cached on disk)

4afb6e4

Explain output of bogus items

f61266f

Fix deprecation warning ("warn vs warning"), mix format

2d1e7da

Tell what is happening

4979628

Refactor processing to be able to report estimated lines count

6f4cbb7

Mix format

b11650b

Add probe for zip content

8571744

Report & check on displayed file extension

708fa20

This allows to differentiate "non latin 1" CSV files from binary (pdf/jpg etc) files which are incorrectly marked as IRVE.

Add doc

065f62b

Allow us to report on files with ";" separator (to decide if it's bet…

2716631

…ter to handle it)

Downcase before filtering

661fe67

Add documentation and test on non-strict modes

a03c7b3

thbar changed the title ~~[WIP] Agrégat brut IRVE~~ Première version de l'agrégat brut IRVE statique Jan 21, 2025

Remove TODO (handled)

5773273

thbar commented Jan 21, 2025

View reviewed changes

thbar marked this pull request as ready for review January 21, 2025 21:46

thbar requested a review from a team as a code owner January 21, 2025 21:46

ptitfred self-assigned this Jan 22, 2025

ptitfred reviewed Jan 22, 2025

View reviewed changes

thbar and others added 4 commits January 30, 2025 08:29

Merge branch 'master' into irve-packing

45655f8

Merge 2 mutate calls into 1

4cc0eb0

Co-authored-by: Frédéric Menou <[email protected]>

Group the output in a common data-tmp folder

8c2d471

Prefix output filenames with irve

86247df

Good call @ptitfred

ptitfred approved these changes Jan 30, 2025

View reviewed changes

thbar added this pull request to the merge queue Jan 30, 2025

Merged via the queue into master with commit 876d36e Jan 30, 2025
4 checks passed

thbar deleted the irve-packing branch January 30, 2025 12:55

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Première version de l'agrégat brut IRVE statique #4397

Première version de l'agrégat brut IRVE statique #4397

thbar commented Dec 18, 2024 •

edited

Loading

thbar left a comment

ptitfred left a comment

thbar commented Jan 30, 2025

ptitfred left a comment

Première version de l'agrégat brut IRVE statique #4397

Première version de l'agrégat brut IRVE statique #4397

Conversation

thbar commented Dec 18, 2024 • edited Loading

Exemple d'output

Notes techniques

Echange avec biz-dev

Prochaines étapes

thbar left a comment

Choose a reason for hiding this comment

ptitfred left a comment

Choose a reason for hiding this comment

thbar commented Jan 30, 2025

ptitfred left a comment

Choose a reason for hiding this comment

thbar commented Dec 18, 2024 •

edited

Loading