-
Notifications
You must be signed in to change notification settings - Fork 31
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Première version de l'agrégat brut IRVE statique #4397
Conversation
This allows to differentiate "non latin 1" CSV files from binary (pdf/jpg etc) files which are incorrectly marked as IRVE.
…ter to handle it)
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Le tout est prêt pour review, j'ai mis pas mal de notes.
Attention le code est très script-ish, et sera mis au carré dans la prochaine PR, avec "promotion" du code vers des modules applicatifs organisés, maintenant que j'y vois plus clair.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
J'ai laissé des commentaires et suggestions, rien de rédhibitoire pour autant.
Co-authored-by: Frédéric Menou <[email protected]>
Merci @ptitfred pour ta review, c'était productif, j'ai pris en compte ou répondu. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
🚀
Dans cette PR, une première itération de la construction d'un fichier IRVE consolidé statique à partir des ressources présentes sur data gouv, avec les restrictions suivantes:
Le tout peut être lancé localement avec
mix run scripts/irve/data-frame.exs
.Note: les commentaires restant le sont volontairement, car j'itère beaucoup sur le code qui reste un script actuellement.
La prochaine PR déplacera le code (refactoring) au propre dans des éléments applicatifs et avec des modules plus structurés.
L'idée est déjà de passer cette première PR pour pouvoir itérer sur la suite, car il y a un volume de code déjà important.
Les questions sont bienvenues, les refactorings attendront probablement le prochain tour toutefois (vu que c'est déjà prévu).
Exemple d'output
Voir Archive.zip, avec:
data-tmp/irve-consolidation.csv
: un fichier avec tous les PDC qu'on aura réussi à liredata-tmp/irve-report.csv
: une liste des ressources analysées, avec rapport d'erreur, estimation du nombre de PDC etcNotes techniques
Le script extrait des
DataFrame
avec des colonnes un peu plus flexibles initialement (ex: booléen stockés en tant que string), qui sont ensuite remappé puis castées vers le bon type.Le tout semble bien rapide (et pourrait encore être optimisé à quelques endroits).
Le résultat donne un
DataFrame
résultat de la concaténation de tout ce qu'on a réussi à lire, qui peut facilement être dumpé vers un csv (et on pourra également facilement appliquer des statistiques dessus).Echange avec biz-dev
Le comportement actuel a été présenté à @stephane-pignal et @AurelienC et constitue un développement itératif avec eux (merci !).
Les prochaines étapes sont spécifiées / notées dans Notion.
Prochaines étapes