Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Première version de l'agrégat brut IRVE statique #4397

Merged
merged 89 commits into from
Jan 30, 2025
Merged

Première version de l'agrégat brut IRVE statique #4397

merged 89 commits into from
Jan 30, 2025

Conversation

thbar
Copy link
Contributor

@thbar thbar commented Dec 18, 2024

Dans cette PR, une première itération de la construction d'un fichier IRVE consolidé statique à partir des ressources présentes sur data gouv, avec les restrictions suivantes:

  • pas de dédoublonnage ni de "validation" au sens TableSchema / frictionless / validata
  • un typage fort sur les colonnes par contre
  • une récupération uniquement des ressources marquées du format "etalab/schema-irve-statique"

Le tout peut être lancé localement avec mix run scripts/irve/data-frame.exs.

Note: les commentaires restant le sont volontairement, car j'itère beaucoup sur le code qui reste un script actuellement.

La prochaine PR déplacera le code (refactoring) au propre dans des éléments applicatifs et avec des modules plus structurés.

L'idée est déjà de passer cette première PR pour pouvoir itérer sur la suite, car il y a un volume de code déjà important.

Les questions sont bienvenues, les refactorings attendront probablement le prochain tour toutefois (vu que c'est déjà prévu).

Exemple d'output

Voir Archive.zip, avec:

  • data-tmp/irve-consolidation.csv : un fichier avec tous les PDC qu'on aura réussi à lire
  • data-tmp/irve-report.csv : une liste des ressources analysées, avec rapport d'erreur, estimation du nombre de PDC etc

Notes techniques

Le script extrait des DataFrame avec des colonnes un peu plus flexibles initialement (ex: booléen stockés en tant que string), qui sont ensuite remappé puis castées vers le bon type.

Le tout semble bien rapide (et pourrait encore être optimisé à quelques endroits).

Le résultat donne un DataFrame résultat de la concaténation de tout ce qu'on a réussi à lire, qui peut facilement être dumpé vers un csv (et on pourra également facilement appliquer des statistiques dessus).

Echange avec biz-dev

Le comportement actuel a été présenté à @stephane-pignal et @AurelienC et constitue un développement itératif avec eux (merci !).

Les prochaines étapes sont spécifiées / notées dans Notion.

Prochaines étapes

  • Refactoring de ce code pour le rendre plus simple à comprendre
  • Améliorations pour élargir le nombre de PDC récupérés
  • Publication en dataset caché toutes les nuits pour itérer plus facilement avec la team biz-dev

@thbar thbar changed the title [WIP] Agrégat brut IRVE Première version de l'agrégat brut IRVE statique Jan 21, 2025
Copy link
Contributor Author

@thbar thbar left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Le tout est prêt pour review, j'ai mis pas mal de notes.

Attention le code est très script-ish, et sera mis au carré dans la prochaine PR, avec "promotion" du code vers des modules applicatifs organisés, maintenant que j'y vois plus clair.

@thbar thbar marked this pull request as ready for review January 21, 2025 21:46
@thbar thbar requested a review from a team as a code owner January 21, 2025 21:46
@ptitfred ptitfred self-assigned this Jan 22, 2025
Copy link
Contributor

@ptitfred ptitfred left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

J'ai laissé des commentaires et suggestions, rien de rédhibitoire pour autant.

@thbar
Copy link
Contributor Author

thbar commented Jan 30, 2025

Merci @ptitfred pour ta review, c'était productif, j'ai pris en compte ou répondu.

Copy link
Contributor

@ptitfred ptitfred left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

🚀

@thbar thbar added this pull request to the merge queue Jan 30, 2025
Merged via the queue into master with commit 876d36e Jan 30, 2025
4 checks passed
@thbar thbar deleted the irve-packing branch January 30, 2025 12:55
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
IRVE Sujets liés aux données d'infrastructures de recharge pour véhicule électrique
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants