Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

🔨 Clustering: bux fixes et amélioration logs Airflow #1223

Merged
merged 5 commits into from
Jan 16, 2025

Conversation

maxcorbeau
Copy link
Contributor

@maxcorbeau maxcorbeau commented Jan 16, 2025

🔨 Clustering: bux fixes et amélioration logs Airflow

Carte Notion : CLUSTERING - DAG airflow - Scénarios de validation

  • 💡 quoi: bug fixes + amélioration infos Airflow
  • 🎯 pourquoi: permettre à @chrischarousset d'utiliser et mieux comprendre la pipeline
  • 🤔 comment:
    • bug fix exclusion clusters: df.empty -> if len(df) < 2: , on ignore les clusters de taille inférieur à 2
    • bug fix debug: j'avais ajouté + de debug à la fonction cluster_acteurs_suggestions: j'ai tout commenté, on garde le debug au fur et à mesure de la logique de clustering.
      • Je vais créer une fonction/tâche séparée dans Airflow pour comprendre pourquoi certains acteurs ne sont pas clusterisé
    • amélioration UI: avec fonction cluster_acteurs_df_sort , voir ci-dessous

🖼️ Améliorations UI

Grâce à la fonction cluster_acteurs_df_sort qui permet de mieux suivre la progressive construction des clusters tout au long de la pipeline (sélection -> normalisation -> suggestions) même en dehors des tâches de clustering, en implémentant du sortage de colonnes/valeurs en semi dynamique-préférentiel.

Sélection

On privilégie la sémantique (code postal, ville etc...) pour voir les clusters se dessiner (si on groupait par code source/acteur on perdrait cette vue):

image

Normalisation

Comme pour sélection:

image

Suggestions

Là en revanche on privilégie les champs tels que l'algo de clustering les utilisent avec cluster_id + codes en 1er pour rapidement déceler des problèmes intra-source our extra-acteur type non désirés:

image

@maxcorbeau maxcorbeau requested a review from a team as a code owner January 16, 2025 14:02
@maxcorbeau maxcorbeau requested review from kolok and fabienheureux and removed request for a team January 16, 2025 14:02
Copy link
Contributor

@kolok kolok left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Une remarque sur l'utilisation de print mais all good pour moi

@maxcorbeau maxcorbeau merged commit 9a6f805 into main Jan 16, 2025
11 checks passed
@maxcorbeau maxcorbeau deleted the cluster_acteurs_v3 branch January 16, 2025 16:19
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants