🔨 Clustering: bux fixes et amélioration logs Airflow #1223
Merged
Add this suggestion to a batch that can be applied as a single commit.
This suggestion is invalid because no changes were made to the code.
Suggestions cannot be applied while the pull request is closed.
Suggestions cannot be applied while viewing a subset of changes.
Only one suggestion per line can be applied in a batch.
Add this suggestion to a batch that can be applied as a single commit.
Applying suggestions on deleted lines is not supported.
You must change the existing code in this line in order to create a valid suggestion.
Outdated suggestions cannot be applied.
This suggestion has been applied or marked resolved.
Suggestions cannot be applied from pending reviews.
Suggestions cannot be applied on multi-line comments.
Suggestions cannot be applied while the pull request is queued to merge.
Suggestion cannot be applied right now. Please check back later.
🔨 Clustering: bux fixes et amélioration logs Airflow
Carte Notion : CLUSTERING - DAG airflow - Scénarios de validation
bug fix exclusion clusters
:df.empty
->if len(df) < 2:
, on ignore les clusters de taille inférieur à 2bug fix debug
: j'avais ajouté + de debug à la fonctioncluster_acteurs_suggestions
: j'ai tout commenté, on garde le debug au fur et à mesure de la logique de clustering.amélioration UI
: avec fonctioncluster_acteurs_df_sort
, voir ci-dessous🖼️ Améliorations UI
Grâce à la fonction
cluster_acteurs_df_sort
qui permet de mieux suivre la progressive construction des clusters tout au long de la pipeline (sélection -> normalisation -> suggestions) même en dehors des tâches de clustering, en implémentant du sortage de colonnes/valeurs en semi dynamique-préférentiel.Sélection
On privilégie la sémantique (code postal, ville etc...) pour voir les clusters se dessiner (si on groupait par code source/acteur on perdrait cette vue):
Normalisation
Comme pour sélection:
Suggestions
Là en revanche on privilégie les champs tels que l'algo de clustering les utilisent avec
cluster_id
+codes
en 1er pour rapidement déceler des problèmes intra-source our extra-acteur type non désirés: