Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

📜 CLUSTERING: amélioration config #1231

Open
wants to merge 3 commits into
base: main
Choose a base branch
from
Open

Conversation

maxcorbeau
Copy link
Contributor

📜 CLUSTERING: amélioration config

Carte Notion : CLUSTERING - Améliorations - Config

  • 💡 quoi:
    • amélioration de la config avec du pydantic
    • bonus 0 sources = toutes les sources
  • 🎯 pourquoi:
    • simplifier et fiabiliser la gestion de la conf
    • éviter au métier d'avoir à préciser toutes les sources quand on veut clusteriser sur un type d'acteur dans sa globalité
  • 🤔 comment:
    • Création d'un modèle + tests pydantic pour la conf + étendre l'utilitaire log.preview conformément
    • 🧹 Supression de la fonction de business logic cluster_acteurs_config_validate qui est gérée par pydantic
    • ✏️ Nomenclature:
      • on utilise “config” et pas simplement “params” pour bien montrer que la config va au delà des params airflow (logique métier, conversion des codes en ID etc…), et que les tâches récupèrent des champs qui potentiellement n’existent pas dans les params airflow (ex: include_source_ids, include_acteur_type_ids, fields_used etc...)
      • on renomme “validate” en “create” pour montrer qu’on fait autre chose que de la validation (=pas de changement) mais bien de la création avec des enrichissements

🖼️ Exemple

Rien fournis en include_source_codes via airflow:

image

image

Et le modèle qui vient donc tout remplir en include_source_ids:

image

Prochaine PR:

  • Autoriser les critères de sélection qui retourne 0 acteurs: maintenant qu'on est confiant avec la config pour permettre à la pipeline de tourner en mode autopilot à l'avenir pour générer des suggestions de clustering en continue (ce qui implique que parfois il y aura 0 suggestions mais on ne veut pas que cela génère des erreurs pour autant)

@maxcorbeau maxcorbeau requested a review from a team as a code owner January 20, 2025 14:23
@maxcorbeau maxcorbeau requested review from kolok and fabienheureux and removed request for a team January 20, 2025 14:23
Copy link

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

1 participant