Releases: CinthiaS/mv-text-summarizer
Releases · CinthiaS/mv-text-summarizer
V1.0.0
V0.0.9
mv-text-summarizer
Steps
- Segment Dataset
python create_dataset/segmentation.py
- Extract Features: Extrai as features dos documentos segmentados e gera os rótulos das sentenças
python src/main_extract_features.py
- Create Dataset: Cria o dataset utilizado para treinamento dos algoritmos. Os dados serão normalizados e balanceados.
python src/main_create_dataset.py
-
Input: Matrizes de features e lista com o nome dos arquivos utilizados como test.
dataset/introduction.csv
dataset/materials.csv
dataset/conclusion.csv
dataset/indices_summ.csv
Output Format: Dicionary = {X_train: pd.DataFrame,
X_test: pd.DataFrame,
y_train: list,
y_test: list,
X_train_nf: pd.DataFrame,
X_test_nf: pd.DataFrame}
- Create embeddings: As matrixes são adicionadas no dataframe anterior
python src/create_embeddings.py
Output Format: Dicionary = {X_train: pd.DataFrame,
X_test: pd.DataFrame,
y_train: list,
y_test: list,
X_train_nf: pd.DataFrame,
X_test_nf: pd.DataFrame,
X_train_embbed: pd.DataFrame,
X_test_embbed: pd.DataFrame}
- View Fusion: As matrixes são adicionadas no dataframe anterior.
python src/autoencoders.py
Output Format: Dicionary = {X_train: pd.DataFrame,
X_test: pd.DataFrame,
y_train: list,
y_test: list,
X_train_nf: pd.DataFrame,
X_test_nf: pd.DataFrame,
X_train_embbed: pd.DataFrame,
X_test_embbed: pd.DataFrame,
X_train_f1: pd.DataFrame,
X_test_f1: pd.DataFrame}
- Tunning
python src/pipeline_tunning.py
- Train Classifiers
python src/pipeline_classifiers.py
- Summarization and Evaluate
python src/pipeline_summarization.py
All process can be executed running main.py