DataScienceComp

EDA and modeling pipeline for Kaggle-like competitions

Note that this repository is under development so there may be some bugs.

Basic usage

After cloning this repository, you define the following variables in your jupyter notebook:

train_df: train pandas dataframe
test_df: test pandas dataframe
target: target column name (str)
features: list of feature names
categoricals: list of categorical feature names. Note that categoricals need to be in 'features'
model: 'lgb', 'xgb', 'catb', 'linear', or 'nn'
task: 'regression', 'multiclass', or 'binary'
n_splits: K in KFold (default is 4)
cv_method: 'KFold', 'StratifiedKFold', 'TimeSeriesSplit', 'GroupKFold', 'StratifiedGroupKFold'
group: group feature name when GroupKFold or StratifiedGroupKFold are used (otherwise None)
scaler: None, 'MinMax', 'Standard'

Then run the model like the following:

# fit LGB regression model
model = RunModel(train_df, test_df, target, features,     
        categoricals=categoricals, target_encoding=False, model="lgb", 
        task="regression", n_splits=4, cv_method="KFold", 
        group=None, seed=116, scaler=None)

To visualize feature importance:

# compute feature importance for visualization
sorted_feature_importance_df = model.plot_feature_importance()

Name		Name	Last commit message	Last commit date
Latest commit History 97 Commits
code		code
models		models
.gitignore		.gitignore
EDA_houseprice.ipynb		EDA_houseprice.ipynb
EDA_titanic.ipynb		EDA_titanic.ipynb
LICENSE		LICENSE
README.md		README.md
modeling_server_setups.md		modeling_server_setups.md
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DataScienceComp

Basic usage

About

Releases

Packages

Languages

License

katsu1110/DataScienceComp

Folders and files

Latest commit

History

Repository files navigation

DataScienceComp

Basic usage

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages