Команда Team work makes the dream work
СОАВТОРЫ: https://github.com/linafrolova, https://github.com/daryakryukova, https://github.com/LobachArtemiy
Цель нашего проекта заключается в обучении регрессионной модели, способной с высокой точностью предсказывать выживаемость клеток при обработке наночастицами в зависимости от их физико-химических характеристик наночастиц. В процессе работы мы соединили 5 баз данных, содержащих различающиеся дескрипторы наноматериалов, заполнили в них пустоты, исправили ошибки и очистили от выбросов. Далее были выбраны наиболее значимые дескрипторы из уже имеющихся и сгенерированы новые дескрипторы при помощи pymatgen, среди которых наиболее эффективными оказались dose_time (время*концентрация), average electronegativity, electron_affinity(). Данные дескрипторы также оказались наиболее важными по feature importance, что означает, что они вносят наибольший вклад в значение, предсказываемое моделью. Мы обучили несколько ансамблевых моделей, SDGRRegressor, CatBoostRegressor, AdaBoostRegressor, MLPRegressor, RandomForest, и добились максимального значения score, равного 0,637.
Данные лежат в папке data (сырые датасеты, финальный датасет)
Инструкция:
- Зайти в папку notebooks
- Открыть файл data1
- Нажать оранжевую Open in Colab
- Запустить все ячейки по порядку
- Остальные файлы запустить по порядку нумерации