Skip to content

AnastasiyaKrokhina/DataCon-time-1

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

27 Commits
 
 
 
 
 
 
 
 

Repository files navigation

DataCon-time-1

Команда Team work makes the dream work

СОАВТОРЫ: https://github.com/linafrolova, https://github.com/daryakryukova, https://github.com/LobachArtemiy

Цель нашего проекта заключается в обучении регрессионной модели, способной с высокой точностью предсказывать выживаемость клеток при обработке наночастицами в зависимости от их физико-химических характеристик наночастиц. В процессе работы мы соединили 5 баз данных, содержащих различающиеся дескрипторы наноматериалов, заполнили в них пустоты, исправили ошибки и очистили от выбросов. Далее были выбраны наиболее значимые дескрипторы из уже имеющихся и сгенерированы новые дескрипторы при помощи pymatgen, среди которых наиболее эффективными оказались dose_time (время*концентрация), average electronegativity, electron_affinity(). Данные дескрипторы также оказались наиболее важными по feature importance, что означает, что они вносят наибольший вклад в значение, предсказываемое моделью. Мы обучили несколько ансамблевых моделей, SDGRRegressor, CatBoostRegressor, AdaBoostRegressor, MLPRegressor, RandomForest, и добились максимального значения score, равного 0,637.

Данные лежат в папке data (сырые датасеты, финальный датасет)

Инструкция:

  1. Зайти в папку notebooks
  2. Открыть файл data1
  3. Нажать оранжевую Open in Colab
  4. Запустить все ячейки по порядку
  5. Остальные файлы запустить по порядку нумерации

Releases

No releases published

Packages

No packages published