Данный проект посвящен изучению алгоритма Случайных Лесов (Random Forest) как для задач классификации, так и для регрессии. Мы также проводим сравнительный анализ различных методов регрессии, чтобы понять их эффективность в решении задачи предсказания.
- Часть 1: Классификация с использованием случайных лесов
- Часть 2: Регрессия с использованием случайных лесов
- Сравнительный анализ методов регрессии
- Заключение
Мы используем набор данных "Palmer Penguins" для классификации видов пингвинов на основе их физических атрибутов. Данные содержат следующие переменные:
- species: разновидности пингвинов (Chinstrap, Adélie, Gentoo)
- culmen_length_mm: длина клюва (мм)
- culmen_depth_mm: высота клюва (мм)
- flipper_length_mm: длина крыла (мм)
- body_mass_g: масса тела (г)
- island: название острова
- sex: пол пингвина
Создать модель классификации, которая поможет определять вид пингвина на основе его физических атрибутов, упрощая работу исследователей без привлечения опытного биолога.
Мы исследуем влияние гиперпараметров случайного леса, таких как количество деревьев (Number of Estimators), и визуализируем зависимость ошибок от количества деревьев.
Используются данные буровой компании для предсказания плотности камня по отраженному сигналу на различных частотах. Это помогает в оптимизации замены буровых головок.
Определить наиболее эффективную модель регрессии для предсказания изменения плотности камня.
Для выполнения задачи регрессии были использованы следующие модели:
- Линейная регрессия
- Полиномиальная регрессия
- Пайплайн для степеней полинома
- Регрессия KNN
- Деревья решений для регрессии
- Метод опорных векторов для регрессии
- Случайные леса для регрессии
- Градиентный бустинг
- Adaboost
Мы сравниваем производительность каждой модели, оценивая их точность и ошибки на тестовых данных.
В проекте были изучены возможности алгоритма случайных лесов для классификации и регрессии. Сравнительный анализ различных методов регрессии позволил выявить их сильные и слабые стороны в контексте специфической задачи.