- •Лабораторная работа № 4
- •Шаги работы
- •Описание выборкиНабор данных о пассажирах Титаника – Titanic
- •Разведочный анализ
- •Зависимости признаков
- •Данные по посадке пассажиров
- •Тепловые карты признаков
- •Можно сделать вывод, что высоких корреляций не наблюдается. Мы можем выделить заметные соотношения
- •Транспортные расходы
- •Восполнение недостающих данных
- •Предсказание возраста
- •Предсказание возраста
- •Конструирование признаков
- •Итоговые данные для прогнозирования
- •Прогнозирование: на исходных признаках
- •Дерево решений
- •Логистическая регрессия
- •Прогнозирование: с сконструированными признаками
- •Логистическая регрессия
- •Случайный лес
- •Градиентный бустинг
- •Работа модели на новых данных
- •Тестовый датасет не имеет информации о том, выжил ли пассажир. Это предстоит узнать
- •Дерево решений с тюнингом гиперпараметров
- •Результат работы на новых данных
Лабораторная работа № 4
ОБРАБОТКА И АНАЛИЗ РЕАЛЬНЫХ МАССИВОВ ДАННЫХ
Набор данных о пассажирах Титаника – Titanic
А-01-20 Дашин Илья
Шаги работы
1.Описание выборки
2.Разведочный анализ
3.Восполнение недостающих данных с помощью методов анализа данных
4.Конструирование признаков
5.Прогнозирование
Описание выборкиНабор данных о пассажирах Титаника – Titanic
Датасет Титаник содержит данные пассажиров корабля: |
|
• |
Признак Survived показывает, выжил ли пассажир или умер. |
• |
Pclass показывает класс, которым следовал пассажир – 1, 2 или 3. |
• Name, Sex, Age – соответственно имя, пол и возраст пассажира |
|
• SibSp - это число братьев, сестер или супругов на борту у человека. |
|
• |
Parch - количество родителей или детей, с которыми путешествовал пассажир. |
• Ticket – номер билета |
|
• Fare – транспортные расходы |
|
• |
Cabin – каюта пассажира |
• Embarked - информация о порте посадки пассажира. Есть три возможных значения для Embarked - Саутгемптон, Шербург и Куинстаун.
Разведочный анализ
RangeIndex: 891 entries, 0 to 890 |
|||||
Data columns (total 12 columns): |
|||||
# |
Column |
|
Non-Null Count Dtype |
||
--- |
------ |
-------------- ----- |
|
int64 |
|
0 |
PassengerId 891 non-null |
||||
1 |
Survived |
891 non-null |
|
int64 |
|
2 |
Pclass |
891 non-null |
int64 |
||
3 |
Name |
|
891 non-null |
|
object |
4 |
Sex |
891 non-null |
object |
||
5 |
Age |
714 non-null |
float64 |
||
6 |
SibSp |
|
891 non-null |
int64 |
|
7 |
Parch |
891 non-null |
int64 |
||
8 |
Ticket |
891 non-null |
object |
||
9 |
Fare |
891 non-null |
float64 |
||
10 |
Cabin |
|
204 non-null |
|
object |
11 |
Embarked |
889 non-null |
object |
Анализ значений выборки показывает, что поле Age имеет почти 200 незаполненных значений, Embarked – два незаполненных значения, Cabin и вовсе имеет очень мало записей с информацией. В будущем нам придется либо восполнять эти данные либо не использовать данные этих полей для анализа.
Зависимости признаков
Приведем графическое отображение показателей выборки, из которых можно получить какие либо заключения.
Данные по посадке пассажиров
Тепловые карты признаков
Отобразим тепловые карты по имеющимся признакам чтобы выявить корреляции между ними. В данном случае будет уместно рассмотреть численные признаки отдельно от всех.
Можно сделать вывод, что высоких корреляций не наблюдается. Мы можем выделить заметные соотношения между классом пассажира и его транспортных расходов (логично) а также с его возрастом – молодые люди с меньшей вероятностью могут позволить себе дорогую поездку.