import pandas as pd
train_data = pd.read_csv("datasets/titanic_train.csv")
test_data = pd.read_csv("datasets/titanic_test.csv")


train_data.head()


train_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


train_data.describe()


train_data['Survived'].value_counts()

0    549
1    342
Name: Survived, dtype: int64


train_data['Pclass'].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64


train_data['Sex'].value_counts()

male      577
female    314
Name: Sex, dtype: int64


train_data['Embarked'].value_counts()

S    644
C    168
Q     77
Name: Embarked, dtype: int64


from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
from sklearn.pipeline import Pipeline


data = train_data.drop('Survived', axis=1)
label = train_data['Survived'].copy()


num_attribs = ['Age', 'SibSp', 'Parch', 'Fare']
cat_attribs = ['Pclass', 'Sex', 'Embarked']


from sklearn.base import BaseEstimator, TransformerMixin
import numpy as np

col_names = "SibSp", "Parch"
# 열 인덱스
SibSp_ix, Parch_ix = [num_attribs.index(c) for c in col_names]

class CombinedAttributesAdder(BaseEstimator, TransformerMixin): 
    def fit(self, X):
        return self
    
    def transform(self, X):
        RelativesOnboard = X[:, SibSp_ix] + X[:, Parch_ix] + 1
        return np.c_[X, RelativesOnboard]


# 1. 누락값을 most_frequent로 대체
# 2. OneHot Encoding


cat_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='most_frequent')),
    ('cat', OneHotEncoder(sparse=False))
])


tmp = cat_pipeline.fit_transform(data[cat_attribs])


tmp.shape

(891, 8)


# 1. 누락값을 median로 대체


num_pipeline = Pipeline([
    ('imputer', SimpleImputer(strategy='median')),
    ('attribs_adder', CombinedAttributesAdder())
])


tmp2 = num_pipeline.fit_transform(data[num_attribs])


tmp2.shape

(891, 5)


from sklearn.compose import ColumnTransformer


full_pipeline = ColumnTransformer([
    ('cat', cat_pipeline, cat_attribs),
    ('num', num_pipeline, num_attribs)
])


data_prepared = full_pipeline.fit_transform(data)


data_prepared.shape

(891, 13)


data.head(10)


# 참고
# columns = []
# cat_encoder = full_pipeline.named_transformers_["cat"]["cat"]

# for i in range(len(cat_encoder.categories_)):
#     columns.extend(cat_encoder.categories_[i])
# columns


cat_encoder = full_pipeline.named_transformers_["cat"]["cat"]
columns = list(cat_encoder.get_feature_names(cat_attribs))
columns

['Pclass_1',
 'Pclass_2',
 'Pclass_3',
 'Sex_female',
 'Sex_male',
 'Embarked_C',
 'Embarked_Q',
 'Embarked_S']


pd.DataFrame(data_prepared, columns = columns+num_attribs+['RelativesOnboard'])


columns = ['Pclass_1', 'Pclass_2', 'Pclass_3', 'female', 'male', 'Embarked_C', 'Embarked_Q', 'Embarked_S'] + num_attribs + ['RelativesOnboard']
pd.DataFrame(data_prepared, columns=columns)

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S

	PassengerId	Survived	Pclass	Age	SibSp	Parch	Fare
count	891.000000	891.000000	891.000000	714.000000	891.000000	891.000000	891.000000
mean	446.000000	0.383838	2.308642	29.699118	0.523008	0.381594	32.204208
std	257.353842	0.486592	0.836071	14.526497	1.102743	0.806057	49.693429
min	1.000000	0.000000	1.000000	0.420000	0.000000	0.000000	0.000000
25%	223.500000	0.000000	2.000000	20.125000	0.000000	0.000000	7.910400
50%	446.000000	0.000000	3.000000	28.000000	0.000000	0.000000	14.454200
75%	668.500000	1.000000	3.000000	38.000000	1.000000	0.000000	31.000000
max	891.000000	1.000000	3.000000	80.000000	8.000000	6.000000	512.329200

	PassengerId	Pclass	Name	Sex	Age	SibSp	Parch	Ticket	Fare	Cabin	Embarked
0	1	3	Braund, Mr. Owen Harris	male	22.0	1	0	A/5 21171	7.2500	NaN	S
1	2	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	0	PC 17599	71.2833	C85	C
2	3	3	Heikkinen, Miss. Laina	female	26.0	0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	0	113803	53.1000	C123	S
4	5	3	Allen, Mr. William Henry	male	35.0	0	0	373450	8.0500	NaN	S
5	6	3	Moran, Mr. James	male	NaN	0	0	330877	8.4583	NaN	Q
6	7	1	McCarthy, Mr. Timothy J	male	54.0	0	0	17463	51.8625	E46	S
7	8	3	Palsson, Master. Gosta Leonard	male	2.0	3	1	349909	21.0750	NaN	S
8	9	3	Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)	female	27.0	0	2	347742	11.1333	NaN	S
9	10	2	Nasser, Mrs. Nicholas (Adele Achem)	female	14.0	1	0	237736	30.0708	NaN	C

	Pclass_1	Pclass_2	Pclass_3	Sex_female	Sex_male	Embarked_C	Embarked_Q	Embarked_S	Age	SibSp	Parch	Fare	RelativesOnboard
0	0.0	0.0	1.0	0.0	1.0	0.0	0.0	1.0	22.0	1.0	0.0	7.2500	2.0
1	1.0	0.0	0.0	1.0	0.0	1.0	0.0	0.0	38.0	1.0	0.0	71.2833	2.0
2	0.0	0.0	1.0	1.0	0.0	0.0	0.0	1.0	26.0	0.0	0.0	7.9250	1.0
3	1.0	0.0	0.0	1.0	0.0	0.0	0.0	1.0	35.0	1.0	0.0	53.1000	2.0
4	0.0	0.0	1.0	0.0	1.0	0.0	0.0	1.0	35.0	0.0	0.0	8.0500	1.0
...	...	...	...	...	...	...	...	...	...	...	...	...	...
886	0.0	1.0	0.0	0.0	1.0	0.0	0.0	1.0	27.0	0.0	0.0	13.0000	1.0
887	1.0	0.0	0.0	1.0	0.0	0.0	0.0	1.0	19.0	0.0	0.0	30.0000	1.0
888	0.0	0.0	1.0	1.0	0.0	0.0	0.0	1.0	28.0	1.0	2.0	23.4500	4.0
889	1.0	0.0	0.0	0.0	1.0	1.0	0.0	0.0	26.0	0.0	0.0	30.0000	1.0
890	0.0	0.0	1.0	0.0	1.0	0.0	1.0	0.0	32.0	0.0	0.0	7.7500	1.0

공부 기록

공부 기록

ML(0809_day4) - 실습_Predict survival on the Titanic - using scikit-learn 본문

ML(0809_day4) - 실습_Predict survival on the Titanic - using scikit-learn

타이타닉 데이터셋 도전¶

1. 데이터 적재¶

2. 데이터 탐색¶

train_data 살펴보기¶

누락 데이터 살펴보기¶

통계치 살펴보기¶

Survived(머신러닝에서 타깃)가 0과 1로 이루어졌는지 확인¶

범주형(카테고리) 특성들을 확인¶

3. 전처리 파이프라인¶

'playdata' 카테고리의 다른 글

티스토리툴바

[0809]정리 - pipeline, 교차검증 (0)	2021.08.09
ML(0809_day4) - 실습_캘리포니아 주택 가격 예측하기(모델 선택과 훈련) (0)	2021.08.09
ML(0809_day4) - 실습_Concrete Compressive Strength Dataset (0)	2021.08.09
ML(0809_day4) - 교차 검증 예제 (0)	2021.08.09
[0808]정리 - Python 객체와 클래스 (0)	2021.08.08