playdata

ML(0805_day2) - 실습_캘리포니아 주택 가격 예측하기(데이터 전처리)

_JAEJAE_ 2021. 8. 5. 17:25

캘리포니아 주택 가격 예측¶

In [1]:

import sklearn

In [2]:

sklearn.__version__

Out[2]:

'0.24.1'

데이터 가져오기¶

In [3]:

import pandas as pd

housing = pd.read_csv('datasets/housing.csv')

데이터 훑어보기¶

In [4]:

housing.head()

Out[4]:

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income	median_house_value	ocean_proximity
0	-122.23	37.88	41.0	880.0	129.0	322.0	126.0	8.3252	452600.0	NEAR BAY
1	-122.22	37.86	21.0	7099.0	1106.0	2401.0	1138.0	8.3014	358500.0	NEAR BAY
2	-122.24	37.85	52.0	1467.0	190.0	496.0	177.0	7.2574	352100.0	NEAR BAY
3	-122.25	37.85	52.0	1274.0	235.0	558.0	219.0	5.6431	341300.0	NEAR BAY
4	-122.25	37.85	52.0	1627.0	280.0	565.0	259.0	3.8462	342200.0	NEAR BAY

longitude : 경도
latitude : 위도
housing_median_age : 주택 나이(중앙값)
total_rooms : 전체 방 수
total_bedrooms : 전체 침실 수
population : 인구 수
households : 세대 수
median_income : 소득(중앙값)
median_house_value : 주택 가치(중앙값)
ocean_proximity : 바다 근접도

In [5]:

housing.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB

In [7]:

housing['ocean_proximity'].value_counts()

Out[7]:

<1H OCEAN     9136
INLAND        6551
NEAR OCEAN    2658
NEAR BAY      2290
ISLAND           5
Name: ocean_proximity, dtype: int64

In [8]:

housing.describe()

Out[8]:

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income	median_house_value
count	20640.000000	20640.000000	20640.000000	20640.000000	20433.000000	20640.000000	20640.000000	20640.000000	20640.000000
mean	-119.569704	35.631861	28.639486	2635.763081	537.870553	1425.476744	499.539680	3.870671	206855.816909
std	2.003532	2.135952	12.585558	2181.615252	421.385070	1132.462122	382.329753	1.899822	115395.615874
min	-124.350000	32.540000	1.000000	2.000000	1.000000	3.000000	1.000000	0.499900	14999.000000
25%	-121.800000	33.930000	18.000000	1447.750000	296.000000	787.000000	280.000000	2.563400	119600.000000
50%	-118.490000	34.260000	29.000000	2127.000000	435.000000	1166.000000	409.000000	3.534800	179700.000000
75%	-118.010000	37.710000	37.000000	3148.000000	647.000000	1725.000000	605.000000	4.743250	264725.000000
max	-114.310000	41.950000	52.000000	39320.000000	6445.000000	35682.000000	6082.000000	15.000100	500001.000000

In [9]:

import matplotlib.pyplot as plt

In [10]:

housing.hist(bins=50, figsize=(20, 15))
plt.show()

테스트 세트 분리¶

In [11]:

from sklearn.model_selection import train_test_split

In [12]:

train_set, test_set = train_test_split(housing, test_size=0.2, random_state=42)

In [14]:

test_set.head()

Out[14]:

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income	median_house_value	ocean_proximity
20046	-119.01	36.06	25.0	1505.0	NaN	1392.0	359.0	1.6812	47700.0	INLAND
3024	-119.46	35.14	30.0	2943.0	NaN	1565.0	584.0	2.5313	45800.0	INLAND
15663	-122.44	37.80	52.0	3830.0	NaN	1310.0	963.0	3.4801	500001.0	NEAR BAY
20484	-118.72	34.28	17.0	3051.0	NaN	1705.0	495.0	5.7376	218600.0	<1H OCEAN
9814	-121.93	36.62	34.0	2351.0	NaN	1063.0	428.0	3.7250	278000.0	NEAR OCEAN

In [15]:

housing['median_income'].hist()

Out[15]:

<AxesSubplot:>

In [19]:

import numpy as np

housing['income_cat'] = pd.cut(housing['median_income'], bins=[0., 1.5, 3., 4.5, 6., np.inf], labels=[1, 2, 3, 4, 5])

In [20]:

housing['income_cat'].value_counts()

Out[20]:

3    7236
2    6581
4    3639
5    2362
1     822
Name: income_cat, dtype: int64

In [22]:

housing['income_cat'].hist()

Out[22]:

<AxesSubplot:>

income_cat의 비율을 유지하면서 데이터 랜덤으로 나누기, 계층별 샘플링¶

option 1¶

In [27]:

from sklearn.model_selection import StratifiedShuffleSplit

split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)

for train_index, test_index in split.split(housing, housing['income_cat']):
    strat_train_set = housing.loc[train_index]
    strat_test_set = housing.loc[test_index]

- income_cat의 비율¶

In [31]:

housing['income_cat'].value_counts() / len(housing)

Out[31]:

3    0.350581
2    0.318847
4    0.176308
5    0.114438
1    0.039826
Name: income_cat, dtype: float64

1) 계층 정보(median_income)가 반영되어 샘플링된 테스트 데이터¶

In [30]:

strat_test_set['income_cat'].value_counts() / len(strat_test_set)

Out[30]:

3    0.350533
2    0.318798
4    0.176357
5    0.114583
1    0.039729
Name: income_cat, dtype: float64

2) 무작위 추출된 테스트 데이터¶

In [32]:

train_set, test_set = train_test_split(housing, test_size=0.2, random_state=42)
test_set['income_cat'].value_counts() / len(test_set)

Out[32]:

3    0.358527
2    0.324370
4    0.167393
5    0.109496
1    0.040213
Name: income_cat, dtype: float64

==> 계층 정보를 반영한 것이 무작위로 샘플링한 것보다 비율을 잘 반영해줌¶

option 2¶

In [34]:

train_set, test_set = train_test_split(housing, test_size=0.2, random_state=42, stratify= housing['income_cat'])

In [35]:

test_set['income_cat'].value_counts() / len(test_set)

Out[35]:

3    0.350533
2    0.318798
4    0.176357
5    0.114583
1    0.039729
Name: income_cat, dtype: float64

- 비율에 맞게 나눈 후에는 income_cat 컬럼 사용할 일 없기 때문에 지우기¶

In [36]:

strat_train_set.drop('income_cat', axis=1, inplace=True)
strat_test_set.drop('income_cat', axis=1, inplace=True)

In [37]:

strat_train_set.head()

Out[37]:

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income	median_house_value	ocean_proximity
17606	-121.89	37.29	38.0	1568.0	351.0	710.0	339.0	2.7042	286600.0	<1H OCEAN
18632	-121.93	37.05	14.0	679.0	108.0	306.0	113.0	6.4214	340600.0	<1H OCEAN
14650	-117.20	32.77	31.0	1952.0	471.0	936.0	462.0	2.8621	196900.0	NEAR OCEAN
3230	-119.61	36.31	25.0	1847.0	371.0	1460.0	353.0	1.8839	46300.0	INLAND
3555	-118.59	34.23	17.0	6592.0	1525.0	4459.0	1463.0	3.0347	254500.0	<1H OCEAN

지리적 데이터 시각화¶

In [38]:

housing.plot(kind='scatter', x='longitude', y='latitude')

Out[38]:

<AxesSubplot:xlabel='longitude', ylabel='latitude'>

In [39]:

housing.plot(kind='scatter', x='longitude', y='latitude', alpha=0.1)

Out[39]:

<AxesSubplot:xlabel='longitude', ylabel='latitude'>

s : 점이 population에 따라 크기 다름
c : 색이 median_house_value에 따라 다름

In [44]:

housing.plot(kind='scatter', x='longitude', y='latitude', alpha=0.4, 
             s=housing['population']/100, label='population', figsize=(10, 7), 
             c='median_house_value', cmap=plt.get_cmap('jet'), colorbar=True,
             sharex=False)

Out[44]:

<AxesSubplot:xlabel='longitude', ylabel='latitude'>

==> 해안가 주택 가격이 높음, 밀집지역이 주택 가격이 높음¶

상관관계 조사¶

In [46]:

corr_matrix = housing.corr()
corr_matrix

Out[46]:

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income	median_house_value
longitude	1.000000	-0.924664	-0.108197	0.044568	0.069608	0.099773	0.055310	-0.015176	-0.045967
latitude	-0.924664	1.000000	0.011173	-0.036100	-0.066983	-0.108785	-0.071035	-0.079809	-0.144160
housing_median_age	-0.108197	0.011173	1.000000	-0.361262	-0.320451	-0.296244	-0.302916	-0.119034	0.105623
total_rooms	0.044568	-0.036100	-0.361262	1.000000	0.930380	0.857126	0.918484	0.198050	0.134153
total_bedrooms	0.069608	-0.066983	-0.320451	0.930380	1.000000	0.877747	0.979728	-0.007723	0.049686
population	0.099773	-0.108785	-0.296244	0.857126	0.877747	1.000000	0.907222	0.004834	-0.024650
households	0.055310	-0.071035	-0.302916	0.918484	0.979728	0.907222	1.000000	0.013033	0.065843
median_income	-0.015176	-0.079809	-0.119034	0.198050	-0.007723	0.004834	0.013033	1.000000	0.688075
median_house_value	-0.045967	-0.144160	0.105623	0.134153	0.049686	-0.024650	0.065843	0.688075	1.000000

In [47]:

corr_matrix['median_house_value'].sort_values(ascending=False)

Out[47]:

median_house_value    1.000000
median_income         0.688075
total_rooms           0.134153
housing_median_age    0.105623
households            0.065843
total_bedrooms        0.049686
population           -0.024650
longitude            -0.045967
latitude             -0.144160
Name: median_house_value, dtype: float64

==> 소특이 높을수록 주택 가격이 높다

피어슨의 상관 계수(위키백과):

==> 선형관계에 있는 것들만 값이 나옴

In [45]:

from pandas.plotting import scatter_matrix

In [50]:

attributes = ['median_house_value', 'median_income', 'total_rooms', 'housing_median_age']
scatter_matrix(housing[attributes], figsize=(12, 8))

Out[50]:

array([[<AxesSubplot:xlabel='median_house_value', ylabel='median_house_value'>,
        <AxesSubplot:xlabel='median_income', ylabel='median_house_value'>,
        <AxesSubplot:xlabel='total_rooms', ylabel='median_house_value'>,
        <AxesSubplot:xlabel='housing_median_age', ylabel='median_house_value'>],
       [<AxesSubplot:xlabel='median_house_value', ylabel='median_income'>,
        <AxesSubplot:xlabel='median_income', ylabel='median_income'>,
        <AxesSubplot:xlabel='total_rooms', ylabel='median_income'>,
        <AxesSubplot:xlabel='housing_median_age', ylabel='median_income'>],
       [<AxesSubplot:xlabel='median_house_value', ylabel='total_rooms'>,
        <AxesSubplot:xlabel='median_income', ylabel='total_rooms'>,
        <AxesSubplot:xlabel='total_rooms', ylabel='total_rooms'>,
        <AxesSubplot:xlabel='housing_median_age', ylabel='total_rooms'>],
       [<AxesSubplot:xlabel='median_house_value', ylabel='housing_median_age'>,
        <AxesSubplot:xlabel='median_income', ylabel='housing_median_age'>,
        <AxesSubplot:xlabel='total_rooms', ylabel='housing_median_age'>,
        <AxesSubplot:xlabel='housing_median_age', ylabel='housing_median_age'>]],
      dtype=object)

In [54]:

housing.plot(kind='scatter', x='median_income', y='median_house_value', alpha=0.1)
plt.axis([0, 16, 0, 550000])

Out[54]:

(0.0, 16.0, 0.0, 550000.0)

특성 조합으로 실험¶

In [58]:

housing.head()

Out[58]:

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income	median_house_value	ocean_proximity	income_cat
0	-122.23	37.88	41.0	880.0	129.0	322.0	126.0	8.3252	452600.0	NEAR BAY	5
1	-122.22	37.86	21.0	7099.0	1106.0	2401.0	1138.0	8.3014	358500.0	NEAR BAY	5
2	-122.24	37.85	52.0	1467.0	190.0	496.0	177.0	7.2574	352100.0	NEAR BAY	5
3	-122.25	37.85	52.0	1274.0	235.0	558.0	219.0	5.6431	341300.0	NEAR BAY	4
4	-122.25	37.85	52.0	1627.0	280.0	565.0	259.0	3.8462	342200.0	NEAR BAY	3

<특성 추출>¶

- 가구 당 전체 방 수¶

In [62]:

housing['rooms_per_household'] = housing['total_rooms'] / housing['households']

- 전체 방 당 침실의 수¶

In [63]:

housing['bedrooms_per_room'] = housing['total_bedrooms'] / housing['total_rooms']

- 가구 당 인구 수¶

In [64]:

housing['population_per_household'] = housing['population'] / housing['households']

In [65]:

corr_matrix = housing.corr()
corr_matrix['median_house_value'].sort_values(ascending=False)

Out[65]:

median_house_value          1.000000
median_income               0.688075
rooms_per_household         0.151948
total_rooms                 0.134153
housing_median_age          0.105623
households                  0.065843
total_bedrooms              0.049686
population_per_household   -0.023737
population                 -0.024650
longitude                  -0.045967
latitude                   -0.144160
bedrooms_per_room          -0.255880
Name: median_house_value, dtype: float64

==> rooms_per_household, population_per_household는 total_rooms, population보다 median_house_value와의 상관 관계 더 높다,

데이터 전처리¶

In [68]:

print(strat_test_set.size, strat_train_set.size)

41280 165120

In [69]:

housing = strat_train_set.drop("median_house_value", axis=1)
housing_label = strat_train_set['median_house_value'].copy()

In [70]:

housing.shape

Out[70]:

(16512, 9)

In [71]:

housing_label.shape

Out[71]:

(16512,)

In [72]:

housing.isnull().sum()

Out[72]:

longitude               0
latitude                0
housing_median_age      0
total_rooms             0
total_bedrooms        158
population              0
households              0
median_income           0
ocean_proximity         0
dtype: int64

In [75]:

sample_incomplete_rows = housing[housing.isnull().any(axis=1)].head()

In [76]:

sample_incomplete_rows

Out[76]:

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income	ocean_proximity
4629	-118.30	34.07	18.0	3759.0	NaN	3296.0	1462.0	2.2708	<1H OCEAN
6068	-117.86	34.01	16.0	4632.0	NaN	3038.0	727.0	5.1762	<1H OCEAN
17923	-121.97	37.35	30.0	1955.0	NaN	999.0	386.0	4.6328	<1H OCEAN
13656	-117.30	34.05	6.0	2155.0	NaN	1039.0	391.0	1.6675	INLAND
19252	-122.79	38.48	7.0	6837.0	NaN	3468.0	1405.0	3.1662	<1H OCEAN

option 1 : 해당 샘플(row) 삭제¶

In [78]:

sample_incomplete_rows.dropna(subset=['total_bedrooms'])

Out[78]:

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income	ocean_proximity

option 2 : 특성 자체 삭제¶

In [86]:

sample_incomplete_rows.drop("total_bedrooms", axis=1)

Out[86]:

	longitude	latitude	housing_median_age	total_rooms	population	households	median_income	ocean_proximity
4629	-118.30	34.07	18.0	3759.0	3296.0	1462.0	2.2708	<1H OCEAN
6068	-117.86	34.01	16.0	4632.0	3038.0	727.0	5.1762	<1H OCEAN
17923	-121.97	37.35	30.0	1955.0	999.0	386.0	4.6328	<1H OCEAN
13656	-117.30	34.05	6.0	2155.0	1039.0	391.0	1.6675	INLAND
19252	-122.79	38.48	7.0	6837.0	3468.0	1405.0	3.1662	<1H OCEAN

option 3 : 특정 값으로 대체¶

In [82]:

median = housing['total_bedrooms'].median()
median

Out[82]:

433.0

In [83]:

sample_incomplete_rows

Out[83]:

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income	ocean_proximity
4629	-118.30	34.07	18.0	3759.0	NaN	3296.0	1462.0	2.2708	<1H OCEAN
6068	-117.86	34.01	16.0	4632.0	NaN	3038.0	727.0	5.1762	<1H OCEAN
17923	-121.97	37.35	30.0	1955.0	NaN	999.0	386.0	4.6328	<1H OCEAN
13656	-117.30	34.05	6.0	2155.0	NaN	1039.0	391.0	1.6675	INLAND
19252	-122.79	38.48	7.0	6837.0	NaN	3468.0	1405.0	3.1662	<1H OCEAN

In [85]:

sample_incomplete_rows['total_bedrooms'].fillna(median, inplace=True)
sample_incomplete_rows

Out[85]:

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income	ocean_proximity
4629	-118.30	34.07	18.0	3759.0	433.0	3296.0	1462.0	2.2708	<1H OCEAN
6068	-117.86	34.01	16.0	4632.0	433.0	3038.0	727.0	5.1762	<1H OCEAN
17923	-121.97	37.35	30.0	1955.0	433.0	999.0	386.0	4.6328	<1H OCEAN
13656	-117.30	34.05	6.0	2155.0	433.0	1039.0	391.0	1.6675	INLAND
19252	-122.79	38.48	7.0	6837.0	433.0	3468.0	1405.0	3.1662	<1H OCEAN

- 변환기¶

In [87]:

from sklearn.impute import SimpleImputer

In [88]:

imputer = SimpleImputer(strategy='median')

[참고]¶

imputer.fit : 골격을 맞춰주는 역할(변환기)¶

imputer.transform : 데이터 변경¶

- 붓꽃 데이터¶

knn.fit : 학습(분류기)¶

knn.predict : 예측¶

- ocean_proximity는 수치값이 아니므로 잠시 제외¶

In [89]:

housing_num = housing.drop('ocean_proximity', axis=1)
housing_num

Out[89]:

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income
17606	-121.89	37.29	38.0	1568.0	351.0	710.0	339.0	2.7042
18632	-121.93	37.05	14.0	679.0	108.0	306.0	113.0	6.4214
14650	-117.20	32.77	31.0	1952.0	471.0	936.0	462.0	2.8621
3230	-119.61	36.31	25.0	1847.0	371.0	1460.0	353.0	1.8839
3555	-118.59	34.23	17.0	6592.0	1525.0	4459.0	1463.0	3.0347
...	...	...	...	...	...	...	...	...
6563	-118.13	34.20	46.0	1271.0	236.0	573.0	210.0	4.9312
12053	-117.56	33.88	40.0	1196.0	294.0	1052.0	258.0	2.0682
13908	-116.40	34.09	9.0	4855.0	872.0	2098.0	765.0	3.2723
11159	-118.01	33.82	31.0	1960.0	380.0	1356.0	356.0	4.0625
15775	-122.45	37.77	52.0	3095.0	682.0	1269.0	639.0	3.5750

16512 rows × 8 columns

- housing_num의 속성들의 중앙값을 다 구해줌¶

In [90]:

imputer.fit(housing_num)

Out[90]:

SimpleImputer(strategy='median')

In [91]:

imputer.statistics_

Out[91]:

array([-118.51  ,   34.26  ,   29.    , 2119.5   ,  433.    , 1164.    ,
        408.    ,    3.5409])

In [92]:

housing_num.median()  #pandas의 산술통계 함수

Out[92]:

longitude             -118.5100
latitude                34.2600
housing_median_age      29.0000
total_rooms           2119.5000
total_bedrooms         433.0000
population            1164.0000
households             408.0000
median_income            3.5409
dtype: float64

- 모든 결측치에 대해서 중앙값으로 대체시킴¶

In [93]:

X = imputer.transform(housing_num)

In [94]:

Out[94]:

array([[-121.89  ,   37.29  ,   38.    , ...,  710.    ,  339.    ,
           2.7042],
       [-121.93  ,   37.05  ,   14.    , ...,  306.    ,  113.    ,
           6.4214],
       [-117.2   ,   32.77  ,   31.    , ...,  936.    ,  462.    ,
           2.8621],
       ...,
       [-116.4   ,   34.09  ,    9.    , ..., 2098.    ,  765.    ,
           3.2723],
       [-118.01  ,   33.82  ,   31.    , ..., 1356.    ,  356.    ,
           4.0625],
       [-122.45  ,   37.77  ,   52.    , ..., 1269.    ,  639.    ,
           3.575 ]])

In [95]:

housing_num.columns

Out[95]:

Index(['longitude', 'latitude', 'housing_median_age', 'total_rooms',
       'total_bedrooms', 'population', 'households', 'median_income'],
      dtype='object')

In [96]:

housing_tr = pd.DataFrame(X, columns=housing_num.columns, index=housing_num.index)

In [97]:

sample_incomplete_rows.index

Out[97]:

Int64Index([4629, 6068, 17923, 13656, 19252], dtype='int64')

In [98]:

housing_tr.loc[sample_incomplete_rows.index]

Out[98]:

	longitude	latitude	housing_median_age	total_rooms	total_bedrooms	population	households	median_income
4629	-118.30	34.07	18.0	3759.0	433.0	3296.0	1462.0	2.2708
6068	-117.86	34.01	16.0	4632.0	433.0	3038.0	727.0	5.1762
17923	-121.97	37.35	30.0	1955.0	433.0	999.0	386.0	4.6328
13656	-117.30	34.05	6.0	2155.0	433.0	1039.0	391.0	1.6675
19252	-122.79	38.48	7.0	6837.0	433.0	3468.0	1405.0	3.1662

In [99]:

imputer.strategy

Out[99]:

'median'