공부 기록
ML(0805_day2) - 머신러닝 개요 정리 문제 본문
1. 머신러닝의 정의
- 데이터로부터 학습할 수 있는 시스템을 만드는 것, 학습이란 어떤 작업에서 주어진 성능 지표가 더 나아지는 것을 의미함
- 명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구 분야
2. 머신러닝에 유용한 분야 4가지
- 기존 솔루션으로는 많은 수동 조정과 규칙이 필요한 문제
- 전통적인 방법으로는 전혀 해결 방법이 없는 복잡한 문제(음성 인식, 얼굴 인식)
- 변화하는 환경에 적응해야 하는 문제
- 복잡한 문제와 대량의 데이터에서 통찰 얻기(데이터 마이닝)
3. 레이블된 훈련세트란?
- 학습 데이터에 정답이 포함되어 있는 데이터 셋
4. 가장 많이 사용되는 지도 학습 작업 2가지
- 분류(클래스 예측)
- 회귀(수치 예측)
5. 많이 사용되는 비지도 학습 4가지
- 군집
- 시각화
- 차원 축소
- 연관 규칙 학습
6. 고객을 여러 그룹으로 분할한다면 어떤 알고리즘 사용?
- 지도학습(분류) 또는 비지도학습(군집)
- 그룹에 대한 정의가 없다면 비슷한 고객끼리 나누는 군집 알고리즘(비지도 학습)
- 어떤 그룹인지 미리 알고 있다면 분류 알고리즘(지도 학습)
7. 스팸 감지의 문제는 지도학습? 비지도 학습?
- 지도학습(이진 분류)
8. 온라인 학습 시스템이란?
- 배치 학습과 다르게 점진적으로 학습하는 것, 샘플 한 개 또는 미니배치라 부르는 작은 묶음 단위로 훈련
- 대량의 데이터를 학습시키거나 빠르게 변하는 데이터로 학습할 때 사용
9. 예측을 하기 위해 유사도 측정을 사용하는 알고리즘은?
- 사례 기반 학습: 훈련 데이터를 기억하여 새로운 데이터가 들어왔을 때 훈련 데이터 중 어느 쪽이랑 가까운지만으로 새로운 데이터를 예측하는 것 (KNN)
<참고>
- 모델 기반 학습: 훈련 데이터를 기반으로 모델을 만들어서 예측하는 방법, 즉, 함수를 만드는 것
10. 모델 파라미터와 하이퍼파라미터의 차이?
- 모델 파라미터: 모델이 학습을 진행하면서 점차 최적화하는 파라미터(선형모델의 기울기와 절편값)
- 하이퍼 파라미터: 모델이 학습을 하기 전에 사람이 직접 입력해주는 파라미터(규제 정도), 학습 알고리즘 자체의 파라미터
11. 모델 기반 알고리즘이 훈련 후에 찾아내는 것은?
- 모델 파라미터의 최적값
12. 머신러닝 도전과제1(나쁜 데이터의 예)
- 충분하지 않은 데이터
- 대표성 없는 데이터
- 낮은 품질의 데이터
- 관련없는 특성
13. 머신러닝 도전과제2(나쁜 알고리즘의 예)
- 훈련 데이터의 과대 적합 : 훈련 데이터에서는 잘 작동하지만 새로운 데이터에는 좋은 결과 나오지 않음 - - 해결 방법: 더 많은 데이터를 모으거나 잡음 줄이기, 모델의 단순화, 특성이나 파라미터 수 감소, 규제 추가
- 훈련 데이터의 과소 적합 : 모델이 너무 단순해서 적절한 패턴을 학습하지 못함
- 해결 방법: 강력한 모델 선택, 특성이나 모델 파라미터 추가, 규제 감소
14. 테스트 세트란?
- 실전에 배치되기 전에 일반화 성능을 추정하기 위해 사용
<참고>
- 훈련 데이터: 학습에 사용하는 데이터
- 검증 데이터: 최적의 하이퍼 파라미터를 선택하기 위해 사용하는 데이터
- 테스트 데이터: 테스트를 위해 사용하는 데이터, 학습에서 한번도 사용하지 않은 데이터여야 함
15. 검증 세트란?
- 모델을 비교하는데 사용하며 이를 통해 좋은 모델을 고르고 하이퍼 파라미터 튜닝도 할 수 있음
16. 테스트 세트를 사용해 하이퍼파라미터 튜닝시 문제점은?
- 모델이 테스트 세트에 과대적합되고 일반화 오차를 왜곡되게(좋게) 추정함
'playdata' 카테고리의 다른 글
ML(0806_day3) - 실습_Predict survival on the Titanic - using pandas (0) | 2021.08.06 |
---|---|
ML(0805_day2) - 실습_캘리포니아 주택 가격 예측하기(데이터 전처리) (0) | 2021.08.05 |
ML(0804_day1) - 실습_붓꽃 데이터 품종 예측하기 (0) | 2021.08.04 |
Pandas(0728_day4) - 실습_타이타닉 데이터셋 (0) | 2021.07.28 |
Pandas(0728_day4) - 실습_데이터 합치기 (0) | 2021.07.28 |