관리 메뉴

공부 기록

ML(0805_day2) - 머신러닝 개요 정리 문제 본문

playdata

ML(0805_day2) - 머신러닝 개요 정리 문제

_JAEJAE_ 2021. 8. 5. 11:50

1. 머신러닝의 정의
- 데이터로부터 학습할 수 있는 시스템을 만드는 것, 학습이란 어떤 작업에서 주어진 성능 지표가 더 나아지는 것을 의미함
- 명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구 분야

2. 머신러닝에 유용한 분야 4가지
- 기존 솔루션으로는 많은 수동 조정과 규칙이 필요한 문제
- 전통적인 방법으로는 전혀 해결 방법이 없는 복잡한 문제(음성 인식, 얼굴 인식)
- 변화하는 환경에 적응해야 하는 문제
- 복잡한 문제와 대량의 데이터에서 통찰 얻기(데이터 마이닝)

3. 레이블된 훈련세트란?
- 학습 데이터에 정답이 포함되어 있는 데이터 셋

4. 가장 많이 사용되는 지도 학습 작업 2가지
- 분류(클래스 예측)
- 회귀(수치 예측)

5. 많이 사용되는 비지도 학습 4가지
- 군집
- 시각화
- 차원 축소
- 연관 규칙 학습

6. 고객을 여러 그룹으로 분할한다면 어떤 알고리즘 사용?
- 지도학습(분류) 또는 비지도학습(군집)
- 그룹에 대한 정의가 없다면 비슷한 고객끼리 나누는 군집 알고리즘(비지도 학습)
- 어떤 그룹인지 미리 알고 있다면 분류 알고리즘(지도 학습)

7. 스팸 감지의 문제는 지도학습? 비지도 학습?
- 지도학습(이진 분류)

8. 온라인 학습 시스템이란?
- 배치 학습과 다르게 점진적으로 학습하는 것, 샘플 한 개 또는 미니배치라 부르는 작은 묶음 단위로 훈련
- 대량의 데이터를 학습시키거나 빠르게 변하는 데이터로 학습할 때 사용

 

9. 예측을 하기 위해 유사도 측정을 사용하는 알고리즘은?
- 사례 기반 학습: 훈련 데이터를 기억하여 새로운 데이터가 들어왔을 때 훈련 데이터 중 어느 쪽이랑 가까운지만으로 새로운 데이터를 예측하는 것 (KNN)

   <참고>
   - 모델 기반 학습: 훈련 데이터를 기반으로 모델을 만들어서 예측하는 방법, 즉, 함수를 만드는 것

10. 모델 파라미터와 하이퍼파라미터의 차이?
- 모델 파라미터: 모델이 학습을 진행하면서 점차 최적화하는 파라미터(선형모델의 기울기와 절편값)
- 하이퍼 파라미터: 모델이 학습을 하기 전에 사람이 직접 입력해주는 파라미터(규제 정도), 학습 알고리즘 자체의 파라미터
    
11. 모델 기반 알고리즘이 훈련 후에 찾아내는 것은?
- 모델 파라미터의 최적값

12. 머신러닝 도전과제1(나쁜 데이터의 예)
- 충분하지 않은 데이터
- 대표성 없는 데이터
- 낮은 품질의 데이터
- 관련없는 특성

13. 머신러닝 도전과제2(나쁜 알고리즘의 예)
- 훈련 데이터의 과대 적합 : 훈련 데이터에서는 잘 작동하지만 새로운 데이터에는 좋은 결과 나오지 않음 - - 해결 방법: 더 많은 데이터를 모으거나 잡음 줄이기, 모델의 단순화, 특성이나 파라미터 수 감소, 규제 추가 


- 훈련 데이터의 과소 적합 : 모델이 너무 단순해서 적절한 패턴을 학습하지 못함

- 해결 방법: 강력한 모델 선택, 특성이나 모델 파라미터 추가, 규제 감소

14. 테스트 세트란?

- 실전에 배치되기 전에 일반화 성능을 추정하기 위해 사용

   <참고>
   - 훈련 데이터: 학습에 사용하는 데이터
   - 검증 데이터: 최적의 하이퍼 파라미터를 선택하기 위해 사용하는 데이터
   - 테스트 데이터: 테스트를 위해 사용하는 데이터, 학습에서 한번도 사용하지 않은 데이터여야 함
    
15. 검증 세트란?

- 모델을 비교하는데 사용하며 이를 통해 좋은 모델을 고르고 하이퍼 파라미터 튜닝도 할 수 있음

16. 테스트 세트를 사용해 하이퍼파라미터 튜닝시 문제점은?
- 모델이 테스트 세트에 과대적합되고 일반화 오차를 왜곡되게(좋게) 추정함

Comments