Skip to content

Latest commit

 

History

History
51 lines (44 loc) · 2.89 KB

5팀_황인서.md

File metadata and controls

51 lines (44 loc) · 2.89 KB

Chapter 03 회귀 알고리즘과 모델 규제

03-1 k-최근접 이웃 회귀

  • Keywords

    • 회귀: 임의의 수치(=타깃값)를 예측하는 문제
    • k-최근접 이웃 회귀: 가장 가까운 이웃 샘플들의 타깃값의 평균으로 예측하는 회귀 방법
    • 결정계수(R²): 회귀 문제의 성능 측정 도구. $R^2=1-\frac{\sum(타깃-예측)^2}{\sum(타깃-평균)^2}$
    • 과대적합: (모델의 성능) 훈련 세트 > 테스트 세트
    • 과소적합: (모델의 성능) 훈련 세트 < 테스트 세트, or 둘 다 낮을 때
  • Packages and Functions

    • scikit-learn
      • KNeighborsRegressor: k-최근접 이웃 회귀 모델을 만드는 클래스
      • mean_absolute_error(): 회귀 모델의 평균 절댓값 오차를 계산함.
    • numpy
      • reshape(): 배열의 크기를 바꿈

        train_input = train_input.reshape(-1, 1)

03-2 선형 회귀

  • Keywords

    • 선형 회귀: 특성과 타깃 사이의 관계를 가장 잘 나타내는 선형 방정식을 찾음.
    • 모델 파라미터: 머신러닝 모델이 특성에서 학습한 파라미터(선형 회귀)
    • 다항 회귀: 다항식을 사용한 선형 회귀
  • Packages and Functions

    • scikit-learn(.linear_model)
      • LinearRegression: 선형 회귀 모델을 만드는 클래스
        • coef_ 속성: 특성에 대한 계수를 포함한 배열
        • intercept_ 속성: 절편을 포함한 배열

03-3 특성 공학과 규제

  • Keywords

    • 다중 회귀: 여러 개의 특성을 사용하는 회귀 모델
    • 특성 공학: 주어진 특성을 조합하여 새로운 특성을 만드는 작업
    • 변환기: 특성을 만들거나 전처리하는 클래스
    • 규제: 모델이 훈련 세트에 과대적합되지 않도록 하는 것(릿지라쏘는 선형 모델의 계수를 작게 만듦)
    • 하이퍼파라미터: 머신러닝 알고리즘이 학습하지 않는 파라미터. 사람이 사전에 지정함.(릿지와 라쏘의 경우, 규제 강도 alpha 파라미터)
  • Packages and Functions

    • scikit-learn(.pre-processing)
      • PolynomialFeatures: 주어진 특성을 조합하여 새로운 특성을 만드는(변환기) 클래스.
        • transform(): fit() 메서드 다음에 사용되어 특성 공학을 수행함.
        • get_feature_names(): 특성 공학 결과가 각각 어떤 입력의 조합으로 만들어졌는지 표시함.
      • StandardScaler: 표준점수를 기반으로 데이터를 전처리하는(변환기) 클래스
    • scikit-learn(.linear_model)
      • Ridge: 릿지 회귀 모델을 훈련함.
      • Lasso: 라쏘 회귀 모델을 훈련함.
    • pandas: 데이터 분석 라이브러리
      • read_csv(): CSV 파일을 읽어 판다스 데이터프레임으로 변환함.
      • to_numpy(): 판다스 데이터프레임을 넘파이 배열로 변환함.