카테고리 없음

[TIL] 76일차

unoori 2025. 1. 24. 09:15

예측 모델링에서 범주형, 명목형, 수치형 데이터를 처리하는 방법과 특징 선택 요령, 모델링 종류, 그리고 최적의 모델 선정법을 다음과 같이 설명하겠습니다.

 

1. 데이터 유형별 처리 방법

 

(1) 범주형 데이터

정의: 데이터가 고정된 여러 값 중 하나를 가지는 경우. (예: “남성”, “여성”)

처리 방법:

1. 인코딩 (Encoding):

Label Encoding: 각 범주를 숫자로 매핑 (e.g., “남성” → 0, “여성” → 1).

One-Hot Encoding: 각 범주를 이진 벡터로 변환 (e.g., “남성” → [1, 0], “여성” → [0, 1]).

2. 빈도 기반 인코딩 (Frequency Encoding):

범주의 등장 빈도를 사용하여 숫자로 변환.

3. 임베딩 (Embedding):

딥러닝 모델에서 Embedding Layer를 사용해 고차원 벡터로 변환.

 

(2) 명목형 데이터

정의: 순서가 없는 범주형 데이터. (예: 색상 “빨강”, “파랑”, “노랑”)

처리 방법:

범주형 데이터와 동일하게 처리 (주로 One-Hot Encoding).

 

(3) 수치형 데이터

정의: 연속적이거나 이산적인 수치값. (예: 나이, 매출)

처리 방법:

1. 스케일링 (Scaling):

Standard Scaling: 평균 0, 분산 1로 정규화.

Min-Max Scaling: 데이터를 [0, 1] 범위로 변환.

2. 결측값 처리:

평균, 중앙값으로 대체하거나 예측 모델로 보완.

3. 변환 (Transformation):

로그 변환, 제곱근 변환 등으로 데이터의 분포를 정규화.

 

2. 피처 선택 요령

 

(1) 피처 중요도 기반

방법:

모델의 피처 중요도를 계산하여 상위 중요도 피처만 선택.

랜덤 포레스트, XGBoost, Lasso Regression 등이 중요도 평가에 유용.

 

(2) 상관 관계 분석

방법:

피어슨 상관계수를 활용해 타겟 변수와 높은 상관 관계를 가진 피처를 선택.

주의: 상관 관계가 지나치게 높은 피처 간의 다중공선성 문제를 방지.

 

(3) 차원 축소

방법:

PCA(주성분 분석) 또는 LDA(선형 판별 분석)를 사용해 주요 차원만 남김.

 

(4) 도메인 지식 활용

방법:

데이터의 맥락과 관련된 피처를 선정.

 

3. 모델링 종류

 

(1) 회귀 (Regression)

목적: 연속적인 값을 예측.

: 주택 가격 예측, 판매량 예측.

모델 종류:

선형 회귀 (Linear Regression)

랜덤 포레스트 회귀 (Random Forest Regressor)

XGBoost, LightGBM

딥러닝 모델 (e.g., MLP)

 

(2) 분류 (Classification)

목적: 범주를 예측.

: 이메일 스팸 여부, 암 진단.

모델 종류:

로지스틱 회귀 (Logistic Regression)

의사결정 나무 (Decision Tree)

랜덤 포레스트 (Random Forest)

SVM (Support Vector Machine)

딥러닝 모델 (CNN, RNN)

 

(3) 클러스터링 (Clustering)

목적: 데이터 군집화.

: 고객 세분화.

모델 종류:

K-Means

DBSCAN

계층적 클러스터링 (Hierarchical Clustering)

 

4. 최적의 모델 선정법

 

(1) 교차 검증 (Cross-Validation)

데이터를 여러 번 분할하여 모델을 학습/평가해 안정적인 성능 측정.

K-Fold Cross-Validation을 많이 사용.

 

(2) 성능 지표 확인

문제 유형에 따라 적절한 지표를 사용:

회귀: MSE, RMSE, MAE, R²

분류: 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1 Score, AUC-ROC

클러스터링: 실루엣 계수(Silhouette Score), 엘보우 방법(Elbow Method)

 

(3) 하이퍼파라미터 튜닝

Grid Search 또는 Random Search로 최적의 하이퍼파라미터를 탐색.

더 고급 방법:

Bayesian Optimization: 탐색 공간을 효율적으로 줄임.

Optuna, Hyperopt 등 툴 사용.

 

(4) 앙상블 모델 활용

여러 모델의 결과를 결합해 성능을 향상.

방법:

배깅(Bagging): 랜덤 포레스트.

부스팅(Boosting): XGBoost, LightGBM.

스태킹(Stacking): 여러 모델의 결과를 결합.

 

이 과정을 통해 적절한 전처리와 모델 선택 및 평가를 수행하면 문제에 적합한 최적의 예측 모델을 개발할 수 있습니다.