[TIL] 76일차

카테고리 없음

[TIL] 76일차

unoori 2025. 1. 24. 09:15

예측 모델링에서 범주형, 명목형, 수치형 데이터를 처리하는 방법과 특징 선택 요령, 모델링 종류, 그리고 최적의 모델 선정법을 다음과 같이 설명하겠습니다.

1. 데이터 유형별 처리 방법

(1) 범주형 데이터

• 정의: 데이터가 고정된 여러 값 중 하나를 가지는 경우. (예: “남성”, “여성”)

• 처리 방법:

1. 인코딩 (Encoding):

• Label Encoding: 각 범주를 숫자로 매핑 (e.g., “남성” → 0, “여성” → 1).

• One-Hot Encoding: 각 범주를 이진 벡터로 변환 (e.g., “남성” → [1, 0], “여성” → [0, 1]).

2. 빈도 기반 인코딩 (Frequency Encoding):

• 범주의 등장 빈도를 사용하여 숫자로 변환.

3. 임베딩 (Embedding):

• 딥러닝 모델에서 Embedding Layer를 사용해 고차원 벡터로 변환.

(2) 명목형 데이터

• 정의: 순서가 없는 범주형 데이터. (예: 색상 “빨강”, “파랑”, “노랑”)

• 처리 방법:

• 범주형 데이터와 동일하게 처리 (주로 One-Hot Encoding).

(3) 수치형 데이터

• 정의: 연속적이거나 이산적인 수치값. (예: 나이, 매출)

• 처리 방법:

1. 스케일링 (Scaling):

• Standard Scaling: 평균 0, 분산 1로 정규화.

• Min-Max Scaling: 데이터를 [0, 1] 범위로 변환.

2. 결측값 처리:

• 평균, 중앙값으로 대체하거나 예측 모델로 보완.

3. 변환 (Transformation):

• 로그 변환, 제곱근 변환 등으로 데이터의 분포를 정규화.

2. 피처 선택 요령

(1) 피처 중요도 기반

• 방법:

• 모델의 피처 중요도를 계산하여 상위 중요도 피처만 선택.

• 랜덤 포레스트, XGBoost, Lasso Regression 등이 중요도 평가에 유용.

(2) 상관 관계 분석

• 방법:

• 피어슨 상관계수를 활용해 타겟 변수와 높은 상관 관계를 가진 피처를 선택.

• 주의: 상관 관계가 지나치게 높은 피처 간의 다중공선성 문제를 방지.

(3) 차원 축소

• 방법:

• PCA(주성분 분석) 또는 LDA(선형 판별 분석)를 사용해 주요 차원만 남김.

(4) 도메인 지식 활용

• 방법:

• 데이터의 맥락과 관련된 피처를 선정.

3. 모델링 종류

(1) 회귀 (Regression)

• 목적: 연속적인 값을 예측.

• 예: 주택 가격 예측, 판매량 예측.

• 모델 종류:

• 선형 회귀 (Linear Regression)

• 랜덤 포레스트 회귀 (Random Forest Regressor)

• XGBoost, LightGBM

• 딥러닝 모델 (e.g., MLP)

(2) 분류 (Classification)

• 목적: 범주를 예측.

• 예: 이메일 스팸 여부, 암 진단.

• 모델 종류:

• 로지스틱 회귀 (Logistic Regression)

• 의사결정 나무 (Decision Tree)

• 랜덤 포레스트 (Random Forest)

• SVM (Support Vector Machine)

• 딥러닝 모델 (CNN, RNN)

(3) 클러스터링 (Clustering)

• 목적: 데이터 군집화.

• 예: 고객 세분화.

• 모델 종류:

• K-Means

• DBSCAN

• 계층적 클러스터링 (Hierarchical Clustering)

4. 최적의 모델 선정법

(1) 교차 검증 (Cross-Validation)

• 데이터를 여러 번 분할하여 모델을 학습/평가해 안정적인 성능 측정.

• K-Fold Cross-Validation을 많이 사용.

(2) 성능 지표 확인

• 문제 유형에 따라 적절한 지표를 사용:

• 회귀: MSE, RMSE, MAE, R²

• 분류: 정확도(Accuracy), 정밀도(Precision), 재현율(Recall), F1 Score, AUC-ROC

• 클러스터링: 실루엣 계수(Silhouette Score), 엘보우 방법(Elbow Method)

(3) 하이퍼파라미터 튜닝

• Grid Search 또는 Random Search로 최적의 하이퍼파라미터를 탐색.

• 더 고급 방법:

• Bayesian Optimization: 탐색 공간을 효율적으로 줄임.

• Optuna, Hyperopt 등 툴 사용.

(4) 앙상블 모델 활용

• 여러 모델의 결과를 결합해 성능을 향상.

• 방법:

• 배깅(Bagging): 랜덤 포레스트.

• 부스팅(Boosting): XGBoost, LightGBM.

• 스태킹(Stacking): 여러 모델의 결과를 결합.

이 과정을 통해 적절한 전처리와 모델 선택 및 평가를 수행하면 문제에 적합한 최적의 예측 모델을 개발할 수 있습니다.

현재글[TIL] 76일차

unoori 님의 블로그

unoori 님의 블로그 입니다.

use a transparent style of scrollbar. these selectors * will match lower in the tree, 0.5) transparent; scrollbar-width: thin; } /* tiny scrollbar */ .jp-scrollbar-tiny::-webkit-scrollbar, and so will override the above */ [data-jp-theme-scrollbars='true'] .codemirror-hscrollbar, 0.5) transparent; } /* tiny scrollbar */ .jp-scrollbar-tiny { scrollbar-color: rgba(var(--jp-scrollbar-thumb-color), phosphorjs contributors | | distributed under the terms of the bsd 3-clause license. | | the full license is in the file license, .jp-scrollbar-tiny::-webkit-scrollbar-corner { background-color: transparent; height: 4px; width: 4px; } .jp-scrollbar-tiny::-webkit-scrollbar-thumb { background: rgba(var(--jp-scrollbar-thumb-color), [data-jp-theme-scrollbars='true'] .codemirror-vscrollbar { scrollbar-color: rgba(var(--jp-scrollbar-thumb-color), <!doctype html> <html lang="en"> <head><meta charset="utf-8"/> <meta content="width=device-width,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

unoori 님의 블로그

[TIL] 76일차

'카테고리 없음'의 다른글

티스토리툴바