반응형

머신러닝 모델을 해석하는 과정에서 중요한 질문 중 하나는, ‘어떤 feature가 예측에 가장 큰 영향을 미치는가?’라는 점입니다. 이 질문에 답하기 위해 feature의 중요도(feature importance)기여도(feature contribution)를 측정하는 다양한 방법이 사용됩니다. 이 글에서는 feature란 무엇인지부터 시작해, feature의 중요도 및 기여도를 평가하는 대표적인 방법들을 소개하고, 실제 사용 예시도 함께 설명하겠습니다.


1. Feature란 무엇인가?

Feature는 머신러닝 모델이 학습할 때 사용하는 데이터의 특성(속성)을 의미합니다. 각 feature는 데이터의 독립 변수를 나타내며, 모델이 종속 변수(타겟)를 예측하는 데 필요한 정보입니다. 예를 들어, 집값 예측 모델에서는 집의 크기, 위치, 층수 등이 feature에 해당합니다.

Feature의 예시:

  • 집값 예측 모델의 feature:
    • 집의 크기 (Size)
    • 방 개수 (Number of Rooms)
    • 위치 (Location)
    • 건축 연도 (Year Built)
    • 거리 (Distance to City Center)

이러한 feature들이 타겟 변수(종속 변수)인 집값을 예측하는 데 어떤 영향을 미치는지 분석하는 과정에서, feature의 중요도기여도를 평가하게 됩니다.


2. Feature Importance와 Feature Contribution의 차이

Feature Importance는 각 feature가 모델 예측에 얼마나 중요한 역할을 하는지 전반적으로 평가한 값입니다. Feature Contribution개별 예측에 대해 각 feature가 얼마나 기여했는지를 평가합니다.

  • Feature Importance: 모델이 학습한 전체 데이터에 대해 각 feature가 얼마나 자주 사용되고 중요한지 평가.
  • Feature Contribution: 개별 예측에서 각 feature가 예측값에 얼마나 기여했는지 설명.

이제 다양한 feature 중요도기여도 평가 방법을 살펴보겠습니다.


3. Feature 중요도와 기여도를 평가하는 다양한 방법

3.1. Permutation Importance (순열 중요도)

Permutation Importance는 각 feature의 값을 랜덤하게 섞은 후 모델 성능에 미치는 영향을 평가하는 방식입니다. feature의 값을 무작위로 섞어도 모델 성능이 크게 떨어지지 않으면, 해당 feature는 덜 중요하다고 판단합니다.

  • 장점: 모델에 독립적이고, 계산이 비교적 간단.
  • 단점: 계산 속도가 느릴 수 있으며, 상호작용이 강한 feature의 경우 단독 중요도를 낮게 평가할 수 있음.

예시 코드:

from sklearn.inspection import permutation_importance

result = permutation_importance(model, X, y, n_repeats=10, random_state=42)

3.2. Gini Importance (지니 중요도) 또는 Mean Decrease in Impurity (MDI)

Gini Importance는 트리 기반 모델에서 노드 분할을 통해 불순도가 얼마나 줄어드는지를 기반으로 feature의 중요도를 평가합니다. Random Forest 같은 모델에서 자주 사용됩니다.

  • 장점: 빠르게 계산 가능.
  • 단점: 상호작용을 충분히 반영하지 못할 수 있음.

예시 코드:

importances = model.feature_importances_

3.3. SHAP (Shapley Additive Explanations)

SHAP개별 예측에 대해 각 feature가 얼마나 기여했는지를 계산하는 방법으로, 상호작용을 포함하여 기여도를 분석할 수 있습니다. 협력 게임 이론에서 착안한 이 방법은, feature의 기여도를 정밀하게 설명할 수 있어 매우 유용합니다.

  • 장점: feature 간 상호작용을 정확하게 평가.
  • 단점: 계산 복잡도가 높음.

예시 코드:

import shap

explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X)
shap.summary_plot(shap_values, X)

3.4. LIME (Local Interpretable Model-Agnostic Explanations)

LIME은 모델의 개별 예측을 로컬 모델로 해석하는 방법입니다. 특정 예측에 대해 feature가 어떻게 기여했는지를 설명하며, 모델의 복잡한 내부 구조와 무관하게 사용할 수 있습니다.

  • 장점: 다양한 모델에 적용 가능.
  • 단점: 전반적인 중요도를 설명하지는 못하고, 특정 예측만 해석.

예시 코드:

import lime
from lime import lime_tabular

explainer = lime_tabular.LimeTabularExplainer(X_train.values, feature_names=feature_names, class_names=['class1', 'class2'], mode='classification')
explanation = explainer.explain_instance(X_test.iloc[0], model.predict_proba)
explanation.show_in_notebook()

3.5. Recursive Feature Elimination (RFE)

RFE는 feature를 하나씩 제거하면서 모델 성능에 미치는 영향을 평가하여, 중요하지 않은 feature를 제거해나가는 방식입니다.

  • 장점: 모델이 최적의 feature 집합을 찾도록 돕는 방법.
  • 단점: 계산 비용이 클 수 있음.

예시 코드:

from sklearn.feature_selection import RFE

selector = RFE(estimator=model, n_features_to_select=5, step=1)
selector = selector.fit(X, y)

3.6. Mutual Information (상호 정보량)

Mutual Information은 두 변수 간의 상호 의존성을 평가하는 방법으로, feature와 타겟 변수 간의 비선형적 관계를 포착할 수 있습니다.

  • 장점: 비선형 관계를 포착 가능.
  • 단점: 상호작용을 다루지는 못함.

예시 코드:

from sklearn.feature_selection import mutual_info_classif

mi = mutual_info_classif(X, y)

4. 실제 사용 예시

이제 위에서 설명한 방법들을 활용한 실제 예시를 살펴보겠습니다. 아래는 집값 예측 모델을 예로 들어, feature 중요도와 기여도를 평가하는 과정입니다.

데이터셋:

  • 타겟: 집값
  • Feature: 크기(Size), 방 개수(Number of Rooms), 위치(Location), 건축 연도(Year Built), 거리(Distance)
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split

# 데이터 준비
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Random Forest 모델 학습
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Feature Importance 계산
importances = model.feature_importances_

# SHAP 값 계산
import shap
explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X_test)

# 중요도 시각화
shap.summary_plot(shap_values, X_test)

5. 결론

모델 해석에서 feature 중요도기여도를 평가하는 방법은 매우 다양합니다. SHAP, LIME, Permutation Importance와 같은 기법들은 모델을 더 잘 이해하고, 각 feature가 예측에 얼마나 중요한지, 그리고 개별 예측에 어떤 영향을 미치는지 확인하는 데 유용한 도구들입니다. 머신러닝 모델의 성능을 향상시키기 위해서는 이러한 방법들을 적절히 활용하여 중요한 feature를 파악하고, 최적화된 모델을 설계하는 것이 중요합니다.

반응형
반응형

차원 축소는 고차원 데이터를 저차원으로 변환하여, 데이터를 처리하고 해석하기 쉽게 만드는 기법입니다. 이는 데이터의 복잡성을 줄이고, 분석 또는 시각화 성능을 향상시키는 데 주로 사용됩니다. 차원 축소는 데이터를 표현하는 데 필요한 특성 수를 줄이면서도 중요한 정보는 최대한 유지하려는 목표를 가지고 있습니다.

차원 축소는 특히 고차원 데이터(텍스트, 이미지, 시계열 데이터 등)를 다룰 때, 과적합 방지, 계산 효율성 향상, 시각화 등의 장점을 제공합니다.


주요 차원 축소 기법 및 수식 설명

1. PCA (Principal Component Analysis)

PCA는 데이터를 선형적으로 변환해 분산이 최대화되는 방향으로 차원을 축소하는 방법입니다.

  • 목표: 데이터의 분산을 최대한 보존하면서 차원 축소.
  • 수식:

  • 여기서, X는 데이터 행렬, λ는 고유값, w는 주성분(고유벡터)입니다. 고유값 분해를 통해 분산이 가장 큰 방향(주성분)을 찾아 차원을 축소합니다.
  • 사용 상황: 대규모 데이터에서 주된 패턴을 추출할 때, 데이터의 분산 구조를 이해하는 데 주로 사용됩니다.

2. t-SNE (t-Distributed Stochastic Neighbor Embedding)

t-SNE는 비선형 차원 축소 기법으로, 고차원의 데이터 포인트 간 인접 관계를 저차원에서도 유지하며 시각화하는 기법입니다.

  • 목표: 고차원에서 가까운 데이터 포인트를 저차원에서도 가깝게 유지.
  • 수식:

  • 는 고차원에서의 두 점 간의 유사성 확률입니다. t-SNE는 고차원과 저차원에서 유사성을 유지하는 방식으로 KL 다이버전스를 최소화합니다.
  • 사용 상황: 데이터의 복잡한 비선형 패턴을 시각화할 때, 특히 이미지나 텍스트 데이터에 적합.

3. UMAP (Uniform Manifold Approximation and Projection)

UMAP은 t-SNE와 유사한 비선형 차원 축소 기법으로, 고차원의 데이터 간 거리와 인접성을 저차원에서 보존합니다.

  • 목표: 고차원에서 가까운 데이터를 저차원에서도 유지하며, 구조적 패턴을 보존.
  • 수식:

  • 여기서 는 고차원에서의 데이터 간 관계를 나타내며, UMAP은 이를 저차원에서 거리로 변환해 클러스터 구조를 유지합니다.
  • 사용 상황: 대규모 데이터에서 빠르고 확장 가능한 차원 축소 및 시각화에 적합.

4. LDA (Linear Discriminant Analysis)

LDA분류 작업에서 클래스 간의 분산을 최대화하면서 차원을 축소하는 지도 학습 기법입니다.

  • 목표: 클래스 간 분산을 극대화하고, 클래스 내 분산을 최소화.
  • 수식:

  • 는 클래스 내 분산, SBS_B는 클래스 간 분산으로, 두 값을 최대화 및 최소화하는 방향으로 차원을 축소합니다.
  • 사용 상황: 레이블이 있는 데이터에서 클래스 간 구분이 중요한 경우.

5. Autoencoder

Autoencoder는 신경망 기반의 차원 축소 기법으로, 입력 데이터를 압축한 후 다시 복원하는 과정을 통해 중요한 특징을 학습합니다.

  • 목표: 고차원 데이터를 저차원으로 압축하면서 중요한 특징을 추출.
  • 수식:

  • 여기서 X는 입력 데이터, 는 복원된 데이터로, 원본과 복원된 데이터 간의 오차를 최소화하여 차원을 축소합니다.
  • 사용 상황: 비선형 구조를 가진 데이터에서 효과적이며, 이미지나 텍스트 데이터에서 자주 사용됩니다.

6. Factor Analysis

Factor Analysis는 관측된 변수들을 몇 개의 잠재 요인으로 설명하여 차원을 축소하는 통계 기법입니다.

  • 목표: 관측된 변수들을 잠재 변수들의 조합으로 표현.
  • 수식:

  • 는 관측 변수, Λ는 로딩 행렬, F는 잠재 변수로, 잠재 변수의 선형 조합으로 데이터를 설명합니다.
  • 사용 상황: 심리학, 사회과학 등에서 잠재 변수의 해석이 필요한 경우.

차원 축소의 필요성과 사용 상황

1. 고차원의 저주(Curse of Dimensionality):

고차원의 데이터는 차원 축소 없이 분석하거나 학습할 때, 과적합 또는 효율성 저하 문제를 겪기 쉽습니다. 차원 축소를 통해 이러한 문제를 해결하고, 데이터를 효율적으로 처리할 수 있습니다.

2. 시각화:

차원 축소는 2D 또는 3D 시각화를 통해 데이터의 군집화, 패턴 등을 확인할 수 있게 해줍니다. 특히 t-SNE나 UMAP은 복잡한 데이터의 구조적 관계를 시각화하는 데 매우 유용합니다.

3. 과적합 방지:

차원을 줄임으로써 모델이 불필요한 노이즈나 패턴을 학습하는 것을 방지하여, 모델의 일반화 성능을 높일 수 있습니다.

4. 계산 효율성 향상:

차원이 높은 데이터는 처리 비용이 매우 높아질 수 있지만, 차원 축소를 통해 계산 비용을 줄이고 모델 학습을 가속화할 수 있습니다.


결론

차원 축소는 고차원 데이터의 복잡성을 줄이고, 중요한 정보를 유지하면서도 효율적으로 데이터를 처리할 수 있게 해주는 중요한 기법입니다. 각 기법은 데이터의 특성에 맞춰 선택해야 하며, 이를 통해 과적합을 방지하고, 모델의 성능을 최적화할 수 있습니다.

반응형

+ Recent posts