머신러닝의 정의와 기초 개념

바닐라스카이 2024. 9. 26. 09:30

2024. 9. 26. 09:30

머신러닝(Machine Learning)은 명시적인 프로그래밍 없이 데이터를 기반으로 학습하고, 그로부터 패턴을 찾아내어 예측이나 결정을 내리는 컴퓨터 시스템의 한 분야입니다. 머신러닝은 데이터로부터 학습하는 모델을 만들어, 새로운 데이터에 대해 적절한 결과를 예측할 수 있도록 합니다.

머신러닝의 세 가지 주요 분류:

지도 학습(Supervised Learning):
- 정답(레이블)이 포함된 데이터셋을 바탕으로 모델을 학습하는 방식입니다. 데이터에 주어진 입력(Input)과 정답(Output) 간의 관계를 학습한 후, 새로운 입력에 대한 예측을 수행합니다.
- 주요 알고리즘: 선형 회귀(Linear Regression), 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(SVM), 신경망(Neural Networks).

2024.09.27 - [Data Science/machine learning] - 회귀(Regression)의 정의

회귀(Regression)의 정의

회귀(Regression)는 독립 변수(특성)와 종속 변수(목표 값) 간의 관계를 모델링하여 연속적인 값을 예측하는 머신러닝 기법입니다. 회귀 분석은 입력 데이터와 출력 값 사이의 관계를 수학적으로 표

bgreat.tistory.com

2024.09.27 - [Data Science/machine learning] - 분류(Classification)란?

분류(Classification)란?

분류(Classification)는 주어진 데이터를 미리 정의된 카테고리나 클래스로 나누는 작업입니다. 이 과정은 머신러닝의 지도 학습(Supervised Learning) 방식에 속하며, 입력 데이터와 그에 대한 정답(레이

bgreat.tistory.com

비지도 학습(Unsupervised Learning):
- 정답이 없는 데이터를 사용해 패턴이나 구조를 찾는 방식입니다. 주로 데이터의 군집을 찾아내거나 데이터를 요약하는 데 사용됩니다.
- 주요 알고리즘: K-평균 클러스터링(K-Means Clustering), 주성분 분석(PCA), 가우시안 혼합 모델(GMM).

2024.09.28 - [Data Science/machine learning] - 클러스터링의 정의와 주요 방법들

클러스터링의 정의와 주요 방법들

클러스터링(Clustering)은 데이터를 유사성에 따라 여러 그룹(클러스터)으로 나누는 비지도 학습 기법입니다. 레이블 없이 데이터 내의 패턴을 파악하고, 이를 통해 자연스러운 그룹을 형성합니다.

bgreat.tistory.com

2024.09.28 - [Data Science/machine learning] - 차원 축소(Dimensionality Reduction)의 정의

차원 축소(Dimensionality Reduction)의 정의

차원 축소는 고차원 데이터를 저차원으로 변환하여, 데이터를 처리하고 해석하기 쉽게 만드는 기법입니다. 이는 데이터의 복잡성을 줄이고, 분석 또는 시각화 성능을 향상시키는 데 주로 사용

bgreat.tistory.com

강화 학습(Reinforcement Learning):
- 에이전트가 환경과 상호작용하며 보상(Reward)을 최대화하는 방식으로 학습하는 알고리즘입니다. 에이전트는 시행착오를 통해 더 나은 행동을 찾아내는 방식으로 학습합니다.
- 주요 알고리즘: Q-러닝(Q-Learning), 정책 경사법(Policy Gradient).

머신러닝의 응용 분야

머신러닝은 다양한 산업과 분야에서 폭넓게 사용됩니다. 예를 들어, 다음과 같은 분야에서 머신러닝이 큰 기여를 하고 있습니다:

의료: 질병 예측 및 진단, 유전자 분석, 의료 영상 처리.
금융: 사기 탐지, 신용 평가, 주식 시장 예측.
자율주행: 차량 제어, 객체 인식.
자연어 처리(NLP): 음성 인식, 언어 번역, 챗봇.

이외에도 물류, 제조, 마케팅 등 다양한 산업에서 머신러닝을 활용한 자동화와 최적화가 이루어지고 있습니다.

머신러닝 모델 평가 방법

머신러닝 모델의 성능을 평가하는 것은 모델 선택과 개선에 있어 매우 중요한 과정입니다. 주요 평가 지표로는 다음과 같은 것들이 있습니다:

정확도(Accuracy): 전체 예측에서 맞춘 비율을 측정합니다. 단순하지만, 불균형 데이터에서는 신뢰성이 떨어질 수 있습니다.
정밀도(Precision)와 재현율(Recall): 정밀도는 모델이 True Positive로 예측한 것 중 실제로 맞은 비율을, 재현율은 전체 True Positive 중 모델이 얼마나 많이 맞혔는지를 평가합니다.
F1 Score: 정밀도와 재현율의 조화를 측정한 지표로, 두 지표 간의 균형이 중요할 때 사용됩니다.
AUC-ROC Curve: 분류 모델에서의 성능을 평가하기 위해 사용되며, 모델의 True Positive와 False Positive 간의 트레이드오프를 시각적으로 보여줍니다.

또한, 모델의 일반화 성능을 측정하기 위해 교차 검증(Cross Validation)을 사용하는 것이 좋습니다. 데이터를 여러 번 분할하여 모델을 훈련하고 테스트함으로써, 데이터 샘플의 변동성을 반영한 보다 안정적인 성능 평가가 가능합니다.

머신러닝의 한계 및 도전 과제

머신러닝은 강력한 도구이지만, 여전히 몇 가지 한계와 도전 과제를 안고 있습니다.

데이터 품질: 머신러닝 모델의 성능은 주어진 데이터의 품질에 크게 의존합니다. 결측 데이터, 이상치 또는 잘못된 레이블이 포함된 데이터는 모델의 성능을 크게 저하시킬 수 있으며, 이를 처리하기 위한 데이터 전처리 과정이 필수적입니다.
과적합(Overfitting): 모델이 학습 데이터에 너무 집중하여, 새로운 데이터에 대한 예측 성능이 떨어지는 문제입니다. 과적합을 방지하기 위해서는 정규화(Regularization), 조기 종료(Early Stopping), 드롭아웃(Dropout) 등의 기법을 사용해야 합니다.
해석 가능성(Interpretability): 딥러닝과 같은 복잡한 모델은 높은 예측 성능을 제공하지만, 그 과정이 블랙박스처럼 작동하여 내부 동작을 이해하기 어려울 수 있습니다. 이 때문에, 모델 해석 가능성을 높이기 위한 연구가 활발히 진행되고 있으며, SHAP(Shapley Additive Explanations)나 LIME(Local Interpretable Model-agnostic Explanations) 같은 도구가 활용되고 있습니다.
윤리적 문제: 머신러닝 모델은 학습한 데이터에 내재된 편향(Bias)을 그대로 반영할 수 있으며, 이는 특정 집단에 대한 차별을 유발할 수 있습니다. 공정하고 투명한 머신러닝 시스템을 구축하기 위해 윤리적 기준이 요구됩니다.

머신러닝과 딥러닝의 차이점

머신러닝과 딥러닝은 흔히 혼용되지만, 두 개념에는 중요한 차이가 있습니다.

특징 추출(Feature Extraction):
- 머신러닝에서는 사람이 데이터를 분석하여 직접 특징을 추출한 후, 그 데이터를 모델에 학습시킵니다.
- 딥러닝은 인공 신경망을 사용하여 데이터를 처리하는 과정에서 자동으로 특징을 추출합니다. 특히, 컨볼루션 신경망(CNN)과 순환 신경망(RNN) 같은 모델은 이미지나 시계열 데이터에서 중요한 패턴을 자동으로 학습할 수 있습니다.
컴퓨팅 자원:
- 딥러닝은 복잡한 네트워크 구조를 가지며, 대규모 데이터를 처리하기 때문에 고성능의 GPU나 TPU와 같은 특수한 하드웨어가 필요합니다.
- 머신러닝 모델은 일반적으로 딥러닝보다 계산 자원이 덜 필요하며, 작은 데이터셋에서도 잘 작동할 수 있습니다.

EM 알고리즘: 점진적 학습이 필요한 모델과 그렇지 않은 모델

EM(Expectation-Maximization) 알고리즘은 불완전한 데이터나 숨겨진 변수가 있는 확률 모델에서 파라미터를 추정하기 위해 사용됩니다. 이 알고리즘은 점진적인 학습 과정을 통해 모델을 최적화하는데, 머신러닝에서 모든 알고리즘이 EM 알고리즘처럼 점진적 학습을 요구하지는 않습니다.

점진적 학습이 필요한 모델

확률 모델: 확률 기반 모델에서는 데이터를 완벽하게 설명하기 위한 파라미터를 찾기 위해 반복적으로 모델을 업데이트할 필요가 있습니다. EM 알고리즘이 이러한 과정에서 대표적인 알고리즘입니다.
가우시안 혼합 모델(GMM): GMM에서는 각 데이터가 어느 가우시안 분포에 속하는지 알 수 없기 때문에, EM 알고리즘을 사용해 점진적으로 각 데이터의 클러스터 할당 확률을 추정합니다.
HMM(은닉 마르코프 모델): 음성 인식이나 자연어 처리에서 사용되며, 상태가 관측되지 않는 경우가 많아 EM 알고리즘을 사용해 점진적으로 상태 전환 확률을 학습합니다.

점진적 학습이 필요하지 않은 모델

결정 트리(Decision Tree): 결정 트리는 한 번 학습이 완료되면 끝나는 모델입니다. 데이터의 분할 기준을 찾고, 그에 맞춰 트리를 형성한 후 더 이상 점진적 학습이 필요하지 않습니다.
k-최근접 이웃(K-Nearest Neighbors, KNN): KNN은 학습 과정을 필요로 하지 않고, 새로운 데이터가 들어왔을 때 그 데이터를 기반으로 가장 가까운 이웃 데이터로부터 결과를 추정하는 모델입니다.
선형 회귀(Linear Regression): 선형 회귀는 모델이 한 번의 최적화로 파라미터를 학습하면 끝나므로, 점진적 학습이 필요하지 않습니다.

점진적 학습이 필요하지 않은 경우와 부트스트래핑의 필요성

점진적 학습이 필요하지 않은 모델, 특히 결정 트리(Decision Tree)와 같은 모델들은 데이터의 분할 기준을 한 번 설정하면 학습이 종료됩니다. 이런 모델들은 반복적인 학습을 통해 점진적으로 개선되지 않기 때문에, 모델의 성능이 주어진 학습 데이터에 크게 의존하게 됩니다. 이로 인해 특정 데이터에 과적합(Overfitting)될 위험이 커질 수 있습니다.

따라서, 점진적 학습이 없는 모델들은 앙상블 학습 기법 중 하나인 부트스트래핑(Bootstrap)을 통해 더 안정적이고 일반화된 성능을 얻을 수 있습니다. 배깅(Bagging)과 같은 앙상블 기법에서 부트스트래핑은 매우 중요한 역할을 하며, 데이터에 대한 의존도를 줄여 모델이 더 다양한 데이터 샘플을 학습하도록 돕습니다.

부트스트래핑은 데이터 샘플을 복원 추출하여 여러 개의 학습 데이터셋을 만드는 기법입니다. 이 과정을 통해 각 모델은 원본 데이터와 약간 다른 형태의 데이터를 학습하게 되어, 개별 모델의 과적합을 방지하고, 전체 모델의 예측 성능을 높이는 데 기여합니다.

앙상블 학습: 배깅(Bagging), 보팅(Voting), 부스팅(Boosting)

머신러닝에서 성능을 높이기 위한 방법 중 하나는 앙상블 학습(Ensemble Learning)입니다. 여러 모델을 결합하여 더 나은 성능을 내는 이 방법에는 배깅(Bagging), 보팅(Voting), 부스팅(Boosting)이라는 세 가지 주요 기법이 있습니다. 각 방법은 학습 방식과 모델 결합 방식에서 차이가 있지만, 개별 모델보다 더 높은 성능을 기대할 수 있습니다.

1. 배깅(Bagging)

배깅은 부트스트랩(Bootstrap) 기법을 활용하여 데이터를 여러 개의 샘플로 나누고, 그 샘플을 바탕으로 각각의 모델을 독립적으로 학습시킨 후, 그 결과를 결합하는 방식입니다. 배깅의 대표적인 예로는 랜덤 포레스트(Random Forest)가 있습니다.

2. 보팅(Voting)

보팅은 여러 모델을 학습한 후, 그 결과를 종합해 최종 예측을 내리는 방식입니다. 보팅은 하드 보팅(Hard Voting)과 소프트 보팅(Soft Voting)으로 나뉩니다.

3. 부스팅(Boosting)

부스팅은 여러 약한 모델(Weak Learner)을 순차적으로 학습시키며, 이전 모델이 틀린 데이터를 다음 모델이 더 잘 학습할 수 있도록 보완하는 방식입니다.

배깅 vs 보팅 vs 부스팅

특징	배깅(Bagging)	보팅(Voting)	부스팅(Boosting)
학습 과정	모델들이 독립적으로 학습됨	모델들이 독립적으로 학습됨	모델들이 순차적으로 학습되며, 이전 모델의 실수를 보완
모델 종류	같은 모델(주로 결정 트리)을 사용	서로 다른 모델을 결합할 수 있음	약한 모델들을 결합
오류 수정	개별 모델 간 오류 수정 과정 없음	모델 독립적, 수정 과정 없음	이전 모델의 오류를 다음 모델이 보완
병렬 처리 가능성	모델들이 독립적으로 학습되므로 병렬 처리 가능	모델들이 독립적으로 학습되므로 병렬 처리 가능	순차적 학습으로 병렬 처리 어려움
과적합 방지	과적합 방지에 유리	다수결 또는 확률 평균을 사용해 과적합 방지	과적합 가능성 있지만, 규제를 통해 해결 가능
대표 알고리즘	랜덤 포레스트(Random Forest)	하드/소프트 보팅	AdaBoost, Gradient Boosting

결론

머신러닝은 데이터를 기반으로 모델이 학습하고, 이를 통해 새로운 데이터를 예측하는 강력한 도구입니다. EM 알고리즘은 점진적인 학습이 필요한 모델에서 잠재 변수를 추정하는 역할을 하며, 이와 달리 학습이 한 번에 이루어지는 모델들도 있습니다. 이러한 점진적 학습이 없는 모델들은 과적합의 위험이 크므로, 부트스트래핑(Bootstrap)과 같은 기법을 사용해 데이터 샘플을 다양화하여 앙상블 학습을 적용하는 것이 효과적입니다. 배깅, 보팅, 부스팅은 각각의 모델을 결합하여 성능을 극대화할 수 있는 강력한 방법이며, 문제와 데이터의 특성에 따라 적절한 방법을 선택하여 더 높은 성능을 기대할 수 있습니다.

저작자표시 비영리 변경금지 (새창열림)

'Data Science > machine learning' 카테고리의 다른 글

분류(Classification)란? (2)	2024.09.27
회귀(Regression)의 정의 (3)	2024.09.27
LLM(대형 언어 모델) 개요 및 주요 모델 비교: BERT, GPT, GENNMINI, LLaMA (2)	2024.09.23
추론 시스템 만들기 (0)	2024.09.09
Kaggle 이란 (0)	2021.08.05

Be great