728x90
아웃라이어(Outlier)란?
**아웃라이어(Outlier)**는 데이터 분석에서 전체 데이터 분포나 패턴에서 현저하게 벗어난 값, 즉 다른 데이터와 뚜렷이 구별되는 극단적인 값을 의미합니다23911. 이러한 값은 데이터 집합 내에서 "혼자 다르게 행동하는 데이터"로 볼 수 있으며, 데이터의 일반적인 경향이나 분포와 비교해볼 때 매우 크거나 작은 값일 수 있습니다.
아웃라이어의 발생 원인
아웃라이어는 다음과 같은 다양한 원인으로 발생할 수 있습니다5911:
- 데이터 입력 오류(오타, 잘못된 값 입력)
- 측정 장비의 오작동 또는 실험적 오류
- 실제로 드물게 발생하는 특이한 사건이나 비정상적인 상황
- 데이터 처리 또는 관리 과정에서의 실수
- 자연적인 변동성이나 예외적 현상
아웃라이어가 데이터 분석에 미치는 영향
- 분석 결과 왜곡: 아웃라이어는 평균, 분산 등 통계량에 큰 영향을 미쳐 분석 결과를 왜곡시킬 수 있습니다911.
- 모델 성능 저하: 머신러닝 모델에서는 아웃라이어가 학습 및 예측 성능을 떨어뜨릴 수 있습니다11.
- 중요 정보의 단서: 때로는 아웃라이어가 새로운 패턴이나 중요한 이상 현상의 신호가 될 수도 있습니다7.
아웃라이어 탐지 방법
아웃라이어를 탐지하는 대표적인 방법은 다음과 같습니다1489121415:
- 통계적 방법
- 시각화 방법
- 상자그림(Box Plot), 산점도 등으로 극단값을 시각적으로 확인9.
- 머신러닝/통계적 기법
아웃라이어 처리 방법
- 제거: 명백한 오류나 분석에 부정적 영향을 미치는 경우 데이터에서 제거5713.
- 대체: 극단값을 적절한 값(예: 최대/최소 허용값)으로 대체(윈저화, Winsorization)7.
- 별도 분석: 아웃라이어 자체가 의미 있는 정보일 경우 별도로 분석.
요약
아웃라이어는 데이터 집합에서 다른 값들과 현저히 차이나는 극단적인 값으로, 입력 오류, 측정 오류, 특이 사건 등 다양한 원인으로 발생합니다. 분석 결과를 왜곡하거나 모델 성능을 저하시킬 수 있으므로, 통계적·시각적·머신러닝 기법 등 다양한 방법으로 탐지하고, 목적에 따라 적절히 처리하는 것이 중요합니다48911.
Citations:
- https://modulabs.co.kr/blog/outlier-detection
- https://blog.naver.com/jy990812/222858264340
- https://esj205.oopy.io/72782730-23e4-43cf-8799-f3cdcbcb57b9
- https://velog.io/@stand_hyo/Data-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%A0%84%EC%B2%98%EB%A6%AC-%EC%9D%B4%EC%83%81%EC%B9%98Outlier%EC%99%80-%EA%B2%B0%EC%B8%A1%EC%B9%98Missing-Value-%EC%B2%98%EB%A6%AC%ED%95%98%EA%B8%B0
- https://data-analysis.datascienceschool.net/ch03/03_09.html
- https://seeyapangpang.tistory.com/10
- https://brunch.co.kr/@@b34P/64
- https://vision-ai.tistory.com/entry/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%A0%84%EC%B2%98%EB%A6%AC-%EA%B8%B0%EB%B2%95-%EA%B2%B0%EC%B8%A1%EC%B9%98NaN-%EC%B2%98%EB%A6%AC%EC%99%80-%EC%9D%B4%EC%83%81%EC%B9%98Outlier-%ED%83%90%EC%A7%80
- https://allensdatablog.tistory.com/entry/%EC%9D%B4%EC%83%81%EA%B0%92Outlier%EC%9D%98-%EA%B0%9C%EB%85%90-%EC%9B%90%EC%9D%B8-%EA%B7%B8%EB%A6%AC%EA%B3%A0-%EA%B2%80%EC%B6%9C-%EB%B0%A9%EB%B2%95
- https://velog.io/@choonsik_mom/outlier-detection%EC%9D%B4%EC%83%81%EA%B0%92-%ED%83%90%EC%A7%80-%EA%B5%AC%ED%98%84
- https://bravesol.tistory.com/141
- https://claryk.tistory.com/4
- https://blog.naver.com/kkaekmye/223536726591?recommendTrackingCode=2
- https://claryk.tistory.com/5
- https://sonseungha.tistory.com/703
- https://jeongchangsu.github.io/outlier/
- https://repository.hira.or.kr/bitstream/2019.oak/1659/2/%EC%9D%B4%EC%83%81%EC%B9%98%20%ED%83%90%EC%83%89%EC%9D%84%20%EC%9C%84%ED%95%9C%20%ED%86%B5%EA%B3%84%EC%A0%81%20%EB%B0%A9%EB%B2%95%EA%B3%BC%20%ED%99%9C%EC%9A%A9%20%EB%B0%A9%EC%95%88.pdf
728x90
'IT 자료 > Data Analytics' 카테고리의 다른 글
| 혼동행렬(Confusion Matrix) (0) | 2025.05.22 |
|---|---|
| 노이즈(Noise) (0) | 2025.05.20 |
| 아웃라이어(Outlier)와 노이즈(Noise)의 차이 (0) | 2025.05.20 |
| 행정안전부, 공공데이터평가체계개편 (0) | 2025.05.19 |
| 개인정보 안심구역과 데이터안심구역 비교 (2) | 2025.05.17 |