728x90

아웃라이어(Outlier)란?

**아웃라이어(Outlier)**는 데이터 분석에서 전체 데이터 분포나 패턴에서 현저하게 벗어난 값, 즉 다른 데이터와 뚜렷이 구별되는 극단적인 값을 의미합니다23911. 이러한 값은 데이터 집합 내에서 "혼자 다르게 행동하는 데이터"로 볼 수 있으며, 데이터의 일반적인 경향이나 분포와 비교해볼 때 매우 크거나 작은 값일 수 있습니다.


아웃라이어의 발생 원인

아웃라이어는 다음과 같은 다양한 원인으로 발생할 수 있습니다5911:

  • 데이터 입력 오류(오타, 잘못된 값 입력)
  • 측정 장비의 오작동 또는 실험적 오류
  • 실제로 드물게 발생하는 특이한 사건이나 비정상적인 상황
  • 데이터 처리 또는 관리 과정에서의 실수
  • 자연적인 변동성이나 예외적 현상

아웃라이어가 데이터 분석에 미치는 영향

  • 분석 결과 왜곡: 아웃라이어는 평균, 분산 등 통계량에 큰 영향을 미쳐 분석 결과를 왜곡시킬 수 있습니다911.
  • 모델 성능 저하: 머신러닝 모델에서는 아웃라이어가 학습 및 예측 성능을 떨어뜨릴 수 있습니다11.
  • 중요 정보의 단서: 때로는 아웃라이어가 새로운 패턴이나 중요한 이상 현상의 신호가 될 수도 있습니다7.

아웃라이어 탐지 방법

아웃라이어를 탐지하는 대표적인 방법은 다음과 같습니다1489121415:

  • 통계적 방법
    • Z-Score: 데이터가 평균에서 몇 표준편차만큼 떨어져 있는지 계산. 일반적으로 Z-Score가 ±3 이상이면 아웃라이어로 간주4814.
    • IQR(Interquartile Range): 사분위수 범위를 이용해 Q1-1.5×IQR 또는 Q3+1.5×IQR을 벗어나는 값을 아웃라이어로 판단81216.
  • 시각화 방법
    • 상자그림(Box Plot), 산점도 등으로 극단값을 시각적으로 확인9.
  • 머신러닝/통계적 기법
    • LOF(Local Outlier Factor), Isolation Forest, 군집 기반 방법 등 다양한 알고리즘 활용6910.

아웃라이어 처리 방법

  • 제거: 명백한 오류나 분석에 부정적 영향을 미치는 경우 데이터에서 제거5713.
  • 대체: 극단값을 적절한 값(예: 최대/최소 허용값)으로 대체(윈저화, Winsorization)7.
  • 별도 분석: 아웃라이어 자체가 의미 있는 정보일 경우 별도로 분석.

요약

아웃라이어는 데이터 집합에서 다른 값들과 현저히 차이나는 극단적인 값으로, 입력 오류, 측정 오류, 특이 사건 등 다양한 원인으로 발생합니다. 분석 결과를 왜곡하거나 모델 성능을 저하시킬 수 있으므로, 통계적·시각적·머신러닝 기법 등 다양한 방법으로 탐지하고, 목적에 따라 적절히 처리하는 것이 중요합니다48911.

Citations:

  1. https://modulabs.co.kr/blog/outlier-detection
  2. https://blog.naver.com/jy990812/222858264340
  3. https://esj205.oopy.io/72782730-23e4-43cf-8799-f3cdcbcb57b9
  4. https://velog.io/@stand_hyo/Data-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%A0%84%EC%B2%98%EB%A6%AC-%EC%9D%B4%EC%83%81%EC%B9%98Outlier%EC%99%80-%EA%B2%B0%EC%B8%A1%EC%B9%98Missing-Value-%EC%B2%98%EB%A6%AC%ED%95%98%EA%B8%B0
  5. https://data-analysis.datascienceschool.net/ch03/03_09.html
  6. https://seeyapangpang.tistory.com/10
  7. https://brunch.co.kr/@@b34P/64
  8. https://vision-ai.tistory.com/entry/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EC%A0%84%EC%B2%98%EB%A6%AC-%EA%B8%B0%EB%B2%95-%EA%B2%B0%EC%B8%A1%EC%B9%98NaN-%EC%B2%98%EB%A6%AC%EC%99%80-%EC%9D%B4%EC%83%81%EC%B9%98Outlier-%ED%83%90%EC%A7%80
  9. https://allensdatablog.tistory.com/entry/%EC%9D%B4%EC%83%81%EA%B0%92Outlier%EC%9D%98-%EA%B0%9C%EB%85%90-%EC%9B%90%EC%9D%B8-%EA%B7%B8%EB%A6%AC%EA%B3%A0-%EA%B2%80%EC%B6%9C-%EB%B0%A9%EB%B2%95
  10. https://velog.io/@choonsik_mom/outlier-detection%EC%9D%B4%EC%83%81%EA%B0%92-%ED%83%90%EC%A7%80-%EA%B5%AC%ED%98%84
  11. https://bravesol.tistory.com/141
  12. https://claryk.tistory.com/4
  13. https://blog.naver.com/kkaekmye/223536726591?recommendTrackingCode=2
  14. https://claryk.tistory.com/5
  15. https://sonseungha.tistory.com/703
  16. https://jeongchangsu.github.io/outlier/
  17. https://repository.hira.or.kr/bitstream/2019.oak/1659/2/%EC%9D%B4%EC%83%81%EC%B9%98%20%ED%83%90%EC%83%89%EC%9D%84%20%EC%9C%84%ED%95%9C%20%ED%86%B5%EA%B3%84%EC%A0%81%20%EB%B0%A9%EB%B2%95%EA%B3%BC%20%ED%99%9C%EC%9A%A9%20%EB%B0%A9%EC%95%88.pdf

 

728x90

+ Recent posts