728x90

배경
데이터 분석, 통계, 머신러닝 등에서 데이터의 품질과 신뢰성을 확보하기 위해서는 아웃라이어와 노이즈의 개념을 명확히 구분하는 것이 중요합니다. 두 용어는 종종 혼용되지만, 데이터의 특성과 처리 방법에서 본질적으로 다른 의미를 가집니다.


개념 및 정의

  • 아웃라이어(Outlier, 이상치)
    • 데이터 집합 내에서 다른 데이터 포인트들과 현저하게 다르거나, 기대한 분포에서 크게 벗어난 값입니다.
    • 일반적으로 데이터 생성 메커니즘을 위배하거나, 예외적인 사건, 입력 오류, 실험적 오류, 또는 자연적 변동성 등 다양한 원인으로 발생합니다265.
    • 통계적 방법(예: Z-score, IQR), 시각화(박스플롯, 산점도) 등으로 탐지하며, 데이터 분석 결과를 왜곡하거나 잘못된 결론을 유발할 수 있기 때문에 주의 깊게 다뤄야 합니다26.
  • 노이즈(Noise)
    • 데이터 수집 과정에서 자연스럽게 포함되는 불규칙한 변동성, 또는 우리가 아직 파악하지 못한 원인에 의해 발생하는 임의적 오차입니다374.
    • 노이즈는 데이터 내에 항상 존재하며, 반드시 이상치(아웃라이어)처럼 극단적인 값을 가지지 않을 수도 있습니다.
    • 노이즈는 데이터의 전반적인 품질을 저하시킬 수 있지만, 흥미로운 분석 대상이 되지는 않습니다. 반면, 아웃라이어는 분석적으로 중요한 의미를 가질 수 있습니다47.

구체적 차이점

구분 아웃라이어(Outlier) 노이즈(Noise)
정의 분포에서 크게 벗어난 극단값, 예외적 데이터 데이터 내에 자연스럽게 존재하는 불규칙적, 임의적 변동성
원인 데이터 입력 오류, 실험적 오류, 특이 사건, 자연적 변동 등 측정 오차, 환경적 요인, 미확인 원인 등
탐지 방법 통계적·시각적·머신러닝 기반 이상치 탐지 기법 신호처리, 필터링, 평균화 등으로 잡음 감소
분석 가치 때로는 중요한 의미(이상 현상, 결함 등)를 가질 수 있음 일반적으로 분석적 가치가 크지 않음, 제거 또는 감소 대상
데이터 영향 결과 왜곡, 통계적 분석에 큰 영향 전체 데이터의 품질 저하, 모델의 성능 저하
처리 방식 제거, 대체, 별도 분석 평균화, 필터링, 스무딩 등으로 감소
 
 

요약

  • 아웃라이어는 데이터 분포에서 명확히 벗어난 특이값으로, 때로는 중요한 분석 대상이 될 수 있습니다256.
  • 노이즈는 데이터 내에 항상 존재하는 임의적 변동성으로, 주로 데이터 품질을 저하시켜 제거 또는 감소의 대상이 됩니다374.
  • 두 개념은 모두 데이터 전처리에서 중요하지만, 의미와 처리 방법이 다르므로 상황에 맞게 구분하여 다뤄야 합니다.

Citations:

  1. https://sonseungha.tistory.com/703
  2. https://euthelearner.tistory.com/16
  3. https://challenge.tistory.com/19
  4. http://suanlab.com/assets/lectures/dp/11.pdf
  5. https://changh95.github.io/20210716-outlier-0/
  6. https://econimian.tistory.com/54
  7. https://ys-cs17.tistory.com/74
  8. https://my-mindpalace.tistory.com/27
  9. https://incastle-study.tistory.com/39
  10. https://kjws0712.tistory.com/128

 

728x90

+ Recent posts