728x90
배경
데이터 분석, 통계, 머신러닝 등에서 데이터의 품질과 신뢰성을 확보하기 위해서는 아웃라이어와 노이즈의 개념을 명확히 구분하는 것이 중요합니다. 두 용어는 종종 혼용되지만, 데이터의 특성과 처리 방법에서 본질적으로 다른 의미를 가집니다.
개념 및 정의
- 아웃라이어(Outlier, 이상치)
- 노이즈(Noise)
구체적 차이점
| 구분 | 아웃라이어(Outlier) | 노이즈(Noise) |
| 정의 | 분포에서 크게 벗어난 극단값, 예외적 데이터 | 데이터 내에 자연스럽게 존재하는 불규칙적, 임의적 변동성 |
| 원인 | 데이터 입력 오류, 실험적 오류, 특이 사건, 자연적 변동 등 | 측정 오차, 환경적 요인, 미확인 원인 등 |
| 탐지 방법 | 통계적·시각적·머신러닝 기반 이상치 탐지 기법 | 신호처리, 필터링, 평균화 등으로 잡음 감소 |
| 분석 가치 | 때로는 중요한 의미(이상 현상, 결함 등)를 가질 수 있음 | 일반적으로 분석적 가치가 크지 않음, 제거 또는 감소 대상 |
| 데이터 영향 | 결과 왜곡, 통계적 분석에 큰 영향 | 전체 데이터의 품질 저하, 모델의 성능 저하 |
| 처리 방식 | 제거, 대체, 별도 분석 | 평균화, 필터링, 스무딩 등으로 감소 |
요약
Citations:
- https://sonseungha.tistory.com/703
- https://euthelearner.tistory.com/16
- https://challenge.tistory.com/19
- http://suanlab.com/assets/lectures/dp/11.pdf
- https://changh95.github.io/20210716-outlier-0/
- https://econimian.tistory.com/54
- https://ys-cs17.tistory.com/74
- https://my-mindpalace.tistory.com/27
- https://incastle-study.tistory.com/39
- https://kjws0712.tistory.com/128
728x90
'IT 자료 > Data Analytics' 카테고리의 다른 글
| 노이즈(Noise) (0) | 2025.05.20 |
|---|---|
| 아웃라이어(Outlier) (0) | 2025.05.20 |
| 행정안전부, 공공데이터평가체계개편 (0) | 2025.05.19 |
| 개인정보 안심구역과 데이터안심구역 비교 (2) | 2025.05.17 |
| 빅데이터 분석 플랫폼의 데이터 통합 아키텍처 (1) | 2025.05.17 |