-이상치(outlier)는 다른 데이터와 크게 달라서 다른 메커니즘에 의해 생성된 것이 아닌지 의심스러운 데이터를 말함.

-이상치는 잡음 데이터(noise data)와는 다르며 잡음은 관측을 잘못하거나 시스템에서 발생하는 무작위적 오류(random error)등에 의해 발생하는 것으로 이상치를 탐지할 때 제거되어야 할 요소

-잡음은 관심이 없어 제거할 대상이지만, 이상치는 관심 대상

-이상치 감지는 신규성 감지(novelty detection)와 관련된 개념인데, 두 용어를 같은 의미로 사용하기도 함

-이상치는 점 이상치, 상황적 이상치(contextual outlier), 집단적 이상치(collective outlier)로 구분할 수 있음

 

[ 점 이상치 ]                               [집단적 이상치]

 

-점 이상치는 다른 데이터와 비교하여 차이가 큰 데이터를 말함

-상황적 이상치는 상황에 따라 정상일 수도 있고 비정상일 수도 있는 데이터에 대해서 상황에 맞지 않는 데이터. 예를 들어, 현재 성인의 키가 175cm인 데이터는 정상이지만 300년전 175cm는 이상치임. 집단적 이상치는 개별 데이터는 정상처럼 보이지만 여러 데이터를 모아서 보면 비정상적으로 보이는 데이터 집단을 말함

-네트웍 트래픽 데이터에서 특정 웹서버에 대한 서비스 요청 메시지 각각은 정상이지만, 짧은 시간에 갑작스럽게 급증한 서비스 요청 메시지들은 denial-of-service attack, DOS attack 일 수 있음

-이상치 검출 방법 : 지도학습, 군집분석, 반지도학습 등

-사용 분야 : 카드 사용 패턴 분석, 시스템 에러 진단, 급격한 증가 패턴, 특이사건 등

□ 

 

 

 

'2. 인공지능 > 2-3. 기계학습' 카테고리의 다른 글

2-3-8. k-근접이웃 알고리즘  (0) 2018.01.24
2-3-7. 결정트리  (0) 2018.01.22
2-3-5. 기계학습 문제(차원축소)  (0) 2018.01.21
2-3-4. 기계학습 문제(회귀)  (0) 2018.01.13
2-3-3. 기계학습 문제(분류)  (0) 2018.01.09

+ Recent posts