-카드신청자의 카드 사용 승인을 거절해야 하는 경우 그것의 결과를 설명할 수 없는 이 신경망구조분석보다 이유를 설명해줄 수 있는 의사결정나무 분석이 더 유용

-분류(classification) 기술 중 가장 일반적으로 사용되는 방법. 주어진 데이터를 분류하며 예측에는 사용할 수 없음. 즉 목표변수가 범주형인 경우 사용되며 목표 변수가 수치형인 경우에는 결정트리 알고리즘을 적용할 수 없음

 

-meet friend 데이터를 분석하여 만약 만나지 않았다면 결정트리에 의해 어떤 결정을 할 것인가를 나타낸 것. 여기서 사각형을 decision block, 타원형을 terminating block, 화살표를 branches라고 함. 단말노드를 여러개 가지고 있는 결정 트리는 여러 개이 규칙을 한꺼번에 표현하고 있음

-입력과 출력 정보가 있는 데이터로부터 결정 트리를 만들면, 결정 트리로 새로운 데이터에 대한 출력값을 예측할 수 있음. 이 경우 결정 트리는 분류기(Classifier) 역할을 함

-예시

createBranch function(  )

Check if every item in the dataset is in the same class:

    If so return the class label

    Else

        find the best feature to split the data

        split the dataset

        create a branch node

             for each split

                 call createBranch and add the result to the branch node

        return branch node
                                                         출처: http://seamless.tistory.com/20 [Mino's blog]

 

 

1. 결정트리 학습 알고리즘

 가, ID3( Iterative Dichotomiser 3) : Ross Quinlan

-범주형 속성값을 갖는 데이터로부터 엔트로피 개념을 사용하여 결정 트리를 구성

-이와 같은 결정트리 학습 알고리즘은 모든 데이터를 포함하는 하나의 노드에서 시작해 노드를 반복적으로 분할하여 결정트리를 만듬

-노드 분할 단계에서 노드를 분할할 기준이 될 분할 속성(spiltting attribute)을 선택하고, 속성값에 따라 자식 노드들을 만들어 데이터들을 해당하는 자식 노드에 나누어 넣음

-분할 속성을 결정할 때 어떤 속성을 선택하는 것이 효율적인가를 고려해야하는데 분할할때 분할된 각 데이터 집합이 동일한 부류가 되게 하는 속성을 선택하는 것이 좋다. 데이터 집합의 동질적인 정도를 측정하는 척도로 엔트로피(entropy, H)를 사용. 위에서 P(x)는 주어진 데이터 집합에서 부류 x에 속하는 데이터 비율을 나타냄

-엔트로피는 원래 정보량을 측정하기 위해 개발된 것인데, 데이터가 속하는 부류들이 고르게 섞여 있을수록 엔트로피가 커지는 특성이 있음

-ID3 알고리즘은 분할 속성을 결정할 때 엔트로피를 이용한 정보 이득(Information gain, IG)을 사용하며 데이터를 분할하기 전과 후의 변화를 말함

-어떤 속성을 선택함으로 인해서 데이터를 더 잘 구분하게 되는 것을 의미함. 예를 들어 학생 데이터에서 수능 등급을 분류하는데 있어 영어 점수가 수학 점수보다 변별력이 높다고 한다면 영어점수 속성이 수학점수 속성보다 정보 이득이 높다고 할 수 있음

-IG는 전체 데이터 집합의 엔트로피 H(s)에서 특정 속성으로 분할한 이후의 각 부분집합의 정보량의 가중 평균(P(t)H(t)을 뺀 값.

-여기서 H(s)는 상위노드의 엔트로피를 의미하며 정보이득의 계산 식은 상위 노드의 엔트로피에서 하위 노드의 엔트로피를 뺀 것임. IG는 속성 A를 선택했을대 정보이득을 계산하는 식으로, 원래 노드의 엔트로피를 구한 값을 I 라고 하면, 속성 A를 선택한 후의 x개의 하위노드로 나누어 진것에 대한 전체 엔트로피를 구한 후 그것을 J라고 할 때 I-J를 의미하는 것. 이때 이 결과의 값이 클수록 정보이득이 큰것이고 속성 A가 분류하기 가장 좋다는 의미

-그외 정보이득 비(Information gain ratio), 지니계수(Gini index) 등을 사용..

나. C4.5

-1993년 Quinlan에 의해 제안되었고 ID3 알고리즘의 몇가지 한계점을 보완한 알고리즘

-ID3의 문제점

  a. 수치형 속성 취급

  b. 무의미한 속성을 제외하는 문제

  c. 나무와 깊이 문제

  d. 결측치 처리

  e. 비용고려

  f. 효율성

 

2. 결정트리를 이용한 회귀

-단말노드가 부류가 아닌 수치값을 가지는데, 루트 노드에서 해당 단말 노드에 있는 조건들을 모두 만족하는 것들이 가지는 대표값에 해당. 회귀문제에 결정트리를 적용할 때에는, 단말에서 표준편차를 가장 크게 축소하는 속성을 선택.

-여기에서 SD는 표준편차를 나타내고 m은 전체 출력값의 평균을 나타냄. SD(A)는 속성 A를 기준으로 분할한 후에 부분 집합별 표준편차의 가중치 평균을 나타냄

 

 

 

  

 

 

 

-이상치(outlier)는 다른 데이터와 크게 달라서 다른 메커니즘에 의해 생성된 것이 아닌지 의심스러운 데이터를 말함.

-이상치는 잡음 데이터(noise data)와는 다르며 잡음은 관측을 잘못하거나 시스템에서 발생하는 무작위적 오류(random error)등에 의해 발생하는 것으로 이상치를 탐지할 때 제거되어야 할 요소

-잡음은 관심이 없어 제거할 대상이지만, 이상치는 관심 대상

-이상치 감지는 신규성 감지(novelty detection)와 관련된 개념인데, 두 용어를 같은 의미로 사용하기도 함

-이상치는 점 이상치, 상황적 이상치(contextual outlier), 집단적 이상치(collective outlier)로 구분할 수 있음

 

[ 점 이상치 ]                               [집단적 이상치]

 

-점 이상치는 다른 데이터와 비교하여 차이가 큰 데이터를 말함

-상황적 이상치는 상황에 따라 정상일 수도 있고 비정상일 수도 있는 데이터에 대해서 상황에 맞지 않는 데이터. 예를 들어, 현재 성인의 키가 175cm인 데이터는 정상이지만 300년전 175cm는 이상치임. 집단적 이상치는 개별 데이터는 정상처럼 보이지만 여러 데이터를 모아서 보면 비정상적으로 보이는 데이터 집단을 말함

-네트웍 트래픽 데이터에서 특정 웹서버에 대한 서비스 요청 메시지 각각은 정상이지만, 짧은 시간에 갑작스럽게 급증한 서비스 요청 메시지들은 denial-of-service attack, DOS attack 일 수 있음

-이상치 검출 방법 : 지도학습, 군집분석, 반지도학습 등

-사용 분야 : 카드 사용 패턴 분석, 시스템 에러 진단, 급격한 증가 패턴, 특이사건 등

□ 

 

 

 

'2. 인공지능 > 2-3. 기계학습' 카테고리의 다른 글

2-3-8. k-근접이웃 알고리즘  (0) 2018.01.24
2-3-7. 결정트리  (0) 2018.01.22
2-3-5. 기계학습 문제(차원축소)  (0) 2018.01.21
2-3-4. 기계학습 문제(회귀)  (0) 2018.01.13
2-3-3. 기계학습 문제(분류)  (0) 2018.01.09

새로 만들어진 전기,전자, 컴퓨터분야 국제학회가 태국 푸켓에서 진행되어 겨울에 추위도 피할겸 겸사겸사 논문내고 가까운 교수들과 함께 참여했다. 2년이 지난후에 그때의 일을 회상해보니 좋은 추억과 아쉬운 일들이 스쳐 지난다

푸켓은 처음가는 곳이라 생소할 줄 알았는데 방콕이나 파타야 등을 방문한 경험이 있어 크게 낮설지는 않았고 푸켓이 좀 더 알려져서 그런지 방문객도 많고 물건들도 다른 곳 보다 좀더 비싼것같았다.

우리가 묶었던 노보텔호텔은 시내 중심가에 있고 근처의 많은 1급이상의 호텔이 대략 10만원 내외에로 꼼꼼히 알아보면 꽤 괜찮은 결정을 할 수 있을듯하다. 푸켓은 patong beach근처가 가장 번화하며 시내 호텔지역에서 가까운곳에 있다. 다만 골프비용은 다른 것에 비해 좀 비싸고 시내중심가에서는 거리도 있었다. 물론 여러가지 선택 가능은 하지만 골프를 하고 싶다면 다른 지역으로 가는 것이 좋을듯~

 

 

 

쇼핑을 위해서는 아래의 쇼핑몰 지역이 가장 좋을 것 같다. 시내 중심에 있어 여러 방향에서 접근이 편하게 위치하고 있어 편리했다.

 

 

 

  

 

'Inner > 1. 여행' 카테고리의 다른 글

영덕 블루로드 워크샵  (0) 2018.01.23
2017년 여름 교토대학 학회 참석  (0) 2018.01.22
2011년 8월 다시 벤쿠버  (0) 2018.01.09
2010년 겨울 벤쿠버  (0) 2018.01.09
2010년 여름 캄보디아 앙코르와트  (0) 2018.01.09

+ Recent posts