▶ Radial Basis Function

- 방사형 구조를 기본으로 하는 네트웍으로서 1개의 은닉층에 확률 가우시안이 적용된다

 

 ▷확률 가우시안

샘플이 5개가 있으면 각 이벤트의 확률은 20%이고 두개의 샘플이 나오는 확률은 (1,2)(1,3)(1,4)(1,5)(2,1)(2,2)(2,3)~ 25개의 경우의 수가 나온다. 이러한 확률은 다양하게 발생되고 교집합과 합집합 확률, 조건부 확률 등이 있다.

여기서 좀 더 생각해야 할것은

1) Bayes' rule

두 사건 A와 B에 대해서 다음 식이 성립하며

 

 

두 사건이 서로 독립일때 아래 식이 성립한다

 

 

또한 확률분포는 균일분포와 정규분포로 표현할 수 있는 확률밀도함수(Probability Density Function : PDF)도 포함된다

 

 ▷방사형 구조의 RBF

 

 

1. 특징

- 다층 퍼셉트론의 은닉층에 해당되는 층은 비선형으로 방사형의 구조로서 이 층은 RBF 뉴런들을 포함, 전달함수로서 가우스 분포를 사용

- 은닉층이 1개이고, 유클리디안 거리와 역전파 알고리즘을 사용하며 안정성 판별이 가능

 

2. RBF 네트워크의 은닉층의 값

 

여기서 x는 입력, uj 는 채택 필드에 해당되는 영역 중심, 는 채택 필드의 폭, 는 j번째 뉴런의 출력

- 출력층은 전형적인 선형 뉴런들의 층으로 은닉 뉴런 출력의 선형 변환을 진행함

  :  이 층은 다층 퍼셉트론에서 선형 출력 층에 대응되고 최소제곱 알고리즘을 사용하여 전개함. 출력 층은 임계 값들을 사용할 수도 있고, 그렇지 않을 수

     도 있음

입력 벡터 x가 채택 필드의 중심의 근방에 있는 것이라면, 그것에 관련된 은닉 뉴런은 활성화되며 입력벡터가 두 개의 채택필드 중심 사이에 위치하면서

  채택 필드 폭 내에 속하는 것이라면, 은닉 층 뉴런들은 모두 부분 활성화됨

- 입력 벡터들이 모두 채택필드로부터 멀리 떨어져 있을 때 은닉 층의 활동은 없고, RBF 출력은 출력 층 임계 값들과 같음

- RBF는 지도 학습적인 방식으로 훈련되는 지역적인 네트워크

  `이것은 전역적 네트워크인 다층 퍼셉트론과 대조

  `지역적인 것과 전역적인 것의 구별은 함수 근사에 의해 수용되어진 입력 표면의 크기로 결정

 

3. 출력층의 값

여기서 C는 가중치, 가 비선형함수로 위의 은닉층의 값이고 b가 bias임

 

4. 훈련과정

훈련과정에서 역전파 알고리즘을 적용하고 있음

출력과정에서 가중치 c와 bias b는 다음층에 대해서 1:1 대응

 

 

가중치 C와 bias는 시냅스이다.

 

 

 

 

1. 학습의 성격

1) 학습이란 무엇인가 

- 광의의 의미 : 유기체가 그를 둘러싸고 있는 환경과 상호작용을 통해 그 유기체의 행동에 변화가 일어난 경우라고 성격을 규정

- 협의의 의미 : 학습자가 정해진 학습목표를 달성시키려는 상황에 참여하여 의도한 학습목표를 성취하는 활동을 하는 경우

예시 2 : 어린이 대공원에 있는 돌고래가 조련사의 지시에 따라 물 위로 펄쩍 뛰어올라 5m높이에 매달아 놓은 종을 들이받고 물속으로 헤엄쳐 들어간다.

예시 3 : 개구쟁이 같던 막내 동생이 초등학교 입학을 하고 난 며칠 후 부터 아침에 학교 갈 때는 아버지 어머니께 학교에 다녀오겠습니다라며 공손하게 인사를 한다.

Ø광의적 해석

1) 유기체 : 돌고래, 초등학생 (유기체 전부)

2) 환경과 상호작용 : 조련사의 지시에 따라, 초등학교 입학을 하고 (학습주체가 그에게 허용된 환경과 상호작용하는 것)

3) 행동변화의 측면 : 종을 칠 수 있다, 인사를 한다 (전에는 할 수 없었으나 환경과 상호작용 후 유기체의 행동에 변화가 일어남

Ø협의적 해석

1) 학습의 주체를 학습자로 한정. 학습자란 교육적 기능을 가진 제도적 기관에서 교육을 받는 자에 국한

2) 학습의 상황이나 활동은 의도적으로 제공되는 것에만 국한. 학교나 공교육 기관의 의도적 계획적 조건

3) 학습을 통한 행동의 변화는 바람직한 행동의 변화를 전제로 함. 이 말은 어떠한 행동의 변화를 의도하느냐는 사회의 규범(사회적 지지)에 비추어 볼 때 정당해야 한다는 의미를 내포

->3가지 요건에 맞는 경우의 학습을 좁은 의미의 학습으로 한정

 

ü 저자의 학습에 대한 정의

1) 학습의 내용은 행동의 변화

  - 학습을 행동의 변화로 보는 것은 행동 주의적 관점이며 통찰, 지각 또는 동기의 변화로 보는 것은 인지주의적 관점

2) 학습의 수단 또는 방법은 경험과 훈련

  - 이 때 학습은 개체와 그를 둘러싼 환경이 상호작용하여 발생한다고 봄.

 

결국 학습이란 경험(훈련이나 연습 등)을 통하여 학습자에게 일어나는 비교적 지속적인 행동이나 인지의 변화라고 정리할 수 있다. 이와 같은 학습의 정의

에 따르면 타고난 반응 경향에 의한 행동과 성숙으로 말미암아 자연적으로 일어나는 변화 그리고 질병이나 사고 등으로 인한 일시적인 변화는 학습이 아닌

것으로 본다(변영계, 1984)

 

2) 학교 학습의 성격

학교 학습도 넓은 의미의 학습의 정의이나 교실에서 벌어지고 있는 학습은 그 장면이 학습심리학자들이 이용하는 실험실과는 비교가 되지 않을 정도로 특

이함. 따라서 학습심리학자들이 발견한 여러 학습법칙들을 학교 학습에 직접 적용하기 어려우며, 학교 학습을 중심으로 한 독자적인 이론의 발전이 필요하

다는 주장이 대두됨. Bugelski(1976)는 학습을 실험실 학습과 학교 학습으로 나누고 두 학습 유형의 차이점을 다음과 같이 7가지로 정리

 

1) 학습자가 다르다(학습자 특성 다양), 2) ‘과거경험과의 연결성 문제, 3) 학습의 기준이 다름, 4) 학습과제의 질이 다름, 5) 학습을 통제하는 기술이 다름,

6) 학습자의 개인차를 보는 관점이 다름, 7) ‘학습자의 수에 대한 제한이 어느 정도인가도 다름. 8) 학습의 목적성과 효용성의 차이

-> 실험실 학습에서 발견되는 학습의 원리나 법칙들을 학교 학습에 바로 적용하기는 어려우며, 학교 학습의 상황을 고려한 나름의 학교 학습 이론이 개발

되어야 함. 또한 학습이론을 바탕으로 수업을 보다 효과적이고 효율적으로 실시하는데 적용 될 수업 이론이 연구 개발되어야 함

 

 

2. 교수와 학습

1) 교수의 성격과 정의

Teaching 교수로 번역하여 사용하기도 하고, Instruction을 교수로 번역하기도 한다. 학자에 따라서는 instruction을 수업으로 번역하여 교수와 엄격히 구

분하여 사용하기도 함Reigeluth(1983)는 교수를 수업에 비해 포괄적인 것으로서 구체적으로서는 설계, 개발, 적용, 관리, 평가를 포함하는 것

저자의 교수라는 개념은 교사가 수업 시간에 가르치는 활동(즉 수업)’을 포함하여 그것을 준비하고 실행하며 평가하는 모든 활동을 포함하는 포괄적인 것

2) 교수와 수업

-교수와 수업의 의미에 대해서는 우리말이나 영어 모두 견해가 일치하지 않고 있음

-교수는 가르쳐 주는 것을 의미하고, 수업은 주는 일을 의미.

-영어에서도 명쾌한 합의는 이루어지지 않고 있으나 대부분 instruction을 교수로, teaching을 수업으로 구별.

-이 책에서는 교수를 수업에 비해 포괄적이며 구체적으로는 설계, 개발, 실행, 관리, 평가가 포함되는 것으로 보고, 수업은 교수의 영역 중에서 교사의 적용

 과 실행에 중점을 두는 것으로 구분한 Reigeluth(1983)의 견해를 따르기로 함.

-, 교사가 교실에서 수업시간에 가르치는 것이 수업이며, 이 수업은 포괄적인 교수활동의 일부분으로 봄

 

[학습과 수업의 관계]

- 현실적인 형태로 나타나는 원인

    (1)학습이 반드시 수업의 결과로만 발생하지는 않는다는 것
    (2)수업과 학습이 이루어지기까지의 전 과정이 얼마나 충실했는가의 문제
    (3)수업과 학습 상황에서 계획에 없는 돌발사태가 발생 할 수도 있다는 것을 간과해서는 안됨

 

 Ø 수업과 학습의 차이점

    1)수업에는 일정한 목표가 있어야 하지만 학습에는 목표가 있을 수도 있고 없을 수도 있음
    2)수업은 독립변수이고 학습은 종속변수임. 수업에 의해 학습의 결과가 변화
    3)수업에 대한 연구는 실제 교육이 이루어지는 교실의 현상에 관심이 있으나, 학습에 대한 연구는 기본적으로 연구실이나 실험실의 실험 상황에 더 관심

      이 있음. 교실은 학습자들을 일정한 목표에 도달하게 하는 것이지만, 실험실에서는 어떤 과정을 통해서 학습이 이루어지는지를 알아내는 것. 

    4)수업은 처방적(prescriptive)이지만 학습은 기술(descriptive)

   - 처방은 의사처럼 어떤 목적을 달성하기 위하여 어떻게 할 것인지를 제시, 기술은 어떤 현상이 일어나는 과정과 결과를 있는 그대로 나타내는 것.

따라서, 수업은 학습이라는 목표 달성을 위하여 여러 대한적인 방법들 중에서 가장 적합한 것을 선택하여 그것을 제공하는 활동이고, 학습은 유기체에게

 나타나는 학습의 과정과 결과를 있는 그대로 기술하는 것이라 할 수 있음

 

기계 학습의 분야 중 하나로 패턴 인식, 자료 회귀 분석을 위한 지도 학습 모델이며, 주로 분류와 분석에 사용된다. 두 카테고리 중 어느 하나에 속한 데이터의 집합이 주어졌을 때, SVM 알고리즘은 주어진 데이터 집합을 바탕으로 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형 분류 모델을 만든다. 분류 용도의 신경망은 학습 데이터에 대한 오류를 최소화하는 가중치를 찾는 것이 학습 단계의 목표이다. 다층 퍼셉트론의 경우에 오차 함수 E를 최소화하는 가중치를 찾는다.

다시말하면 SVM은 원 훈련데이터를 비선형 매핑을 통해 고차원으로 변환한다. 이 새로운 차원에서 초평면을 최적으로 분리하는 선형 분리를 찾는다. 즉 최적의 Decision Boundary(의사결정 영역)을 찾는다.

왜 데이터를 고차원으로 보낼까?

2차원에서 비선형 분리가 있다면 이를 한 차원 높은 3차원으로 Mapping하게 되면 선형분리할수 있게 된다. 따라서 충분히 큰 차원으로 적절히 비선형 매핑을 사용하여 두개의 부류를 가진 데이터는 초평면에서 항상 분리될 수 있다..

SVM은 복잡한 비선형 의사결정 영역을 모형화 할 수 있기 때문에 매우 정확하며, 다른 모델들 보다 Over Fitting되는 경향이 적다.

아래 그림은 부류가 2개인 데이터를 분류하는 분류기의 결정 경계에 해당하는 직선들을 보인 것이다. 결정경계 h1은 회색점과 노란점들을 제대로 구별하지 못하기 때문에 바람직하지 않다. h2와 h3는 모두 두 부류를 젣로 분류하기 때문에 오차 함수 관점에서 두 결정 경계가 같은 정도로 우수한 것으로 판정된다. 학습에 사용되지 않은 데이터를 얼마나 잘 분류하는지를 의미하는 일반화 특성 관점에서 h2와 h3를 비교해 보자. h2는 결정 경계 바로 근처에 학습 데이터가 존재하지만, h3는 학습 데이터에서 멀리 떨어져 있다. 학습 데이터와 조금 차이가 있는 데이터가 발생할 때, h3가 h2보다 더 일관되게 판단을 할 수 있다. 결정 경계와 가장 가까이에 있는 학습 데이터까지의 거리를 여백(margin)이라고 한다. 여백 관점에서 보면 h3가 h2보다 우수하다고 할 수 있다.

SVM은 Vladimir Vapnik이 제안한 분류기로, 분류 오차를 줄이면서 동시에 여백을 최대로 하는 결정 경계를 찾는다. 이때 결정 경계로부터 가장 가까이에 있는 학습 데이터들을 서포트 벡터 라고 한다.

 

1) 초평면(Hyperplane)

데이터를 분류하는 선을 초평면이라하고 ' 데이터 embeding 공간에서 한 차원 낮은 부분 공간' 으로 정의 한다. 즉 n 차원의 공간에서의 hyperplane은 n-1차원의 subspace를 의미하는 것이며, 3차원의 경우 hyperplane은 2차원의 면이 되고, 2차원의 경우는 hyperplane은 1차원의 선이 된다.

SVM알고리즘은 서포트 벡터와 여유간격을 통해 두 클래스 데이터 사이를 분류하는 최적의 초평면을 구한다.

 

2) SVM의 학습

SVM은 2개의 부류가 있는 분류 문제에 적용되는 분류기이다. 긍정 결과는 +1, 부정 결과는 -1로서 하나의 값을 갖는다. 아래 그림은 2차원 데이터로서 선형적으로 분리가 가능하며 분리할 수 있는 직선은 무수히 많지만 분류 오류를 최소화하는 최적의 직선을 찾아야 하고 3차원 이상에서는 직선이 아닌 최적의 평면을 찾아야 한다. 최적의 초평면(Decision Boundary)을 찾아 분리하는 것이다

 

 

 아래 그림은 위 그림을 세분화하여 데이터를 분리하지만 직관적으로 볼때 오른쪽 그림의 초평면이 더 정확해 보인다

 

식으로 표현해보면 아래와 같다. 가중치 벡터위 그림에서 2차원이 두개의 속성값이 있을 것이다. 예를 들어 

는 속성 의 값이고 b와 w를 추가적으로 사용한다

초평면의 모든것은 위 식을 만족하는 서포트 벡터라고 한다. 아래 그림의 노란색이 그것이고 분류하기 가장 어렵지만 가장 중요한 정보를 준다 분리 초평면으로 부터 H1위의 점까지의 거리는 이고, 이며 w의 유클리드 norm이다. 최대 margin은 이다.

 

 

 

여기서 SVM은 최대 마진 초평면과 서포트벡터를 KKT(Karush-Kunh Tucker)조건과 라그랑지 방법을 이용하여 구한다.

이것은 SVM의 학습문제가 아래와 같은 제약조건 최적화 문제(Constrained Optimization Problem)가 되고

 

이것이 라그랑주 승수를 도입하여 단일 목적 함수인 라그랑주 함수(Lagrangian function) L( )을 최적화하는 문제로 변환될 수 있다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+ Recent posts