MLPNN(다층퍼셉트론신경망)은 퍼셉트론이 여러층으로 이루어져 있는 형태로써, 초창기 신경망의 XOR문제를 해결하는데 중요한 자리를 차지했다.

* Backpropagation : 단층 퍼셉트론이 복잡하게 얽혀있는 다층 퍼셉트론 네트워크 구조로 되어있으며 이는 크게 입력층, 중간(은닉)층, 출력층으로 나누어진다. 입력층에 들어간 입력 signal은 각 연결강도(weight)와 곱해지고 각 노드(node)에서 더해진다. 출력층에서는 결과값과 실제값을 비교하여 오차가 작은 방향으로 노드간의 연결강도를 조절하는(delta rule)을 사용하여 학습이 이루어 진다.

 

하나의 퍼셉트론은 XOR 문제를 해결할 수 있는 결정 경계를 만들어 낼 수 없지만, 아래 그림과 같이 퍼셉트론을 3개 사용하면 XOR문제를 해결 할 수 있다. 아래 a에서 f1(x) 는 (0,0)에 대해서는 -1을 그리고 나머지에 대해서 +1에서 출력하는 퍼셉트론이고, f2(x)는 (1,1)에 대해서만 -1을 출력하고 나머지에 대해서는 +1을 출력하는 퍼셉트론이다. 그림 b는 이러한 결정 경계에 해당하는 가중치를 보여준다. 최종적으로 (1,0)과 (0,1)에 대해서 +1을 출력하려면, f3(x)와 같은 가중치를 부여하면 된다.

                                  [XOR 문제의 결정 경계]                                             [3개 퍼셉트론으로 구성된 2층의 퍼셉트론]

 

초창기 단일 퍼셉트론의 가중치를 결정하는 학습 알고리즘은 개발되었지만, (b)와 같이 여러개의 퍼셉트론이 층을 구성하는 경우에 대한 학습 알고리즘이 개발되지 못했다. 여러 개의 퍼셉트론을 층 구조로 구성한 신경망 모델을 다층 퍼셉트론(MLP)이라고 한다. XOR문제도 다층 퍼셉트론을 사용하면 해결할 수 있다는 것을 알고 있었지만, 가중치를 결정하는 학습 방법을 찾지 못해 1970년대부터 1980년대 초반까지는 신경망에 대한 연구가 침체된 시기이다. 다층 퍼셉트론을 학습시키지 못한 이유는 퍼셉트론의 전달 함수가 계단함수이기 때문에, 미분이 불가능하여 최대 경사볍과 같은 최적화 방법을 사용할 수 없었기 때문에, 미분이 불가능하여 최대 경사법과 같은 최적화 방법을 사용할 수 없었기 때문이다. 1980년대에 들어오면서 연구자들이 다층 퍼셉트론 학습에 대한 발상을 전환하였다. 미분 불가능한 계단 함수 대신, 이와 비슷하지만 미분 가능한 함수를 사용하는 간단한 아이디어를 도입한 것이다. 이러한 함수로 시그모이드함수와 쌍곡 탄젠트가 있다. 시그모이드 함수 Y(s)는 아래 1과 같이 정의되는 출력 구간(0,1)인 함수이고, 쌍곡 탄젠트 h(s)는 아래 2와 같이 정의 되는 출력 구간 (-1,1)인 함수이다.

아래 그림은 쌍곡 탄젠트 함수의 형태를 보여주는데, (b)와 같이 a값이 커지면 경사가 급해지고, 작아지면 경사가 완만해지는 특성이 있다. 시그모이드 함수와 쌍곡 탄젠트 함수를 미분하면, 아래 식과 같이 미분 함수가 원래 함수로 표현될 수 있다

 

1) 다층 퍼셉트론의 구성

입력이 주어지는 층을 입력층이라 하는데, 주어진입력을 다음 층으로 전달하는 역할을 한다. 여기에서 입력값들을 벡터(X1,X2, · · · ·,Xd)로 나타내고, 입력층의 노드를 나타내는 첨자로  i를 사용하고 다음층으로 연결되는 선의 가중치를 로 나타낸다. 출력을 내는 마지막 층을 출력층이라 하는데, 이노드들은 퍼셉트론이다. 출력값을 벡터(h0, h1, · · · · · · ·hm)으로 나타내고 첨자는 k를 사용한다.

입력층과 출력층 사이에 있는 층을 은닉층이라고 한다. 다층 퍼셉트론은 여러개의 은닉층을 가질 수도 있다. 여기에서 편의상 은닉층이 하나인 것을 대상으로 설명한다. 은닉층의 노드를 가리키는 첨자로 j를 사용하고 은닉층과 출력층 간의 가중치를 로 나타난다. 다중 퍼셉트론에서 연결선은 인접한 층 사이에서만 만들어진다. 다층 퍼셉트론은 (입력, 출력)쌍의 학습 데이터를 사용하여 학습한다. 입력이 주어질때 어떤 값이 출력되어야 하는지에 대한 정보가 있다. 출력층은 입력에 대한 기대하는 출력값에 대한 정보가 있는 반면에, 은닉층에 대해서는 어떤 값이 나와야 하는지에 대한 정보가 없다. 중간에 있는 층에는 어떤 값이 나와야 하는지에 대한 정보가 없기(숨겨져 있기)때문에 은닉층이라고 부른다

 

다층 퍼셉트론은 입력이 주어지면 전방향으로 계산해가면서 출력값을 만들어 낸다. 먼저 은닉층의 각 노드 J의 퍼셉트론은 다음과 같이 Zj를 출력한다

출력층의 각 노드 k의 퍼셉트론은 은닉층의 출력층을 사용하여 다음과 같이 ok를 출력한다

여기에서 퍼셉트론에 대한 전달 함수 f는 시그모이드 함수이다.

 

2) 다층 퍼셉트론의 학습

다층 퍼셉트론에서 학습은 학습 데이터 입력 (x1,x2,------xd)에 대응하는 학습 데이터 출력(t1,t2,----tm)이 나오도록 입력층과 은닉층 사이의 가중치 벡터 u와 은닉층과 출력층 사이의 가중치 벡터 v를 결정하는 것이다. 가중치를 결정할 때, 아래와 같은 제곱오차 E를 최소화하도록 가중치를 찾는다.

오차 함수 E를 최소화하는 가중치를 찾기 위해 일반적으로 다음과 같이 최대경사법(Gradient descent)을 사용한다. 여기에서 는 1보다 작은 양수값의 학습율(learning rate)이다

다층 퍼셉트론에서 오차 함수에 대한 편미분은 다음과 같이 계산된다.

위 식에서 마지막 부분은 모두 로 정리되는 항을 포함하고 있는데, 이 항은 오차와 관련이 있다. 학습할 때 각 학습 데이터의 입력을 다층 퍼셉트론에 집어넣어 출력을 계산하고, 출력값의 오차를 줄이도록 먼저 은닉층과 출력층 사이의 가중치 벡터 v를 수정한 다음, 입력층과 은닉층 사이의 가중치 벡터 u를 수정한다. 편미분식에 있는 오차 관련 항인 가 출력층에서부터 뒤로 전달되어가면서 가중치를 수정하기 때문에, 다층 퍼셉트론의 학습 알고리즘을 오차역전파(error backpropagation)알고리즘이라 한다. 최대 경사법을 사용할 때 학습 도중에 오차 함수의 모양이 평평한 부분을 만나게 되면 그레디언트가 영벡터가 되어 학습이 이루어지지 않는다. 또한 잡음 등으로 오차 함수에 지역적으로 잘못된 부분이 있을 수 있다. 이러한 상황에서는 직전 시점의 그레디언트를 어느 정도 고려하는 것이 바람직할 수 있다. 이때 가중치를 수정하는 식은 다음 식과 같이 되는데, 직전 시점의 이동 벡터에 대응하는 를 모멘텀항이라고 한다

위 식에서 는 모멘텀율(momentum rate)이라 하는데, 1보다 작은 양의 값이다.

 

3) 오차 함수

신경망 모델의 학습은 오차 함수를 최소화하도록 가중치를 결정하는 것이다. 오차 함수를 최소화 하기 위해 기본적으로 최대 경사법을 사용한다. 출력값이 실수값인 경우에는 오차 함수가 아래와같이 오차제곱합의 평균으로 정의된다. 이진 분류기의 경우에는 아래와 같이 하나의 출력 노드 t만 만들고, 이 노드가 특정 부류에 속할 활률 을 출력하도록 학습시킬 수 있다. 이때 출력 노드의 값 t는 다음과 같은 로지스틱 시그모이드를 활성함수로 사용한다.

 

 

여기에서 x는 입력 벡터를 나타내고, w는 가중치 벡터를 나타낸다.

두 개의 부류를 각각 C1과 C2라고 할 때, 출력 값 y(x,w)는 조건부 확률 에 해당하고, 1-y(x, w)는 조건부 확률 에 해당한다. 목표 출력 t값이 부류 c1일때는 1이고, 부류 c2일 때는 0으로 나타낸다고 하자. 이때 입력 x에 대한 목표 출력 t의 조건부 확률 는 다음과 같이 표현할 수 있다.

학습 데이터 집합이 로 주어질 경우, 학습의 목표는 신경망이 각 학습 데이터에 대한 확률 값을 크게 만들어 주도록 가중치를 결정하는 것이다. 가중치 벡터 w인 신경망이 주어진 학습 데이터 집합 D와 같은 결과를 만들어 낼 확률, 즉 가능도는 다음과 같이 표현할 수 있다.

이때 오차함수는 아래의 가능도에 로그함수를 적용한 후 -1을 곱한 음의 로그 가능도로 다음과 같이 정의한다.

 

                              [이진 분류기의 출력]                                                            [다중 분류기의 출력]

 

3개 이상의 부류가 있는 다중 분류기의 출력 노드의 값들이 각 부류별 확률이 되도록 만들 수 있다. 다중 분류 문제의 학습 데이터  집합은 입력 벡터 Xi와 출력 벡터 Ti의 쌍으로 구성된 학습 데이터들로 구성된다. 학습 데이터는 k개의 부류 중 하나에만 속한다. 만약 k번째 부류에 속하는 데이터라면 출력 벡터는 k번째만 1이고 나머지는 모두 0으로 표현한다. 이러한 표현 방식을 one-hot vector 또는 on-hot encoding 이라고 한다.

출력 노드의 값이 해당 부류에 속할 확률값인 분류기를 신경망으로 구현하려면 신경망의 출력 노드의 출력값이 0이상이면서 전체 출력값의 합은 1이 되도록 만들어 주어야 한다. 이를 위해 위의 그림 b와 같은 형태로 구성되는 softmax 층을 구성하는데, 각 노드 yk의 값은 다음과 같이 계산된다.

 

다중 분류 문제에서 학습 데이터 (xi, ti)의 조건부 확률은 위 식 (8)과 유사하게 다음과 같이 표현할 수 있다.

따라서 전체 데이터 D에 대한 가능도는 다음과 같이 표현할 수 있다.

확률값 출력을 하는 다중 분류기의 오차 함수 E(w)는 윗 식에 대한 음의 로그 가능도 함수로 다음과 같이 정의된다

위 식의 오차 함수는 전체 학습 데이터에 대해서 정의된 것인데, 하나의 학습 데이터(xi. ti)에 대한 오차 함수는 식 (9)에 대한 음의 로그 함수 가능도 함수로 다음과 같이 정의된다.

 

위 식은 확률 분포 에 대한 교차 엔트로피의 식과 같기 때문에 위 식의 오차 함수를 목표 분포 와 신경망 출력 분포 의 교차 엔트로피라고 부르기도 한다

 

다층 퍼셉트론은 대표적인 신경망 모델로서 패턴 인식, 컴퓨터 비전, 영상처리, 비즈니스 인텔리전스(BI:기업의 비즈니스 의사 결정을 위해 사용하는 데이터의 접근, 수집, 보관, 분석 애플리케이션과 기술) 분야에서 이용되고 있다. 다층 퍼셉트론 이외에도 SOM(Self-organizing feature map), 홈필드망, ART(Adaptive resonance theory), RBF(radial basis function) 망, 재귀신경망(recurrent network)과 같은 여러 신경망 모델이 있다.

학습된 다층 퍼셉트론은 새로운 데이터에 대한 예측이나 추정을 위해 사용된다. 학습된 다층 퍼셉트론은 학습데이터의 입력과 출력 관계를 나타내는 함수를 모델링한 것이다.

분류문제라면 입력된 데이터에 대해서 출력층의 어떤 노드가 가장 큰값을 가졌는지에 따라 부류가 결정된다. 회귀 문제라면 출력 노드의 값이 입력된 데이터에 대한 예측값이 된다. 새로운 입력에 대해서 출력을 계산하는 것은 앞에서 설명한 다층 퍼셉트론 동작 방법을 따른다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

'2. 인공지능 > 2-3. 기계학습' 카테고리의 다른 글

2-3-15. 신경망(RBF)  (0) 2018.03.03
2-3-13. 신경망(서포트 벡터 머신)  (0) 2018.02.25
2-3-10. 신경망(퍼셉트론)  (0) 2018.02.15
2-3-9. 군집화 알고리즘  (0) 2018.02.14
2-3-8. k-근접이웃 알고리즘  (0) 2018.01.24

1. 교수매체의 정의

 - 대중매체 : 많은 사람에게 정보와 지식을 전달하는 매체로서 신문.방송(라디오와 TV), 영화, 출판 따위를 말함

 - 다중매체 : 문자(text), 그림, 사운드, 동영상 등이 동시에 사용되는 혼합매체로서 컴퓨터와 정보통신기술의 발달과 함께 그 활용도가 점차 높아지고 있음.

 - 교수매체 : 수업의 효과를 높이기 위해 사용되는 시청각 기가재와 수업자료를 통칭

 

*교사가 효과적이고 효율적인 수업지도를 위하여 사용하는 시청각기자재로서 칠판, 모형, 실물, 융판, 차트, 게시판, 사진, 녹음테이프, 영화, 필름, TV, OHP,

 슬라이드, 컴퓨터 등.

*매체와 기술은 인간의 능력 확장 교수매체는 학습자의 감각기관을 확장

 

2. 교수매체의 변화와 발전

 - 교수매체의 변화와 발전은 교육공학 분야의 발달과정과 맥을 같이 함

   *1900년대 초 박물관 등을 중심으로 하여 시작된 시각 중심의 교육은 1923년 시각교육부의 창설함

   *1947년 시청각을 활용하여 교육을 위한 시청각교육부로 명칭이 변경

   *1970년 컴퓨터와 같은 디지털 매체를 활용하는 교육공학회로 발전

   *교수매체의 활용분야는 교육현장에서 효과적이고 효율적인 매체 선정의 문제, 매체간 수업 효과의 비교를 통한 매체의 특성 및 속성에 관한 논쟁 그리고 매체를 중심으로 한 교육환경의 변화로 말미암은 교사의 역할 변화 등에 관한 많은 연구와 논의를 통하여 발전하고 있음

 1) 1960년대 행동주의와 체제 이론의 발전

   - 체제 개념의 발전

   - 행동적 목표진술의 발현

   - 형성평가(Cronbach)의 개념과 구조 발생

   - Skinner의 교수기계, 프로그램 학습

   - 개별화 수업 : PSI, PLAN, IPI, IGE

 2) 1970년대 이후

   - 1970년 미국 시청각교육국 -> 미국교육공학회[ACET]

   - 요구분석

   - 교수체제설계 모형

   - 1980년대 인지주의 출현 : 학습자의 인지구조와 능동적 참여, 개인용 컴퓨터 활용 교육, Clark에 의한 미디어 효과 논쟁

   - 1990년대 구성주의 및 New Media 등장

   - 학습맥락, 상황, 학습 주체에 대한 새로운 시각 제공 : 수행공학, 웹기반 교육(e-learning, u-learning

 

3. 교수매체와 커뮤니케이션 모형

 - Media : 라틴어로서 ‘between(중간물)’의 의미이며 양자의 중간에 위치하여 연결하는 중간 매개 역할

 - 수업과정은 일반 소통과정과 유사, 송신자-교수매체-수신자

1) 벌로(Berlo)의 커뮤니케이션 모형 : SMCR

 

 

송신자와 수신자의 의도하는 메시지가 완전히 일치하지 않음

- 의사소통에서 청각, 시각뿐만 아니라 각 단계별 고려가 중요

- 벌로 모형의 의미 : 종래의 교수활동에 대한 연구가 매체를 중심으로 한 시청각 위주의 단순한 관점에서 벗어나, 의사소통에 영향을 미치는 요소는 교사와 학생의 특성을 포함하는 전체적인 관점에서 분석하게 되는 계기를 마련

2) 쉐넌과 쉬람의 커뮤니케이션 과정 모형

- 인간의 의사소통은 컴퓨터의 통신과 유사

- 무선통신 : 아날로그신호->디지털신호(PCM)->아날로그신호

- 이 과정에서 감쇠, 왜곡, 간섭, 누화, 잡음 등 : 디지털신호의 Noise

컴퓨터 통신에서와 같이 송신자가 보내는 메시지가 통신 경로를 통해 수신자에게 전달하는 과정을 부호화,해독, 경험의 장, 잡음과 피드백의 개념을 사용하여 설명

- 의미 : 교사와 학생이 공통으로 경험하는 장 또는 공감대 형성이 많으면 많을수록, 그리고 교사와 학생의 의사소통을 방해하는 여러 형태의 잡음이 적으면 적을수록 수업이 효과적으로 이루어짐

 

4. 교수매체의 기능과 학습 효과성

1) 교수매체의 기능

- 초기의 일방향 전달에서 컴퓨터의 출현으로 교사와 학생간의 양방향 의사소통

- 교수메체의 효과는 수십년간 비교 연구가 진행되었으나 유의미한 결과를 얻지 못함

- 따라서 교수매체는 메시지를 전달하고 저장하는 기능을 발휘할 수 있으나 직접적인 학습을 결정하지는 않는다고 볼 수 있음. 교수매체의 효과는 받아들이는 학생의 개인차에 따라 다르므로 획일적인 적절한 교수매체나 방법은 없음

2) 교수매체 효과성 연구

- 교수매체 비교연구 : 연구의 결과에 대한 일관성 부족으로 연구방법을 신뢰하지 못함

   *수업의 효과가 순수하게 교수매체 때문인지, 교수매체가 달라짐에 따라 교수방법이 달라져 이것이 수업의 효과에 영향을 미치는지 구분하기 어렵다는 지적

- 교수매체속성연구 : 비교연구의 한계점을 극복하기 위하여 교수매체의 고유속성 및 특징에 대한 연구를 시작.

   *교수매체가 그 자체로 특정한 교육의 효과를 발휘하는 것이 아닌가라는 가정에 근거한 것으로 교수매체의 절대적 효과성에 관한 연구

 

 

1) 신경망

인간두뇌에 대한 계산적 모델을 통해 인공지능을 구현하려는 분야가 신경망.

뇌생리학의 연구에 따르면 인간 두뇌는 신경세포 개 정도이다. 신경세포의 축색돌기는 다른 신경세포의 수상돌기와 연결되는데, 이 연결부위를 신경연접이라한다. 신경연접을 통해 신경세포들은 전기화학적인 신호를 주고 받는데, 다른 신경세포에서 보내 온 신호를 증폭하거나 감쇄하여 받는다. 받아들인 신호는 세포체(cell body)에서 합성되어, 일정 임계값 이상이면, 신경세포는 축색돌기를 통해서 신호를 내보낸다. 신경연접은 신경세포의 기능을 결정하는 부분인데, 인간 두뇌에는 약 개의 신경연접이 있다고 한다. 이러한 단순한 신경세포들을 이용하여 인간 두뇌는 지능, 감정, 자율신경 조절과 같은 일을 해낸다.

 

2) 퍼셉트론

1958년 Frank Rosenblatt, 1928~1971)이 제안한 초창기 신경망 모델. Perceptron은 신경세포를 네트워크 형태의 계산모델로 표현한 것.

퍼셉트론은 다수의 신호(input)을 입력받아서 하나의 신호(output)를 출력한다 이는 뉴런이 전기신호를 내보내 정보를 전달하는 것과 비슷해 보인다. 그리고 뉴런의 수상돌기나 출색돌기처럼 신호를 전달하는 역할을 퍼셉트론에서는 weight가 그 역할을 한다. 가중치라고 부르는 이 weight가 그 역할을 한다. 가중치라고 부르는 이 weight는 각각의 입력신호에 부여되어 입력신호와의 계산을 하고 신호의 총합이 정해진 임계값을 넘었을 때 1을 출력한다. 넘지 못하면 0 또는 1을 출력한다

각 입력신호에는 고유한 weight가 부여되며 weight가 클수록 해당 신호가 중요하다고 볼 수 있다. 여기서 기계학습이 하는 일은 이 weight(입력을 조절하니 매개변수로도 볼 수 있음)의 값을 정하는 작업이라고 할 수 있다. 학습 알고리즘에 따라 방식이 다를 뿐 이 weight를 만들어내는 것이 학습이라는 차원에서는 모두 같다고 할 수 있다.

퍼셉트론의 출력 값은 앞에서 말했듯이 1 또는 0(or-1)이기 때문에 선형 분류 모형이라고도 볼 수 있다. 보통 실수형의 입력 벡터를 받아 이들의 선형 조합을 계산하는 것이며 다른 포스팅에서 다룬 벡터의 내적과도 유사하다. 

앞의 퍼셉트론 수식에서 나오는 세타θ를 -b로 치환하여 좌변으로 넘기면 

    b + w1x1 + w2x2 <0    => 0
    b + w1x1 + w2x2 >=0  => 1

과 같이 되며 여기에서 b를 편향(bias)라고 할 수 있다. 기계학습 분야에서는 모델이 학습 데이터에 과적합(overfitting)되는 것을 방지하는 것이 중요하다. 여기서 과적합이라 함은 모델이 엄청 유연해서 학습 데이터는 귀신같이 잘 분류하지만, 다른 데이터를 넣어봤을 때는 제대로 성능을 발휘하지 못하는 것을 말한다. 어느 데이터를 넣어도 일반적으로 잘 들어맞는 모델을 만드는 것이 중요하다.


따라서 앞에서 설명했듯이 편향은 θ(theta)로 학습 데이터(Input)이 가중치와 계산되어 넘어야 하는 임계점으로 이 값이 높으면 높을 수록 그만큼 분류의 기준이 엄격하다는 것을 의미한다. 그래서 편향이 높을 수록 모델이 간단해지는 경향이 있으며 (변수가 적고 더 일반화 되는 경우) 오히려 과소적합(underfitting)의 위험이 발생하게 된다. 반대로 편향이 낮을수록 한계점이 낮아 데이터의 허용범위가 넓어지는 만큼 학습 데이터에만 잘 들어맞는 모델이 만들어질 수 있으며 모델이 더욱 복잡해질 것이다. 허용범위가 넓어지는 만큼 필요 없는 노이즈가 포함될 가능성도 높다. 이를 편향과 분산의 트레이드오프 관계라고 보통 부르며 기회가 되면 이 부분을 더 다뤄보도록 하겠다. 

하지만 퍼셉트론이 인공지능 분야에서 센세이션을 불러일으켰고 연구 과제도 이쪽으로 몰렸으나 이것이 가지는 한계점이 밝혀지면서 한동안 소외 받는 이론이 되었다. 퍼셉트론을 제시한 로젠블랫은 자살 같은 사고로 세상을 떠났고 시간이 흐른 뒤에야 그의 업적이 재조명 받았다. 퍼셉트론의 한계는 선형으로 분류를 할 수 있지만 XOR와 같이 선형 분류만 가능하며 비선형 분류는 불가능하다는 점이다.


XOR 논리는 exclusive(배타적) 논리연산이다. 아래의 진리표를 보면, x1과 x2 중 어느 한쪽이 1일 때만 1을 출력한다.

 x1

x2 

 0

 1

 0

 0

 1

 1

 

아래 그림을 보면 XOR에서는 선형으로 (직선 하나로)분류가 불가능함을 알 수 있다

 

출처: http://ecee.colorado.edu/~ecen4831/lectures/NNet3.html

 

퍼셉트론의 한계를 간략히 말하면, 직선 하나로 나눈 영역만 표현할 수 있어 XOR과 같은 데이터 형태는 분류가 불가능하다는 한계가 있다.

 

 

-----------------------------------------------------------------------------------------------------------------------------------

 

 

다른 신경세포의 축색돌리로 부터 오는 입력 신호를 로 표현하고, 신경연접에서 신호의 감쇄 또는 증폭 정도를 가중치 벡터

로 나타낸다. 세포체 내에서의 신호의 합성은

여기서, W0는 바이어스 항이라 하고, W0 = W0*1 = W0*W0으로 놓을 수 있으므로 항상 X0 =1의 값을 갖는 특수한 0번째 입력을 추가하여 식을 간략하게 한것이다.  -W0 는 신호 출력의 임계값이다. 합성된 신호의 임계값 이상이면 신호를 출력하는데, 퍼셉트론은 sigmoid와 다른 step function을 사용하여 1 또는 -1 값을 출력한다. 계단함수와 같이 출력값의 형태를 결정하는 함수를 전달함수 또는 활성화 함수(Activation Function)라고 한다. 입력 x에 대한 퍼셉트론의 출력 y는 아래와 같이 표현 가능하다.

f는 퍼셉트론의 전달 함수를 나타내는데, 퍼셉트론은 계단 함수를 전달함수로 사용한다.

 

 

위와 같이 LTU로 된 단순 퍼셉트론의 학습 원리가 있다. 먼저 가중치를 임의의 값으로 초기화 한후 학습 패턴 x 를 입력하여 퍼셉트론 출력 f가 목표 출력  y와 같으면 가중치를 변경하지 않고, 다르면 가중치를 변경하는 방식으로 학습한다. 퍼셉트론 출력이 목표 출력과 일치하지 않는 경우는 다음과 같이 두 가지가 있으며 각각의 경우 가중치 변경 규칙을 다음과 같다.
• 목표 출력 y=1 인데인 f=-1 경우: 가중치 w를 w+x로 증가시킨다
• 목표 출력 y=-1인데인 f=1 경우: 가중치 w를 w-1로 감소시킨다
이와 같은 방식으로 학습예를 반복적으로 관측하면서 가중치를 변경하면 선형분리가 가능한 분류 문제의 경우 올바른 분류기를 학습해 낼 수 있음을 증명할 수 있다. 이를 퍼셉트론 학습 규칙이라고 한다.

 

학습에서 가중치 벡터 w 와 임계값 요소 b를 결정한다. 나중에 식을 간단하게 전개하기 위해, 항상 1값을 주는 입력 X0=1을 추가하고, 이에 대한 가중치를 b로 만들어주면, s를 벡터연산으로 표현 할 수 있다.

 

따라서, 로젠벨트의 퍼셉트론은 하나의 선형 임계뉴런(LTU, Linear Threshold Unit) 으로 구성된 신경망이다. 후에 나오는 다수의 뉴런으로 구성된 다층퍼셉트론과 명확히 구별하기 위하여 경우에 따라서는 퍼셉트론을 단순 퍼셉트론(Simple Perceptron)이라 부르기도 한다.

 

 

 

 

퍼셉트론은 초창기에 숫자 인식과 같은 흥미로운 결과들을 보여주며, 많은 관심을 끌었지만, XOR(exclusive OR)와 같은 단순한 문제도 해결할 수 없는 단점이 있다. 퍼셉트론은 기본적으로 선형으로 표현되는 결정 경계만을 설정하는데, XOR는 선형 경계로 부류들을 분리할 수 없는 문제이다. 이러한 문제를 선형 분리 불가(linearly inseparable problem)라고 한다. 결국, 퍼셉트론은 선형 분리불가 문제에는 적용할 수 없다는 것이다.

 

단일 퍼셉트론으로는 XOR을 분류할 수 없지만, 다층 퍼셉트론을 만들면 이를 극복할 수 있습니다. 다층(multi-layer)이라는 말은 하나의 퍼셉트론에 또 다른 퍼셉트론을 덧붙인다는 의미로 볼 수 있다. 단층 퍼셉트론이 비선형 영역을 분리할 수 없다는 것이 문제이며 다층으로 할 경우 비선형으로 이를 해결할 수 있다.

 

 

 

 

 

 

 

 

 

 

 

 

+ Recent posts