학습한다는 것은?
기계학습이란 인공지능 프로그램이 스스로 학습하는 것을 말한다. 어떤 방법으로 학습할것인가? 여러가지 의미가 있으나 근본적인 답은 결국 "분류하다"일 것이다. 분류하고 나면 아마도 사물을 이해하고, 그 다음으로 판단해서 행동 할 수도 있을 것이다. 즉, '분류하다'는 것은 학습과정의 가장 기본적인 단계로서, 마치 어린아이가 최초로 하기 시작하는 의사 표현인 'YES냐 NO' 일 것이다. 예를 들면 어떤 것을 보았을 때 그것이 먹고 싶은지 아닌지에 대한 의사 표현은 여러가지가 있겠지만 간단하게 'YES. NO'로 표현할 수도 있을것이다. 어떤 것이 쵸콜렛인지, 밥인지, 라면인지 알고 싶다. 이것은 3개의 'YES..NO의 문제가 조합된 것이라고 생각할 수 있다. 어떤 사람에게 내것을 빌려줘도 좋을것인지, 어떤 의견에 대해 'YES'라는 의사 결정을 보내도 좋은지, 어떤 사용자에게 이 광고를 내 보내도 좋을 것인지 등등. 이러한 '판단들'은 모두 'YES, NO'의 문제에 귀결된다.
이러한 의사 결정은 모든 생명체가 생존을 위해 또는 편리함을 위해 반드시 필요하다. 먹을수 있을지 없을지, 적인지 아군인지, 수컷인지 암컷인지 등. 인간은 보다 고도의 지능을 가지고 있으므로 대단히 세세하게, 언뜻보면 무의미할 정도로 삶을 나누고 있다. 이렇게 인간에게 있어서 '인식'이나 '판단'은 기본적으로 'YES. NO'의 문제로 파악할수 있다. 이것의 정밀도를 높혀 가는것이 학습의 목적일 것이다.
기계학습은 컴퓨터가 대량의 데이터를 처리하면서 이 '분류방법'을 자동적으로 습득하도록 하는것이다. 일단 '분류 방법'을 습득하면 그것을 사용해서 기존에 보지 못했던 새로운 입력 데이터를 '분류할' 수 있다. 일단, '사람'을 동물속에서 분별하는 방법을 훈련 데이터 셋으로부터 익히면 다음부터는 사람을 본 순간에 '이것은 사람이다'라고 순식간에 분별할 수 있다는 것이다.
지도학습
- '입력'과 '결과값'을 세트로 제공하고, 어떤 입력이 주어졌을때 그 결과값이 나오도록 컴퓨터에 학습을 시키는 것.
예를 들어 문서 분류라면 할당해야 할 라벨은 이 문서는 '정치 분야', 이 문서는 '경제 분야'라는 문서의 카테고리가 될 것이며, 이미지 인식이라면 이 이미지는 '요트' 이 이미지는 '꽃'이라는 라벨이 필요할 것이다. 이렇게 라벨링이 되어 있는 데이터 세트로는 로이터 통신의 데이터 셋이 유명한데 2만개의 신문기사 데이터에 135개의 카테고리가 부여되어 있어서 문서 분류 연구에서 잘 사용되고 있다.
비지도학습
- 입력용 데이터만 주고 결과값 없이 데이터에 내재하는 어떤 분류를 파악하는 것이다. 데이터 속에 있는 일정한 패턴이나 룰을 추출하여 전체의 데이터를 어떤 유사함을 기준으로 군집으로 나누거나 그러한 행동을 나타내는것이 대표적인 비지도 학습이다. 예를 들면 어떤 슈퍼마켓의 구매 단가가 높은 그룹과, 평균 구매 단가가 낮은 그룹을 데이터 분포를 통해 밝혀내는것은 클러스터링의 한 예라 할 수 있다. 또한, '기저귀와 맥주를 함께 구매하는 경우가 많다'라는 것을 발견하는 것이 빈출 패턴 마이닝 혹은 상관 룰 추출이라고 불리는 처리이다. 이와 같이 비지도 학습은 인간의 '라벨링'없이도 데이터의 분포만으로 그 패턴을 인식하는 학습 방법을 말한다.
[참고함 : 마쓰오 유타카. 인공지능과 딥러닝]
'2. 인공지능 > 2-3. 기계학습' 카테고리의 다른 글
2-3-6. 기계학습 문제들(이상치 감지) (0) | 2018.01.21 |
---|---|
2-3-5. 기계학습 문제(차원축소) (0) | 2018.01.21 |
2-3-4. 기계학습 문제(회귀) (0) | 2018.01.13 |
2-3-3. 기계학습 문제(분류) (0) | 2018.01.09 |
2-3-2. 기계학습기술의 종류 (0) | 2018.01.08 |