Xp
자동
Free-Talk

만일 알파고가 자신끼리만 바둑을 두며 학습했다면?

 
2
  2719
Updated at 2016-03-13 00:42:48

질문입니다.

알파고는 인간들과 바둑을 두면서 경험치를 쌓고, 인간들이 바둑을 둔 결과물인 기보를 학습한 것으로 압니다. 그리고 그러한 학습을 몬테카를로 서치를 획기적으로 효율적으로 한 데 쓴 것으로 압니다.
제 생각에 이러한 학습과정은 결국 인간 패턴인식의 우수함을 영리하게 활용한 것으로 보입니다. (물론 스스로와도 게임을 하면서도 학습을 하는 것으로 압니다만)

그래서 드는 질문이, 만일 지금의 알파고와 동일한 알고리즘을 탑재한 머신이, "태초부터 자기들끼리만" 바둑을 두면서 충분한 시간 학습을 했다면, 그리고 나중에 이세돌과 게임을 했다면 이길 수 있을까요? 바꿔말하면 인간의 패턴인식의 성과를 활용하지 않았다면 이길 수 있었을까요?
이 질문에 대한 답이 결국 인간과 알파고 중 누가 더 바둑을 잘 두느냐에 대한 답이 될 수 있을까요?
16
Comments
2016-03-12 23:32:13

1. 당연히 이깁니다.


2. 알파고가 더 잘 둡니다.
WR
2016-03-12 23:48:07
그렇다면 자기들끼리 두면서 어떻게 두는 것이 결국 이기는지에 대한 나름의 데이터를 쌓아갈 수 있고 그런 편향적 분포, 즉 어떤 수는 이기게 되고 어떤 수는 지게 되는지에 대한 정보를 활용해서 일종의 패턴화를 컴퓨터 자체적으로 할 수 있다고 생각하시는 건가요?
2
2016-03-12 23:33:01

질문에 모순이 있습니다. 빅테이터가 들어가지 않은 알파고는 뉴럴넷이 아무리 갖춰졌다고 해도 인공지능이 아니라 랜덤시뮬레이션 머신입니다. 인공지능이 발휘되려면 어떤 데이터라도 들어가 있어야 하는데, 그 어떤 데이터가 뭘 뜻하는 건지 모르겠습니다.

WR
2016-03-12 23:47:21

인간의 데이터가 들어가지 않은 알파고도 바둑의 규칙은 프로그램이 되어 있습니다. 그렇다면 자기들끼리 두면서 어떻게 두는 것이 결국 이기는지에 대한 나름의 데이터를 쌓아갈 수 있고 그런 편향적 분포, 즉 어떤 수는 이기게 되고 어떤 수는 지게 되는지에 대한 정보를 활용해서 일종의 패턴화를 하고, 이를 이용해 시뮬레이션 수를 줄여갈 수 없나요?

초기에는 매우 더딜지라도 가능하지 않나요?
2016-03-12 23:53:27

지금 알파고는 무한저장머신이 아닙니다. 인간의 고수를 대항할 충분한 데이터를 쌓기 전에 전혀 필요없는 데이터로 꽉 찰 것입니다. 알파고는 BullsGo님이 생각하시는 만큼 뛰어난 기계가 아닙니다.

미래에 나오게 될 기계는 이 방법이 가능할 수도 있습니다. 지금 상태의 알파고로는 어림도 없습니다.

WR
2016-03-12 23:57:18

저장용량 문제는 잘 모르겠지만, 최소한 질문에 모순이 있는 것은 아니군요.

2
2016-03-12 23:59:47

저장용량은 하나의 예고, 학습능력도 무에서 유를 창조할 정도와는 너무 거리가 멉니다. 제가 모순이라고 한 것은 처음부터 빅데이터가 입력되지 않은 알파고는 알파고라고 부르기 어렵기 때문이었습니다.

2
2016-03-13 01:17:16
딥러닝의 가장 큰 문제점은 기존 머신러닝 방법에 비해 데이터가 훨씬 많이 필요하다는 것이죠.

뉴럴넷에서 착각하고 계시는게 딥러닝은 데이터를 기반으로 학습하는 것이지 데이터가 저장되어있는 것이 아닙니다.

뉴럴넷에서 러닝을 통해 perceptron이라고 불리는 노드에 특정 값이 저장되어 있어 그 것을 기반으로 input을 평가하는 방식이구요.

CNN 같은 경우도 이미지가 무한정으로 데이터가 있는게 아니기 때문에 근처 픽셀과 연관이 있다는 것에 착안하여 만들어 진 것입니다.

그러나 게시판 글처럼 알파고끼리 서로 대전하는 것은 무한정으로 데이터를 학습할 수 있다는 뜻도 됩니다. 그렇기 때문에 데이터를 계속 생산할 수 있는 것이죠.

논문들을 보시면 초반의 쓰레기 input들이 크게 각 perceptron에 크게 bias를 주는 것을 해결하는 다양한 방식이 있습니다.
2016-03-13 04:43:32

저도 여기에 동의합니다.

바둑이라는 "룰"이 단순한 게임입니다. 
"룰"에 따라 이기는 "전략"이 복잡한 거지요.
당연히, CNN에 줄 데이터 생성이 얼마든지 가능합니다.
아마 수준은.. 초기 바둑 인공지능 정도 생각하시면 되겠군요.

p.s.  이게 가능하더라도, 무에서 유를 창조한다라고 보긴 어렵지 않을까요 :)

2016-03-13 05:08:09

말씀 감사합니다. 제가 저장이라는 단어를 쓴 것은 정확한 상황을 몰라서입니다.


말씀하신 논문에서 KGS Go Server의 30 밀리언개의 정보를 입력했다는 것을 저장으로 표현한 것입니다. 그것들로부터 supervised learning (SL) 의 p(_세타)를 최대화 하는 것이구요. 그리고 알파고까지 서로 대전하는 것은 데이터를 학습할 수 있는 것이 맞습니다. 하지만 SL이 없는 상태에서 reinforcement learning (RL) 만 가지고 어떤 학습이 될 수 있을까요?


논문에 나온 해결방법은 SL과 RL이 합쳐진 것입니다. 서로 대전하는 데이터로 SL을 생성하려면 도대체 몇번의 대국이 필요할까요? 그런 대국으로 프로수준의 기보를 얻을 수는 있는 건가요?  p(_세타)가 없는 상태에서  p(_로우)의 확률분포는 어떨까요? 이런 것들은 논문에 나와있지 않습니다.

Updated at 2016-03-12 23:49:42

이건 별로 의미가 없다고 봅니다. 알파고도 인간이 만든 것이라는 것은 누구나 인정하는 대전제니까요. 인간의 손을 떠나 어디서 떨어진게 아니라요. 


 현재 중국에서는 알파고에 대항해서 "이거우선지"라는 바둑프로그램을 만들었습니다. 그리고 커제와 대결을 한다고 하죠. 알파고는 미국과 영국에서 만든 것인데 중국은 우리가 만든 우거이선지가 알파고보다 낫다는 것을 강조하고 싶어하죠. 만약에 이거우선지가 알파고보다 낫다면 중국인들의 자랑이 되는... 결국 알파고도 인간이 만든거라는 거죠. 

 그런데 알파고가 지금 너무 뛰어나서 커제와의 대전 결과가 어떻게 나오든 아무 상관이 없게 되어 버렸네요. 이거우선지가 커제를 이겨도 뭐 이건 딱히 알파고보다 낫다는 보장이 안 만들어지니. 
WR
2016-03-12 23:52:28

전 어느 정도 의미가 있다고 생각합니다. 

만일 위 kkkkkkk님 답처럼 이럴 경우도 알파고가 더 뚸어나다면, (비록 인간이 만들었지만) 기계가 인간과 독립적으로 선험적인 학습이 가능하다는 뜻이기 때문입니다. 인간의 손에서 나왔다고 해서 결국 인간을 뛰어넘지 못한다는 뜻은 아니라는 거죠.
2016-03-13 00:30:52

조만간 인공지능 바둑끼리의 대국을 중계해 줄수도 있겠군요.

2016-03-13 00:42:48

 그럴 가능성은 없어요. 체스는 이미 20년 전에 컴퓨터가 인간을 이겼거든요. 그런데 컴퓨터끼지 체스 대결하는 것을 중계한다는 이야기는 들어본 적이 없죠. 컴퓨터에게 진 이후로 체스대회 상금이 줄었다는 말이 있던데 그것도 사실이 아니라는 거 같고 말입니다.


  
2016-03-13 07:29:25

댓글에 쓰신 이거우선지와 알파고 간의 친선경기 정도는 이벤트 성으로 될 수도 있을 것

같습니다. 연구용이건 오락용이건 일단 단기간에라도 흥미를 끌 수 있는 요소는 찾을 수

있을 것 같네요.

1
Updated at 2016-03-13 04:28:52

딥마인드측 중계에서 잠깐 이 얘기가 나왔었습니다. future proejct라고 하네요. 26분 9초부터 나옵니다.


https://youtu.be/qUAmTYHEyM8?t=26m9s
글쓰기
검색 대상
띄어쓰기 시 조건








SERVER HEALTH CHECK: OK