돈 못버는 알파고, 아마존 베조스의 강철 웃음 소리
김무영 씀
새삼
#아마존의 과거를 생각해본다. 아래 보이는 도표를 보면 아마존이 1996 부터 10년을 수평으로 길게, 아주 길게 납작히 거북이 기어가듯 간 것을 볼 수 있다. 그러다 2010을 지나면서야 회사 가치가 상승하기 것을 볼 수 있다. 이 그래프는 회사 가치를 나타내고 있지만 수익그래프로 보아도 무방하다. 한세기의 대분분 수익이 거의 없었던 것을 볼수 있다. 현재 쿠팡이 그런 한 것 처럼 적자 경계 부근에서 스크래치하며 그 수평으로 오랫동안 길게 바닥선을 끌고 간 것을 주목하여 보자.
그러다 이익을 내기 시작한 것이 2010년 전후부터다. 아마존 사장인
#제프_베조스는 그렇게 한치 앞이 안보이는 날들을 그리도 오래 견디어 내야 했다.
그의 웃음 소리를 어느 다큐에서 들은 적이 있다. 다른 사람들이 이야기하는 맥락과 동떨이진 천둥치듯 쩌렁 쩌렁 웃는 사람이었다. 그것도 뜬금없이 혼자 자주 웃는 사람이었다. 어찌 보면 섭찟할 정도였다. 옆에 있는 사람의 예민함이나 마음상태를 가늠하는 센서가 고장난 사람의 웃음이었다. 그 연장에서 그는 자기 앞에 벌어지는 절대 절명의 순간에도 공포의 센서가 작동안할 것 같은 그런 사람의 웃음이었다.
실제로 당시 미국에 있으면서 보고 들은 월스트리의 예측가들은 연이어 거의 십년 동안 이 회사는 절대 지속할 수 없는 사업모델을 갖고 있다고 온갖 저주스러운 전망을 계속하여 내놓고 있었다. 오로지 베조스류의 강철 심장, 강철 신경의 소유자만이 그 영원처럼 긴 저주의 터널을 별로 정신적으로 큰 타격없이 버텨낼 수 있었을 것이다. 베조스의 강심장을 생각하며 함께 기억할 것은 90년대말 2000년대 초의 인터넷 거품 폭발로 많은 사람들이 그 트라우마를 생생하게 간직하고 있을 시기였다는 것이다. 나도 그 시대의 트라우마로 부터 자유롭지 않다. 그 포화가 흩고간 산호세 뻘밭위에 서 있어 보았기에 베조스의 천둥 웃음소리가 더 가슴에 박혔던 것 같다.
이 기사를 이야기 하기전에 다시 아마존이야기로 잠시 돌아가자. 10년을 기다리던 아마존에게 결국 무슨 일이 있었기에 빠른 성장의 가도로 접어들었던 것인가. 그것은 바로 인터넷 속도의 변화였다. 그렇게 느리고 답답하던 미국의 인터넷 속도가 마침내 2000년대 중후반에야 이르러 광케이블 설치가 늘면서 상황이 나아졌다. 그전에는 나도 경험했지만 모뎀으로 아마존 카타로그를 넘겨 보고 주문하는 일은 너무 답답하여 실용적이지 않았다. 2007년 부터 개인 광케이블 보급이 미국 전역의 가정에 60% 이상을 넘어서기 시작했다. 집집마다 개인마다 바야흐로 인터넷으로 빨리 빨리 '질르는' 쇼핑이 가능할 정도의 편안한 속도가 널리 보급되기 시작한 것이었다. 그때서 부터 적자만 거듭하던 아마존에게 서서히 서광이 비추었다.
취급 물품을 계속 늘리면서 그리하여 전체 매출 규모를 늘리면서 (즉 박리다매하며) 팔수록 손해를 봐서 은행 빛은 쌓이고 투자자를 계속 끝어들이면서 그렇게 버티던 아마존이었지만 결국 인프라(인터넷속도와 망확장)가 받쳐 줄때까지는 백약이 무효였다. 그 기점이 바로 2007년 부터 였던 것으로 나는 생생히 기억한다. 2006년 창사 10년만에 아마존은 겨우 1센트의 연순익을 냈다. 그것이 제대로 수익으로 반영되려면 여전히 2010년대까지 기다려야 했지만. 눈에 띄게 집집마다 인터넷 속도가 빨라지고 곧 아이폰이 등장하여 바야흐로 손바닥 쇼핑의 시대도 열렸기 때문이다.
결국은 아마존의 성장에 결정적이었던 것은 회사의 시스템이나 그 시스템의 알고리즘보다도 사회전반의
#인프라망 이었고
#사회적인_자원 (commodity) 이었였다.
빠른 인터넷망 보급과 휴대폰 사용의 확산이 비등점을 지나자 바야흐로 아마존은 날아 오르기 시작했고 외롭게 오래 버티며 갈고 닦아온 실력으로 무르익은 시장을 독점적으로 장악해 나갔다. 그리하여 결국 오늘날 GAFAnomics의 선두 주자로, 미국 최대의 기업으로 아마존을 키워내었고 개인 재산이 2000천억불을 얼마전 돌파해서 세계에서 가장 돈 많은 사람이 되었다.
그런데 이제 와서 제프베조스의 웃음을 왜 다시 이야기 하는가. 그것과 제목에 달아 놓은
#알파고 와는 또 무슨 관련이 있다는 것인가.
작년 말에
#포브스 를 비롯하여 몇몇 매체가 알파고 가 적자를 면치 못한다고 기사를 실은 적이 있다. 2018 기준 알파고를 만든 회사인
#DeepMind (구글이 사들여서 자회사로 운영하고 있었지만)의 적자가 5억7천만불 (6천억원)에 달한다고 포브스 기사는 전했다. (Aug 7, 2019 자 온라인 기사). 당시 유일하게 매출로 잡힌 것이 모회사인 구글의 서버 팜(farm)이 있는 아이스란드 사이트의 냉각 조절장치 최적화 시스템을 판매한 것이 유일하게 잡혀있었다고 한다.
알파고의 학습능력으로 무장한 머신러닝 시스템의 위력은 이미 이세돌과의 대결에서 검증되었고 심지어 그 몇년 후 업그레이든 된 알파제로는 3일학습으로 구 알파고(알파고 리)를 매번 이겼고 그 뒤의 알파제로는 그런 알파고 제로를 100게임 싸워 60게임 이길 정도였다.
그런데 이렇게 엄청난 알파 형제들을 갖고 있는
#딥마인드 는 왜 여적 만년 적자를 면치 못하는가. 여기에 아마존의 경우가 시사하는 바가 있다. 즉 사회적 인프라 내지 자원 (commodity)가 아직 충분히 준비되어있지 않다. 아마존의 경우 그것은 빠른 인터넷 망의 보급 정도였다. 알파고의 경우는 정제된 데이터이다. 데이타, 학습을 시킬 데이타가 없으면 제 아무리 학습능력이 뛰어난 시스템이라도 의미가 없다. 알파고만 하더라도 16만개의 기보를 갖고 3,000만번의 대국을 거쳐 학습이 되었다. 그 16만개의 기보 데이타를 정제하고 학습시키는 데에만도 엄청난 자원이 필요했다. 사람 12,760명이 3일 동안 밤낮없이 일한 것과 맞먹는 작업량이 소요되었다. 금액으로 3천5백만달러 400백억원 가까운 비용이 들었다고 했다.
그러나 이런 인위적인 게임에 들어가는 데이타의 양은 실제로 산업일반이나 사회에서 해결해야 할 문제에 비하면 상대적으로 매우 규모가 적을 것이다. 실제로 병원에서 치료와 진단을 목적으로 하는 데이터를 시스템이 만족할 만으로 수준으로 수집하고자 한다면 그 규모나 복잡도가 비교가 안될 것이다. 비용역시 위의 알파고 학습의 비용의 몇 승수에 달할지도 모른다. 물론 제한된 범위내에서 비교적 단순한 작업을 위한 데이터들은 어느 정도 시험적으로 수집되어 이용이 되고는 있다. 그러나 실용적 수준으로 가기까지는 아직 멀다. 의료 뿐만 아니라 대부분이 분야가 그렇다.
예외적인 것이 언어와 시각청보 처리 분야이다. 이것은 전 인류가 SNS에 데이타를 자발적으로 퍼주기 때문에 그나마 데이타가 넘친다. 그러나 여기 데이타를 다시 특정 목적으로 학습하기 위해서는 작업별로 데이터 가공작업이 다시 정교하게 이루어 질 필요가 있을 것이고 그것도 만만치 않은 작업이 될 것이다.
현재 국내에서 개발된 소위 인공지능을 이용한 영어 처리 시스템(번역, 채봇등을 위한)은 다 구글이나 페이스, MS의 엔진을 빌려다 쓰는 것으로 보면 된다. 그외의 도메인에 인공지능을 쓴다는 것도 여전히 외국 메이저의 학습된 엔진이나 모듈에 의존할 것이고, 만약 자체 엔진으로 학습했다면 매우 단순한 학습일 가능성이 크다. 왜냐면 우선 복잡한 학습을 할 만한 데이터가 없었을 것이기 때문이다.
이제 우리는 왜 알파고가 여적 돈을 못 벌어들이고 있는 지 추정할 수 있다. 문제를 해결해주고 돈을 받아야 하는데 문제에 관련한 데이타 충분치 않다는 것이다. 적어도 아직까지, 그리고 가까운 미래까지. 인프라가 사회 전체적으로 고루 성축치가 못하고 있다. 인터넷의 경우 단순히 기계적인 망을 까는 것이 성숙의 관건이었다면 데이타 인프라의 성숙은 인간적인 요소가 차지하는 면이 적지 않다. 사회 일반적으로 데이타의 중요성, 그 공유 정도에 대한
#인식 (awareness)와
#합의 (consensus)가 필요하다. 어떤 데이타를 얼마큼 처리할 것인가 그 결정이나 그 실행이 다 인간의 적지 않은 인간의 관여를 필요로 한다.
알파고의 딥마인드가 아직 고전하고 있고 미국 업계가 그럴진데 한국은 더 말할 나위기 없을 것이다. 그 현황을 이번에 앞서 말한 인터넷 클럽에 참여했던 업계 리더들의 발언을 보면 우리의 데이터 준비 상태를 알 수 있다.
(순서데로 인용하지 않고 이 글의 주제와 가까운 것부터 선택적으로 나열하였음)
#이정수 (플리토대표): "이 AI를 학습시킬 데이터들은 아직 너무나 많이 부족합니다. 저희가 해외도 많이 찾아보거든요.
#실제로_학습시킬_언어_데이터가_전무하다고_보시면 돼요. 또, 5년 뒤에는 특수 분야에 있는 인공지능이 대부분 나올 것이라 생각하고 있습니다. 그 이후에는 커머스 등 서비스에 접합이 될 것 같고요. 결론적으로 데이터의 가치는 지속적으로 성장할 것이라 생각하고 있습니다.”
“최근 들어 데이터가 많이 중요해진다고 느끼고 있는데요. 이는 인공지능을 학습시키기 위해서가 아닐까 합니다. 사람으로 보면 학습 자료가 많이 필요한 상황이라고 생각하시면 될 것 같습니다. 똑똑한 인공지능을 위해서는 데이터를 많이 학습할 필요가 당연히 있거든요. 결국 데이터를 다룬다는 의미는 우리 회사에서 인공지능이 필요로 하는 학습용 데이터를 어떻게 효율적으로 많이 모을 수 있느냐가 아닐까 합니다.”
...
#고학수 (서울대 법대 교수): “법은 4년 전에 클라우드 서비스 허용이 되었는데, 개별 의료기관들이 클라우드 서비스를 도입하는 것은 사실, 더디게 걸리고 있군요. 우리나라 비즈니스에서는 법, 제도를 같이 고민해야 되는 것이 현실인 것 같습니다. 이어서 이정수 대표님께 질문 드립니다. 말뭉치를 보면, 범용성의 말뭉치는 상태가 나쁘지 않은 것 같은데, 전문 영역으로 가면 말뭉치가 잘 개발이 되어 있지 않다는 이야기를 제가 종종 듣게 되는데, 의료, 법률과 같은 전문성이 필요한 영역에 활용되는 경우가 있는지 궁금합니다. 또 하나는, 실제로 말뭉치를 개발할 때 어떤 소스로부터 개발을 하냐에 따라 결과가 꽤 달라질 수 있잖아요. 이 부분은 어떻게 고려하시는지에 대한 질문을 드려봅니다.”
이정수 대표: “실제로 언어 데이터에서는
#지금_범용_데이터도_없고_특수_데이터는_더_없는_상황이구요. 이를 위한 데이터가 실제로 없다 보니까 그런 번역기가 나오지 못하는 상황입니다. 때문에 정부에서 많은 예산을 들여서 올해부터 특수 영역에 대한 말뭉치를 모으고 있는 상황이라고 보시면 좋겠습니다. 발화 데이터 역시 마찬가지구요. 해외는 어떠냐면 역시나 데이터가 없습니다. 많은 글로벌 업체들이 데이터를 찾기 위해 혈안이 되어 있는 상황이라고 보시면 좋겠습니다.”
이정수 대표: “간단하게 말씀드리면 문장 하나가 거래될 때 보통 100~1천원 사이로 거래가 됩니다. 어느 정도 정제가 됐는지, 전문성이 들어갔는지에 따라 다르다고 생각하시면 되고요. 실제로 데이터를 만드는 사람에게 그 정도의 보상이 간다라고 생각하시면 좋겠습니다. 말씀드린 것처럼 특수 분야로 가면 갈수록 더 많은 데이터가 필요하고 인공지능을 학습시키기 위해 범용적으로 들어가는 데이터가
#1천만 개 정도 거든요. 그래서 사실 데이터를 공급하는 데 있어, 내부 리소스가 부족한 상황이지 데이터 수요가 줄어드는 상황은 아니고, 미래에는 더 많아 질 것이라 예상하고 있습니다.”
고학수 교수: “흥미롭네요. 다시 공통 질문으로 돌아와서요. 김태훈 대표님께 여쭤봅니다. 정부에서 투자하는 디지털뉴딜 같은 정책이 데이터 비즈 니스에 도움이 될지, 조금 더 고려해야할 부분이 무엇인지 의견 부탁드립니다.”
#김태훈 (
#딥핑소스 대표): “지금 정부에서 굉장히 많은 자금을 들이고 있습니다. 때문에, 기존에는 데이터와 관련 없던 회사까지 업종 전환을 할 정도로 업계가 혼란스러운 것은 사실입니다. 초기의 혼란기라고 생각을 하구요. 지속적으로 정책이 이어진다면, 양질의 데이터가 많이
#생길_것으로 생각을 합니다"
마지막 김태운 대표의 말은 아직까는 양질의 데이타가 부족하다는 것을 역설적으로 강조하고 있고 이것은 앞서 이정수 대표가 국내외에 데이타가 턱없이 부족하다고 단정한 것과 맥을 같이 한다고 본다. 앞서 언어처리 분야가 그나마 상대적으로 다른 분야보다 데이타 수급이 나을 것으로 보았는데 그러나 이정수 대표에 의하면 여기도 준비된 데이터는 매우 희소하게 보인다.
데이타 자원이 충분히 사회 전반에 준비되지 않는한 알파고는 현재 겪고 있는 수업원의 한계를 극복하지 못할 것이다. 아마존이 그랬던 것 처럼. 아마존이 헤메고 있을 때도 미디어와 투자 받기를 원하고 주식 가격을 띄우기 원하는 세력들은 일찌기 96년부터 내내 마치 2007년이 미리 온 것 처럼, 흥분된 미래가 이미 도착했음을 입에 침을 튀기며 선동하고 있었다. 현지 알파고나 머신 러닝을 둘러 싸고 보여지는 열기에 이런 요소도 없지는 않을 것이다. 긍정적인 발전들이 계속되고 있다. 그러나 아직 데이타가 한참 더 많이 준비되어야 하는 것이 엄연한 상황이다.
나팔을 아무리 미리 분다고 해가 더 일찍뜨지는 않을 것이고.
꽃이 화려하면 무엇하랴
열매가 익어야
따먹을 수 있거늘...
그때까지 선수들은 베조스의 웃음으로 시간을 벌어야지,
쓸 수 있는 수단을 다 동원하여 가며,
사업은 종종 이 시간 벌기의 실력으로 판가름 나기에 .
(전우의 시체를 넘고 넘어...)