본문 바로가기

Human Storytelling

마이크 슈스터-구글 음성인식 총괄 연구원


지난 2010년 6월 16일, 구글코리아(대표 이원진)는 한 명의 파란 눈의 사나이와 함께 ‘구글 한국어 모바일 음성검색’ 서비스를 선보였다. 긴 검색어를 입력해야 하거나, 걷고 있을 때 등 직접 문자입력이 어려운 상황에서도 핸즈프리(hands-free) 검색구현이 가능하다. 과연 검색의 강자, 구글의 한국어 음성검색은 어떠한 특징을 갖고 있는지 한국어 음성검색 개발을 이끌어온 파란 눈의 사나이, 마이크 슈스터 총괄 연구원을 구글코리아 본사에서 만나 얘기를 나눴다.

마이크 슈스터(Mike Schuster) 총괄 연구원은 지난 2006년 3월 구글 재팬에 입사했으며, 그해 6월 구글 본사로 옮긴이래 음성검색의 정확도와 속도 극대화에 박차를 가하고 있다. 구글에 합류하기 전 그는 교토 일본정부산하 첨단통신연구소와 미국 음성인식솔루션 기업인 뉘앙스 커뮤니케이션에서 핵심 연구 엔지니어로서 경력을 쌓았으며, 음성 인식 트레이닝 프로그램을 개발한 바 있다. 슈스터는 독일에서 전기공학 학사 학위를, 일본에서 전기광학 박사 학위를 취득한 음성검색 전문가다.

세계적인 음성 인식기술 전문가인 마이크 슈스터 총괄연구원은 “자그마치 20만여 개의 검색어 수가 70% 가량의 인식성공률(6월 현재)을 보인다”며 “이는 기계학습 원리 적용으로 이용자들이 음성검색 서비스를 사용하면 할수록 더욱 정확한 검색결과를 제공한다”고 밝혔다. 즉 사용할수록 발음, 억양, 검색어 조합에 관한 데이터가 축적돼 더욱 정확한 데이터 구축이 가능하다. 구글 음성검색 특징은 최근 온라인 이슈 중 하나인 ‘클라우드 컴퓨팅’의 빠른 데이터 프로세싱 기술과 정교한 음성인식 등 구글이 오랫동안 투자해 온 독보적인 기술을 결합해 그 정확성이 매우 뛰어나고 로딩 속도가 빠르다는 데 있다. 이번 시연회에서는 '박지성의 골모음 동영상', '신사동에서 가장 맛있는 맛집은?' '칼로리 소모가 가장 큰 운동은?' '1km는 몇 마일인가?' 등 숫자와 영어, 한글 등이 고루 섞여 손으로 입력하기 까다로운 검색어도 음성검색이 가능했다.


w.e.b. 한국어 모바일 검색 출시 배경은.
마이크 슈스터 총괄연구원(이하 슈스터) 지난 해 일본어 모바일 음성검색 서비스를 출시했다. 이후 자연스레 한국에도 관심이 갔다. 개인적으로도 오래전부터 한국에 관심 많았다. 실은 일본에서 공부할 때 아내를 만났는데 한국인이다. 그녀의 부모님을 만나고 음식과 문화에 대해 알게 되면서 흥미를 가졌다. 또 한국과 일본은 비슷한 점이 많고, 내가 독일 태생이라 ‘분단’이라는 화제를 공유하고 있다는 점도 한국에 끌리게 된 점 중 하나다. 한국의 스마트폰 시장은 무한한 성장 가능성이 잠재돼 있다. 따라서 앞으로 더 많은 사용자가 있을 것으로 내다봤다. 구글 최고경영진도 이를 지원하면서 이제는 더 많은 인원이 투입된 상황이다. 앞으로 더 많은 언어를 지원할 계획이므로 출시 순서는 중요하지 않다.

w.e.b. 이번 한국어 음성검색이 세계에서 8번째로 출시됐다. 언어별로 어떤 차이가 있는지. 또 한국어 서비스 개발 중 가장 기억 남는 에피소드가 있다면.
슈스터 이번 한국어 음성검색은 2008년 영어 서비스를 시작으로 지난해 중국어와 일본어 서비스, 올해 프랑스어, 이탈리아어, 독일어, 스페인어에 이서 여덟 번째로 출시됐다. 거의 모든 언어마다 음성검색 서비스를 개발하는 데 있어 기본적인 개발 툴은 비슷하다. 구글은 음성인식 기술을 개발하는 데 약 30여명의 개발자가 참여하고 있다. 단 언어마다 재미있는 차이가 있는데, 영어는 글자만 봐서는 발음예측이 어려운 점, 일본어는 띄어쓰기가 없어서 곤란했고, 같은 한자 속에서도 발음이 달라 애를 조금 먹었다.

한국어의 경우 백지상태서 작업해야 하는 어려움이 있었지만 운이 좋았던 것이 한국어는 과학적이고 명확한 문자체계를 갖고 있어서 발음규칙을 쉽게 찾아낼 수 있었다. 단지 한국어를 한글로 표현하기보다 영어발음을 한글로 표기한 경우 예측의 어려움이 있었다. 한국어 시스템을 개발하기 시작했을 때 혼자 집에서 한국 음성기술을 사용했는데, 최초로 말했던 단어가 바로 ‘독일 맥주’였다. 바로 검색결과로 관련 웹페이지가 나와 놀랐다.

w.e.b. 한국어하면 형용사와 동사가 많은데 이러한 부분은 어떻게 기술에 녹일 수 있었나.
슈스터 한국의 모든 단어가 동사로 인해 늘어질 수 있다. 반드시 ~해야 한다는 동사의 경우 검색 자체에서 사용할 동사를 분류한다. 자주 데이터에서 발견되는 단어가 있다면 그것을 우선적으로 찾아 인식한다. 대부분 그런 방식으로 인식하게 된다.

w.e.b. 한국어 음성기술을 개발하는 과정에서 기억 남는 경험은.
슈스터 실은 9개월 전부터 한국어 음성기술을 개발하고 싶은 욕심이 있었다. 가급적 많은 한글 단어를 인식할 수 있는 기술개발이 주요 목표다. 그러기 위해 무엇보다 정확한 음성기술 개발이 먼저였다. 음성인식기술은 어떤 언어든지 통계학적인 모델과 언어학적인 모델이 있어야 한다. 우리는 한글의 기초적인 발음이 들어 있는 100시간이 넘는 연설문을 녹취했고 다양한 언어모델을 만들었다.

일상적으로 많이 쓰는 한글 단어와 어구를 기본모델로 장착했고, 한국어 검색 툴을 통해 수백만 건을 학습했다. 또 한국어의 기본 발음원칙을 담은 사전도 마련했으며, 여기에는 일부 통계적 모델도 사용됐다. 무엇보다 클라우드 기술을 거치기 때문에 보다 빠른 검색결과를 볼 수 있다. 언어모델은 한국어 검색 쿼리를 이용해 학습했다.

w.e.b. 특별히 어려운 점은 없었나?
슈스터 영어의 경우 한국와 영어 사용국가를 포함해 많은 나라에서 수년간 음성인식 관련 연구가 진행된 반면, 한글 음성기술은 아직 한 차례도 시도된 적이 없었기 때문에 처음 개발하는 데 따른 어려움은 있었다. 한글이 아스키 문자를 포함할 경우 자모의 결합을 통해 생기는 글자 기본조합은 1만개가 넘는다. 사전을 구축하는 데 있어 한국어에 대한 기존 공개자료가 많지 않아 힘들었다. 결국엔 음성인식 엔진이 20만 개가 넘는 한글을 인식했고, 한국어 자체가 세계에서 가장 우수하고 심플한 원리를 가진 소리음자 중 하나기 때문에 나중엔 문자 자체를 읽으면 발음과 연결돼 반대로 크게 도움 됐다.

한글이 영어, 숫자와 혼용돼 사용하는 경우도 흥미로웠다. 한국인들이 많이 봤던 미드 ‘CSI 시즌1(원)’이 그 예다. 또 mp3(엠피쓰리)의 경우 ‘엠피쓰리’라고 읽지 ‘엠피삼’으로는 읽지 않는다. KBS 2TV도 ‘케이비에스 투’라고 하지 ‘케이비에스 이’라고는 하지 않더라. ‘2010년’도 ‘이공일공년’이 아닌 ‘이천십년’이라고 읽는 등 정해진 법칙이 있었다. 검색 자체에서도 좀더 쉽게 인식하기 위한 기술이 필요한데 구글은 자주 사용하는 검색어로 주로 훈련됐기 때문에 큰 문제는 없을 것으로 본다.

w.e.b. 휴대폰 자체에서 음성검색을 지원하는 시스템 구축은 어렵다고 보는지.
슈스터 물론 언젠가 기술이 더 발달하면 실현되겠지만, 아직까지는 음성인식기술과 같은 연산이 많이 필요한 기술은 쉽지 않을 것이다. 휴대폰 자체에서 클라우드 컴퓨팅 기술 없이는 힘들 것이다.

w.e.b. 정확도를 높이기 위해 시도된 방안이 있다면.
슈스터 보다 정확도 높은 음성검색 결과를 위해 데이터베이스도 새로이 구축했다. 앞서 잠시 말한 바와 같이 통계 모델과 음성학 모델을 적용하고 20만여 개에 이르는 한국어 단어 사전을 구축했다. 그 노력의 결실이 이번에 처음 공개된 것이다. 구글이 이번이 내놓은 모바일 한국어 음성검색 서비스는 단어와 문장을 모두 인식하며, 질의어에 따라 이용자 의도에 맞는 검색결과를 맨 위에 띄워주는 것이 특징이다.

한 예로 ‘신사동 맛집’을 외치면 검색 결과 맨 위에 신사동 맛집 지도가 먼저 뜨는 식이다. 또 숫자와 영어, 한국어가 섞여 있어도 문제가 없다. 현재 한국어 음성검색 인식률이 70% 정도지만, 이는 오작동 등에 의한 인식오류가 포함된 수치다. 보통 인식률이 65% 이상만 돼도 충분히 사용할만하다고 자체적으로 보고 있다. 앞으로도 버스나 사람이 많이 모인 곳에서도 충분히 인식할 정도의 서비스를 계속 발전시킬 계획이다. 이제 그 시간도 머지않았다고 본다. 대부분이 휴대폰에서 음성검색이 키보드 입력방식의 시스템을 대체할 것이다.

w.e.b. 사투리 문제는 어떻게 해결했는지.
슈스터 음성인식 기술 개발 초기만 해도 이 부분도 만만치 않았다. 그래서 한국어 데이터를 수집할 때 여러 도시를 방문해 다양한 사투리와 방언자료를 수집했고 방언 악센트까지도 반영했다. 일부 지역사투리는 한국사람 조차 알아듣기 힘들 정도라 그 정도의 음성을 인식하기까지는 시간이 조금 걸리겠지만 차츰 개선될 것으로 본다.

w.e.b. 한국어 음성번역 서비스에 대한 기대도 큰데.
슈스터 우리는 많은 프로젝트를 수행하고 있다. 따라서 영어의 경우 음성검색과 음성 메일 표기 서비스가 병행됐다. 보편적으로 많이 사용되고 그 만큼 요구도 크게 느꼈기 때문이다. 이후 유튜브 표기 서비스가 출시됐다. 나라마다 니즈가 다르며, 유튜브가 서비스되지 않는 나라는 유튜브 표기가 필요 없다. 한국어 음성번역 서비스는 시간이 조금 걸릴 것이다. 또 어떤 분들은 개발자들을 위해 응용프로그램개발환경(API) 공개에 대해서도 물어보는데, 영어나 일본어 음성검색은 API를 공개하고 웹페이지에서도 설명하고 있다. 한국어의 경우 언제 어떤 방식으로 공개하게 될지 아직 말하긴 어렵다.

w.e.b. 구글의 정확하고 빠른 음성검색은 무엇을 기반으로 이뤄진 것인가.
슈스터 한 마디로 구글의 독보적인 클라우드 컴퓨팅 기술이라고 할 수 있다. 구글 시스템은 이러한 클라우드 컴퓨팅 파워를 통해 사용자가 음성 검색어를 휴대폰에 말하는 시점에 이미 고나련 검색결과를 제공하기 위해 필요한 정보와 자원이 준비된 것이다. 만약 이 모든 작업을 클라우드 컴퓨팅이 아닌 휴대폰 기기에서 한다면 매번 음성인식기를 구동하기 위해 적지 않은 시간이 소요될 것이며 결과적으로 사용자의 음성검색 경험은 현저히 저하될 것이다. 몇 년 후 소형 디바이스 서버가 현재의 구글 서버보다 강력해진다고 하지만 그 때쯤 구글 서버는 지금보다 더욱 파워풀해질 것이다. 또한 미래의 음성인식 기술은 더욱 정교해질 것이며 결과적으로 지금보다 더욱 많은 프로세싱 파워가 필요할 것이라는 점도 간과해서는 안 될 부분이다.

w.e.b. 앞으로의 계획은.
슈스터 구글은 앞으로도 자판 타이핑과 같은 수준의 빠르고 사용자 친화적인 모바일 검색수단이 될 수 있도록 최선을 다할 것이다.

<epilogue>
전문가의 대부분은 음성인식 기술의 핵심으로 ‘음성 데이터베이스의 확보’를 꼽는다. 사람의 음성은 사람마다 발음차이와 억양이 모두 다르기 때문에 경우의 수가 많다. 무엇보다 언어 특유의 지방색과 문화가 다르다. 때문에 많은 데이터 확보가 음성검색 기술을 좌우한다 해도 과언이 아니다. 구글은 키워드 검색이 아닌, 자연어 검색이 가능하도록 표준 유니코드를 사용해 모든 글자를 반영했고, 다양한 조건 차이를 극복하기 우해 가급적 다양한 상황을 반영할 수 있도록 여러 소스에서 뽑은 데이터를 바탕으로 시스템을 훈련시켰다. 말로 통하는 모바일 세상, 현실이 됐다.



본 기사는 허니문 차일드가 작성한 월간 웹 2010년 8월호 <trend maker>를 재구성한 것입니다.