이미 다가온 미래, 구글 번역
미래가 현실로 가까이 다가오고 있는 걸까? 올 초 이세돌 9단과 알파고의 바둑 대결 이후, 구글 인공 지능이 조금씩 우리 마음을 흔들어 놓고 있다. 지난 11월 30일 구글 코리아 기자 간담회에서 설명한 '구글 번역'이 그 좋은 예다.
농담이 아니고, 정말로 기계가 알아서 언어를 번역 해 주는 것은 바벨탑(...) 이래 인류의 오래된 꿈이다. 이미 17세기에 수학자 라이프니치와 철학자 데카르트가 제안했던 기계 번역 모델이 있었을 정도다. 무척 오래되었지만, 실제 연구는 1950년대 컴퓨터 보급이 이뤄지기 시작하면서 진행되었다. 본격적인 연구와 상용화가 이뤄진 것은 1980년대부터고. .
구글의 발표 내용에 따르면, 구글은 이런 기존의 기계 번역 방식을 한 단계 진화 시켰다. 인공 지능을 이용해 스스로 학습하면서 번역 기능을 강화하는 단계에 이른 것이다. 까놓고 얘기하자면 구글만 하고 있는 것은 아니다. 네이버에서 만든 통번역 앱 파파고나 한컴의 지니톡 역시 비슷한 원리를 이용하고 있다. 플리토는 조금 맥락이 다르긴 하지만.
시간 파리는 화살을 좋아한다
이런 진화에 환호하는 이유는, 기존의 기계 번역 서비스가 상당히 부실한, 특히 한국어 번역은 꽤 부실한 결과를 보여줬기 때문이다. 유명한 사례로 'Time flies like an arrow' 를 '시간 파리는 화살을 좋아한다.'로 번역한다거나, 'War never again!'을 '결코 다시 전쟁!'으로 번역해 반전 메시지를 전쟁 독려 메시지로 번역한다거나....하는 일이 있었다.
기계 번역이 그동안 엉터리로 이뤄진 이유는, 번역 자체가 결코 쉬운 작업이 아니기 때문이다. 기술 문서나 사무 문서처럼 문장 안에서 의미가 깔끔하게 끝나는 것들은 좀 나은 편이지만, 우리가 실제로 쓰는 말은 대부분, 우리의 사고방식이나 대화 맥락 속에서만 이해되는 여러 가지 의미가 담겨 있다. 이런 것들은 지금도 기계 번역이 해결하기 어려운 문제다.
다른 한편으로 지금까지 쓰이고 있던 통계 기반 기계 번역의 문제도 있다. 아는 사람은 다 알고 있는 이야기지만, 지금 많이 쓰이는 기계 번역은 문법을 기억해 사전으로 번역한 단어/구문을 채워 넣는 그런 형식(규칙 기반 기계 번역)이 아니다. 번역된 문장의 데이터베이스를 축적해서, 사용자의 질문이 들어오면 비슷한 문장을 비교해 결과를 뽑아내는 식이랄까. 그러니 데이터베이스가 많이 축적되어 있지 않다면, 제대로 된 번역을 할 수 없었다.
구글 번역은 스스로 성장한다
그렇다면 '구글 신경망 기계 번역(GNMT)'라 불리는, 새로운 번역기는 어떻게 다를까? 일단 딥러닝 기술을 적용해, 구글 번역 스스로 학습하는 능력이 비약적으로 증가했다. 인간이 기본적인 규칙을 가르쳐주면 인공 지능이 스스로 인터넷에 올라오는 글들을 수집해서 공부하는 형태다.
다른 하나는 문장을 단어나 구문 단위가 아니라, 문장 단위로 인식해 번역한다. 이로 인해 최대 80% 까지 번역 오류가 줄어들었다고 한다. 하지만 기존 구글 번역의 한국어 번역 정확도가 높은 편은 아니었으니, 큰 기대는 하지 않는 것이 좋다. 그래도 짧은 문장은 상당히 괜찮게 번역을 해주는 편이다.
어느 정도로? 다음은 이 글의 첫 문단을 구글 번역한 결과다. 한번 비교해 보자. 고유 명사...가 들어간 두 번째 문장을 뺀다면, 꽤 깔끔하게 번역을 했다(9단을 9th stage로 번역하다니..;.
미래가 현실로 가까이 다가오고 있는 걸까? 올 초 이세돌 9단과 알파고의 바둑 대결 이후, 구글 인공 지능이 조금씩 우리 마음을 흔들어 놓고 있다. 지난 11월 30일 구글 코리아 기자 간담회에서 설명한 '구글 번역'이 그 좋은 예다.
Is the future nearing reality? Since the beginning of this year's 9th stage and Algo's Go game, Google AI is shaking our minds little by little. A good example is the "Google translation" described on November 30th at the press conference of Google Korea.
기계 번역은 미래를 어떻게 바꿀까?
새로운 번역 기술이 적용된 것은 일단 한국어를 비롯해, 영어, 프랑스어, 독일어, 스페인어, 중국어, 일본어 등 9개 언어로, 서로 유사한 언어로 묶는다면 대략 3개 정도의 언어 유형이라고 볼 수 있겠다. 물론 알고 있다. 몇 가지 언어를 번역할 수 있는가 보다 중요한 것은, 이런 번역을 실생활에서 써먹을 수 있는가-하는 것이다.
당연히, 가능하다. 일단 구글 크롬 브라우저의 웹 번역에 조만간 적용될 예정이다. 구글 번역 앱은 마이크를 통해 실시간으로 2개 국어를 듣고 상호 번역해서 들려주는 기능을 제공하기 때문에, 여행 시에도 유용하게 사용할 수 있다. 실제로 예전 일본 여행 때 잘 쓰기도 했다(이 빵의 유통 기한이 언제까지인가요? 비행기 짐으로 부쳐도 깨지지 않게 포장해 주실 수 있나요? 같은 말은 여행 회화 책에는 잘 안 나온다.).
SNS 등에 올라온 글들을 자동 번역해서 보는 기능은 좀 더 강력해질 전망이다(현재 페이스북 등에서 제공하는 번역은 형편없다.). 그뿐만 아니라 내가 만든 콘텐츠를 자동으로 번역해서 보여주는 기능 역시 좋아진다면, 한국에서 자동 번역을 통해 구글 애드 센스 수익을 얻을 수 있는 블로그를 만드는 것도 고려할 사람이 나타날 것이다.
텍스트 번역뿐만 아니라, 음성을 인식해 번역하는 기능과 맞물리게 되면 파괴력은 더욱 강해진다. 당장 유튜브 자동 번역 자막 기능만 강해져도, 한국어로 콘텐츠를 만들어 세계인(?)들에게 보여주는 것도, 세계 각국의 콘텐츠를 즐기는 것도 쉬워진다.
물론, 아직까진 그저 즐거운 상상에 불과하다. 기계 번역은 여전히 한계가 많다. 고유 명사는 잘 이해하지 못한다는 것, 어떤 맥락에서 이야기를 하는지를 잘 모른다는 것 등 기계 번역이 완전히 인간을 대체할 날은 쉽게 오지 않을 것이다. 하지만 인간을 도울 수는 있고, 필요한 간단한 정보를 얻기에는 충분해질 날이 머지않았다. 외국어를 몰라도 외국인 친구를 만들 수 있는 시대가, 곧 다가오는 것이다.
... 그렇다고 외국어 공부를 안 해도 된다는 말은 못하겠지만.