한국어 인공지능 분야가 왜 이처럼 세계적 수준에 못 미칠까. 전문가들은 의외의 답변을 한다. 인공지능 알고리즘이 문제가 아니라, 알고리즘이 학습할 수 있는 한국어 디지털 데이터 인프라가 취약하다는 것이다.
대표적인 사례가 한국어 말뭉치(corpus) 인프라의 후진성이다. 말뭉치란 컴퓨터가 언어를 이해할 수 있도록 신문 기사, 소설 등 한국어 텍스트에서 유형을 추출하고, 이를 컴퓨터 코드로 바꾼 것이다. 이런 말뭉치가 많고 주기적으로 업데이트될수록 인공지능을 똑똑하게 학습시킬 수 있다.
그런데 말뭉치 사업을 맡은 국립국어원은 1차 말뭉치 사업(세종 계획)을 2007년에 마무리한 이후 10년째 2차 사업에 손도 못 대고 있다. 한국어와 인공지능의 접목을 이해하는 관료가 드물고, 산업계 관심도 낮기 때문이다. 디지털 세계에선 10년은 100년에 해당하기에 그 공백은 한국어 인공지능 사업에 치명적이다.
이에 비해 영미권 기업들은 풍부한 영어 말뭉치 인프라 덕을 톡톡히 보고 있다. 벤처기업들도 언제든지 사용할 수 있는 오픈소스 형태의 영어 말뭉치가 다양한 형태로 널려 있다. 나라 안팎이 어수선하다. 이럴 때일수록 말뭉치와 같은 한국어와 인공지능이 만나는 지점에 투자를 제대로 해야 한다.