미국 교수로 변신한 베트남 수학 영재

미국 교수로 변신한 베트남 수학 영재

출처: VnExpress
날짜: 2025. 12. 21.

응우옌 후 티엔(37)은 미국 오리건 대학교 컴퓨터 과학과에서 다국적 자연어 처리에 주목하고 있다.

그는 지난 11월 2300억 개 이상의 토큰으로 구성된 가장 큰 베트남어 데이터셋을 기반으로 한 새로운 베트남어 모델인 ‘SaoLa-3B-Instruct’를 발표했다. 티엔은 2023년 유망한 조기 경력 교수에게 수여되는 CAREER 상을 수상했으며, 그의 연구 논문은 구글 스칼라에서 1만 회 이상 인용되고 있다.

그는 “내가 열정을 쏟고 있는 분야에서 유용한 제품을 만들어 내고 지원받는 것이 기쁘다”고 밝혔다.

티엔은 중학교 시절부터 수학에 대한 열정을 가지고 있었으며, 복잡한 문제 해결에 매료되어 사립 고등학교인 흥옌 영재학교에서 수학 경시대회에서 2등을 차지하는 성과를 이루었다. 이로 인해 2006년 하노이 과학기술대학교 엘리트 인재 프로그램에 직접 입학할 수 있었다.

그의 연구 경력은 교수의 초대로 시작되었으며, 한 프로젝트에 참여하게 되었다. 기계 학습 트렌드가 확산되고 있는 시기에 티엔은 데이터 처리 자동화를 위해 일반 프로그래밍 모델을 실험하며 프로젝트를 가속화했다.

교수에게 격려받아 그는 자신의 연구 결과를 정리해 첫 번째 논문을 작성하게 되었으며, 이후 졸업 논문으로 발전시켜 교육부 주관의 전국 학생 과학 연구 대회에서 2등을 수상했다. 연구 경험이 전무했던 그는 문제 정의, 실험, 논문 작성 및 발표 등 모든 과정에서 깊이 관여하게 되었다.

졸업 후 그는 연구를 심화하기 위해 해외 유학을 결심했고, 유명한 자연어 처리 및 정보 추출 교수들에게 연락을 취했다. 그 중에는 이 분야의 개척자인 랄프 그리시먼이 포함되어 있었다. 그리시먼은 티엔을 따뜻하게 맞아들여 2012년 뉴욕대학교에서 박사 과정에 초청했다.

하지만 초기 몇 년은 어려웠다. “지도교수가 제안한 연구 방향들을 모두 시도했지만 진정으로 저를 자극하는 방향을 찾지 못했다”고 회상했다.

그의 전환점은 ‘인공지능의 대부’로 알려진 얀 르쿤의 강의를 듣고 딥러닝에 매료된 이후부터 시작됐다. 당시 딥러닝은 자연어 처리보다는 주로 컴퓨터 비전에서 사용되고 있었다. “정보 추출에 적용해 볼 수는 없을까?”라고 생각하였으며, 초기 실험 결과는 전통적인 접근 방식을 초월하는 성과를 거두었다.

2016년 그는 NYU의 수학 과학 고등 연구소에서 우수 박사 연구 가능성을 인정받아 해럴드 그라드 상을 수상했다. 박사 학위를 취득한 후 티엔은 AI의 선구자 요슈아 벵지오와 함께 몬트리올 대학교에서 박사 후 연구원으로 활동했으며, 2018년 오리건 대학교 교수로 임용됐다.

그는 “이 연구는 제가 주제와 방법, 협력자를 선택할 자유를 부여한다”고 강조했으며, 특히 학생들과 함께 작업하는 것에서 큰 만족을 느낀다고 밝혔다.

오리건 대학교 컴퓨터 과학부의 레자 레자이 학장은 티엔을 “스타”라고 칭하며, 정보 추출 및 다국적 자연어 처리에 대한 딥러닝 방법 개발에서의 리더십을 높이 평가했다. “티엔은 대학에 합류한 이후 주요 AI 프로젝트에 중요한 역할을 해왔으며, 대규모 데이터 응용을 위한 최첨단 효율성 높은 딥러닝 연구를 이끌었다”고 말했다.

티엔의 자랑스러운 프로젝트 중 하나인 CulturaX는 167개 언어를 아우르는 다국어 데이터셋으로, 2022년에 출시되었으며, 대규모 언어 모델의 훈련 데이터의 투명성이 결여된 문제에 대응하기 위해 구축됐다. 그는 이 프로젝트를 부정확하고 편향된 데이터, 중복된 데이터 필터링 작업과 같은 여러 단계로 이루어진 프로젝트로 묘사하며, 그 크기가 수십 테라바이트에 이른다고 밝혔다.

CulturaX는 출시와 동시에 긍정적인 반응을 얻었으며, Stability AI 및 Eleuther AI와 같은 여러 기업 및 연구소에서 그들의 언어 모델 훈련에 사용되고 있다. 이후 티엔과 그의 팀은 베트남어 모델인 Vistral을 개발하여 SaoLa-3B-Instruct 모델을 출시하였다.

이 프로젝트는 방대하고 검증된 데이터셋을 수집하고 베트남어 처리에 맞춤화된 도구를 다듬는 데 두 년이 걸렸다. 그는 “SaoLa라는 이름은 희귀하고 상징적인 베트남 동물에 대한 자부심을 반영한 것”이라고 말하며, “우리가 만든 모델이 독창성, 고유성, 그리고 진정한 베트남성을 구현하길 바란다”고 전했다.

그에게 유용한 것을 만들고 지역 사회에 기여하는 것은 모든 연구 프로젝트의 자연스러운 목표라고 강조했다. “연구의 가장 좋은 부분은 새로운 것을 발견하고 배우는 것이며, 그 과정에서 실패도 상관없다”고 밝혔다.

그는 자원과 작업을 균형 있게 배분해야 한다고 강조하며, “소홀히 하기보다는 신중하게 작업하는 것이 가장 중요한 교훈 중 하나”라고 덧붙였다.

그는 “기초 연구의 결과와 지식 발견은 빠르게 이루어지지 않으며, 소셜 미디어에서의 조기 성공에 대한 압박감을 느끼기보다는 젊은이들이 자신만의 뿌리를 차근차근 쌓아가야 한다”고 말했다.

그는 여전히 창의적인 해결책을 기다리고 있는 많은 주요 AI 도전 과제가 있다고 믿으며, 앞으로 더 많은 베트남 학생들을 고급 연구 환경에서 멘토링하며 베트남어 모델과 데이터셋을 세계적으로 향상시키길 희망하고 있다.

About hanyoungmin

hanyoungmin

Check Also

동반 옛 거리의 뜨거운 밤… 매일 밤 수천 명의 관광객이 함께 춤추는 축제의 장

베트남 북부 고원지대 하장성의 동반(Dong Van) 옛 거리가 매일 밤 전 세계에서 몰려든 수천 명의 관광객으로 인산인해를 이루며 새로운 관광 명소로 떠오르고 있다.

답글 남기기

Translate »