
지난 2017년 국제수학올림피아드(IMO)에서 금메달을 획득했던 베트남의 젊은 수학자가 기계학습(머신러닝)과 통계학 분야에서 약 50년간 미해결 상태로 남아있던 베이지안 비모수학(Bayesian nonparametrics)의 난제를 해결하는 첫 단계 논문을 발표해 세계 학계의 주목을 받고 있다.
16일 미국 텍사스 대학교 오스틴 캠퍼스(UT 오스틴) 연구진과 현지 매체 등에 따르면, 이 대학 박사과정 2년 차에 재학 중인 레꽝중(Lê Quang Dũng) 연구원은 최근 세계적인 오픈 액세스 논문 저장소인 ‘아카이브(arXiv)’에 ‘무한 동분산 위치-척도 혼합 모델에서 잠재 혼합 측도의 수렴 속도’라는 제목의 연구 논문을 제안서 형태로 전격 공시했다.
이번 연구는 통계적 데이터 분석과 머신러닝의 핵심 기반인 베이지안 비모수학 영역에서 정보 한계점을 규명하는 난제를 다루고 있다. 레꽝중 연구원은 이 대학 부교수인 호 팜 민 녓(Hồ Phạm Minh Nhật) 교수의 지도 아래 공동 제1저자로 참여해 연구를 주도했다.
이번에 공개된 논문은 1970년대부터 수십 년 동안 미완의 영역으로 비어있던 베이지안 비모수학의 거대 난제를 완전히 해결하기 위해 연구진이 기획한 총 10편의 연쇄 연구 시리즈 중 첫 번째 결실이다.
레꽝중 연구원은 “본 연구는 순수수학적 방법론과 도구를 사용했지만, 통계학 및 인공지능 모델의 내부 메커니즘을 엄밀하게 이해하는 데 매우 필수적인 퍼즐”이라며 “이 난제의 첫 단추를 풀게 되면서 앞으로 파생될 결론들이 머신러닝의 효율성을 크게 바꿀 수 있다”고 설명했다.
연구진에 따르면, 이 난제의 핵심은 기계학습 데이터 내부의 숨겨진 파라미터(매개변수)인 데이터의 ‘중심 경향성(위치)’과 ‘분산(척도)’을 역으로 추출해 내는 작업이다. 기존의 연구들은 수학적 한계 때문에 대개 분산값을 이미 알고 있다고 가정(기존 위치 혼합 모델)한 상태에서만 문제를 풀 수 있었다. 그러나 실제 현실 세계의 데이터처럼 두 가지 매개변수를 모두 모르는 상황이 되면 기존의 전통적인 수학적 도구들이 완전히 무력화되어 오랜 기간 공백으로 남아있었다.
특히 다변량 가우시안(Gaussian) 분포나 유사한 커널(Kernel) 연산은 데이터 과학이나 신호 처리, 머신러닝 과정에서 원래 정보를 지워버리는 ‘정보의 블랙홀’처럼 작동한다. 이 때문에 파라미터를 역공학으로 추적하려 하면 통계적 노이즈가 기하급수적으로 증폭되어 머신러닝 모델의 정확한 학습과 예측을 극도로 어렵게 만들어왔다.
이 같은 장벽을 넘기 위해 레꽝중 연구원과 동료들은 현대 수학의 여러 하위 분과에 서 파생된 고등 도구들을 창의적으로 결합했다. 특히 함수해석학(Functional Analysis), 푸리에 해석학(Fourier Analysis), 그리고 초함수 이론(Distribution Theory)의 클래식한 기법들을 유연하게 연결해 문제의 실마리를 찾았다. 기하학적 직관이 정립되자 연구팀은 단 5개월 만에 핵심 증명을 완성해 냈다.
지도교수인 호 팜 민 녓 부교수는 “레꽝중은 수학적 엄밀성에 대해 타협 없는 집요함을 가진 연구자”라며 “어설픈 근사치나 느슨한 추측에 의존하지 않고, 마주하는 모든 수학적 장애물을 논리적으로 철저히 해부해 한 줄 한 줄 완벽한 증명을 도출해 냈다”고 극찬했다.
이번 논문이 게재된 코넬 대학교의 아카이브 플랫폼은 공식 저널 발행에 앞서 연구 성과를 신속히 공유하고 지적 재산권을 선점하기 위해 전 세계 과학자들이 애용하는 권위 있는 시스템이다.
한편, 레꽝중 연구원은 베트남 타인호아성 람선영재고등학교 출신으로, 고교 시절 베트남 전국수학경시대회에서 두 차례 1등 상을 거머쥐고 2017년 브라질에서 열린 제58회 IMO에서 금메달을 목에 건 수학 수재다. 이후 베트남 국립대학교 하노이 과학대학(VNU-HUS) 수학 우수자 과정을 수석 졸업한 뒤 프랑스의 명문 에콜 폴리테크닉(École Polytechnique)에서 석사 학위를 받고 미국으로 건너가 박사과정을 밟고 있다.
