기본분류

서울대 공대 컴퓨터공학부 김현우 박사, 국제 최우수 AI 학회 EMNLP에서 국내 대학 연구자 최초 논문상 수상

고품질 대규모 대화 데이터셋 누구나 간편하게 구축하는 방법론 개발
세계 최대 규모 데이터셋 ‘SODA’ 공개

 

서울대학교 공과대학(학장 홍유석)은 컴퓨터공학부 김현우 박사와 김건희 교수가 미국 시애틀 앨런 인공지능 연구소(Allen Institute for AI, AI2) 및 워싱턴 대학교(University of Washington)의 최예진 교수 등과 함께 진행한 연구가 국제 최우수 자연어처리 학술대회 ‘EMNLP 2023’에서 ‘Outstanding Paper Award’를 수상했다고 밝혔다.

 

국내 대학 연구진이 EMNLP에서 수상을 한 것은 이번이 최초다.

기존 인공지능(AI) 대화 분야는 고질적으로 데이터 부족 문제에 시달려왔다. 일상에서 이뤄지는 대화들은 데이터로 기록되지 않는 경우가 대부분이기 때문이다. 문자 메세지나 이메일 같은 형태로 대화가 기록되더라도 여러 법적 제약들이 존재하기 때문에 이를 연구에 활용하기에는 어려웠다.

이의 대안으로 그동안 크라우드 소싱을 통해 대화 데이터셋을 제작해왔지만 비용도 많이 들고, 만들 수 있는 데이터셋 크기도 작은 문제점이 있다. 그 결과, 기존 대화 관련 연구들은 모두 소수의 작은 데이터셋 위에서 이뤄져 범용성에 큰 제약이 있었다.

수상 논문인 ‘사회 상식 맥락화 기법을 통한 백만 단위의 대화 증류(SODA: Million-scale Dialogue Distillation with Social Commonsense Contextualization)’는 이를 해결하기 위해 거대 언어모델(large language model, LLM)과 기호 기반 상식 그래프(symbolic commonsense knowledge graph)를 함께 사용해 데이터셋을 효율적으로 자동 구축하는 방법론인 CO_3 증류 프레임워크(distillation framework)를 제시했다.

기존에 크라우드 소싱 활용 시에는 대화 하나당 길게는 몇 분이 걸리던 작업을 6초 내외로 단축시킨다. 연구팀은 이를 통해 세계 최초로 150만 규모의 세계 최대 고품질 일상 대화 데이터셋인 ‘SODA’를 무료로 공개했는데, 이는 기존 데이터셋 대비 100배 큰 규모다.

이 밖에도 대화의 자연스러움, 일관성, 구체성 등 품질 또한 기존 크라우드 소싱 기반 대화 데이터셋에 비해 2배 이상 뛰어난 것으로 나타났다. 그 결과, SODA에 학습시킨 챗봇 ‘COSMO’는 파라미터 수가 30억 개로 작은 크기임에도 불구하고 기존 큰 챗봇들(파라미터 수 70억)보다 대화 맥락에 더 적합하고 자연스러운 답변이 가능하다.

이번 연구는 대화 데이터셋 부족 문제를 해결하고, 누구나 간편하게 세계 최대 규모의 고품질 대화 데이터셋을 구축할 수 있는 방법론을 제시했다는 데에 의의가 있다. 이 방법론으로 탄생한 데이터셋 SODA는 다양한 대화 연구에 기반 자료로 쓰일 수 있을 것으로 기대되며, 해당 코드와 SODA 데이터셋, COSMO 모델은 모두 오픈소스로 공개돼 있다.

해당 논문은 김현우 박사가 서울대 박사과정 중 미국 시애틀의 앨런 인공지능 연구소(Allen Institute for AI, AI2)에서 인턴을 수행하며 워싱턴 대학교(University of Washington), 카네기멜론 대학교(Carnegie Mellon University), 서던 캘리포니아 대학교(University of Southern California), 그리고 피츠버그 대학교(University of Pittsburgh)가 함께하는 국제 공동협력 연구를 이끈 결과며, 김현우 박사는 졸업 후 AI2에서 박사후 연구원으로 취업해 후속 연구를 이어가는 중이다.

관련기사



미디어

더보기
두산건설, LH와 서울 1호, 2호 도심복합사업 업무협약 체결 두산건설(대표이사 이정환)은 한국토지주택공사(LH)와 서울지역 도심 공공주택 복합사업(이하 ‘도심복합사업’)인 도봉구 ‘방학역 도심복합사업’과 ‘쌍문역 동측 도심복합사업’에 대해 공동사업시행 업무협약을 완료했다고 18일 밝혔다. 양사는 지난 17일 오후 서울시 강남구에 위치한 LH 서울지역본부에서 협약식을 진행했다. 협약식에는 두산건설 김홍재 건축사업본부장과 LH 박현근 서울지역본부장 등 양사 관계자들이 참석했다. 도심복합사업은 공공이 주도하는 도시 재생 프로젝트로, 노후화된 도심 지역에 주거와 상업 기능이 결합된 복합단지를 조성하는 사업이다. 공공주택 공급 확대와 지역경제 활성화를 동시에 도모할 수 있으며 공공 주도로 사업 안정성이 보장되고 인허가 절차의 신속성이 확보되는 것이 특징이다. 2021년부터 새롭게 추진해 온 도심복합사업은 급등한 공사비 등으로 사업이 지연됐었다. 두산건설은 그동안 다수의 도심 역세권 사업을 진행한 경험을 바탕으로 철저할 리스크 분석을 통한 사업성 분석과 고급 주거브랜드 ‘위브더제니스’를 통해 사업을 수주하며 서울 도심복합사업의 물꼬를 텄다. 서울 1호 도심복합사업지인 ‘방학역 도심복합사업’은 서울 도심 내 도심복합사업 후보지 중

LIFE

더보기
IBK기업은행, 2025 하남시 일자리 박람회 성황리 개최 IBK기업은행(은행장 김성태)은 지난 11일 ‘2025 하남시 일자리박람회’를 성공적으로 개최했다고 밝혔다. 이날 행사에는 이현재 하남시장, 김용만 국회의원, 김성태 IBK기업은행장, 양승준 고용노동부 성남지청장을 비롯한 유관기관 관계자들이 참석해 구직자들의 취업성공을 응원했다. 이번 박람회는 우량 중소·중견기업, 대기업 협력사 등 총 80개들 기업들이 참여했으며 2천여명의 구직자들이 현장을 방문해 열기를 더했다. 특히 중장년, 제대군인, 경력단절 여성 등 취업 취약계층을 위한 맞춤형 일자리 지원과 과학기술 인재의 병역대체를 위한 전문연구요원 병역특례관도 운영돼 눈길을 끌었다. 또한 채용상담과 면접 외에도 취업특강, 시민참여 토크쇼, 재테크 및 은퇴설계를 주제로 한 컨퍼런스 등 구직자들에게 실질적으로 도움이 되는 다양한 프로그램도 진행됐다. 박람회를 찾은 한 중장년 구직자는 “다양한 분야에서 중장년층을 환영하는 기업들이 있어 큰 용기를 얻었고 재취업을 통한 새로운 인생 2막이 기대된다”며 감사의 뜻을 전했다. 김성태 은행장은 “이번 박람회는 하남시민의 새로운 내일을 여는 의미있는 출발점이었다”며, “앞으로도 유관기관들과의 긴밀한 협력을 통해 지역 일자리 생태