
Screenshot
뛰어들기 전에 먼저…
- (1) 이 글은 떠오르는 한국의 신진 연구자들이 주도적으로 수행한 연구내용들을 발굴할 목적으로 작성하였습니다. (앞으로도 계속 발굴해 볼 예정입니다.)
- (2) 인포리언스는 이 글에서 소개한 연구자와 아무런 관계가 없습니다. (물론, 알고 지내면 좋을 것 같아요… )
- (3) 이 글은 인포리언스의 주관적 해석과 의견입니다. 따라서 해당 연구자의 생각과 많이 다를 수도 있다는 점을 미리 밝혀둡니다.
–
제1저자 Jeonghyun Park(중앙대) 연구자의 연구 방향 예측
Jeonghyun Park 연구자의 연구는 사용자의 목적과 의도를 명확하게 파악하기 어려운 상황에서도 정확하고 믿을 수 있는 정보를 찾아내도록 하는 AI 서비스를 개발하는 것에 초점을 맞추고 있습니다.
질문을 똑똑하게 수정하고 (GuideCQR), 언어 편향성에 의해 생길 수 있는 성능 하락을 막고 (DKM-RAG), 복잡하고 모호한 질문을 논리적으로 풀어내는 (MIRAGE/CLARION) 방법들을 제시하였다는 점을 고려할 때 추후에는 다음과 같은 방향으로 연구를 진행할 것으로 예측해 볼 수 있습니다.
(1) 언어를 활용한 인터페이스에서 나타나는 복잡성과 모호성을 해결하여 더욱 똑똑한 AI 서비스를 개발
DKM-RAG에서 다룬 언어 편향성 문제와 CLARION에서 다룬 복잡성 및 모호성 해결 문제를 하나의 AI 시스템에 통합하게 되면, 사용자가 ’저자원 언어’로 입력한 애매하고 모호한 질문에 대해 여러 해석을 찾고 고자원 언어로 번역하여 검색한 후에 다시 저자원 언어로 답변을 생성하여 주는 고성능 다국어 추론 에이전트를 구현할 가능성이 있습니다.
(2) 느린 속도와 비효율성을 개선
GuideCQR나 DKM-RAG은 답변을 생성하는 과정에서 키워드 추출, 예상 답변 생성, 번역, 다단계 추론 등과 같은 여러 단계를 밟게 되어 시간이 오래 걸리게 됩니다. 따라서 앞으로는 이러한 과정을 거치면서도 작동 속도를 올리거나 계산 비용을 줄일 수 있는 방법을 연구할 가능성이 있습니다.
(3) AI 서비스의 적용 범위 확장
현재까지의 연구가 위키피디아와 같은 소스를 써서 일반적인 지식을 활용했다면, 앞으로는 법률, 의학 등과 같은 전문 분야에 대한 시스템을 개발하거나, 훨씬 자원이 부족한 언어 환경으로 연구를 확장하면, AI 서비스의 적용 범위를 확장하는데 기여할 수 있습니다.
–
대표 논문 소개
Jeonghyun Park 연구자가 1저자로 발표한 세 편의 대표 논문들은 모두 AI가 사용자의 질문에 더 정확하게 대답하도록 하는 방법에 관한 것들이라고 할 수 있습니다. 특히 질문이 대화처럼 이어지거나 질문이 모호하고 복잡한 상황이거나, 다국어 활용 환경일 때에 적용할 수 있는 방법들입니다.
–
(1) GuideCQR: 똑똑한 힌트 찾기 (대화형 질문 개선) – https://arxiv.org/abs/2407.12363
개요
이 논문은 사용자가 AI 서비스에 질문을 입력했을 때, AI가 정답을 찾기 위해 가장 효율적인 검색어를 만들 수 있도록 하는 방법을 제시합니다
기본 아이디어
사용자가 친구와 대화하듯 질문을 하면 (예: “그거 얼마야?”), AI는 ‘그거’가 무엇을 의미하는지 파악해야 합니다. 이 때, AI가 가장 먼저 찾아본 문서들에서 힌트 (키워드)를 얻어, 원래의 질문을 컴퓨터가 가장 잘 이해할 수 있는 질문으로 바꿉니다.
방법론
1. 초기 검색 시도: 원래의 질문(“그거 얼마야?”)으로 일단 문서를 검색합니다.
2. 힌트 추출: 초기 검색 과정에서 검색된 문서들 중에서 가장 중요한 단어 (키워드)와 예상 정답을 뽑아냅니다.
3. 질문 보강: 뽑아낸 힌트들 중에서 쓸데없는 정보는 걸러내고, 원래의 질문에 힌트를 추가하여 최종적으로 새로운 질문을 생성합니다.
차별 포인트
기존의 방식들은 질문을 사람이 읽기 좋게 만드는 데 집중한 것에 비해, 이 연구에서는 사람이 읽기에 조금 어색하더라도 AI 서비스가 정답 문서를 찾아내기 가장 쉬운 형태로 질문을 개선합니다.
Contribution 포인트
이 논문에서 제시한 방식으로 AI의 검색 성능을 최고 수준(SOTA)까지 끌어올렸습니다. 심지어 사람이 직접 손으로 수정한 질문들보다도 더 좋은 검색 결과를 얻을 수 있도록 질문을 개선할 수 있음을 보였습니다.
연구의 활용 방안
챗봇이나 검색 엔진이 사용자의 대화 흐름을 놓치지 않고, 더 빠르고 정확하게 답을 찾을 수 있도록 질문의 품질을 자동으로 향상시킵니다.
–
(2) DKM-RAG: 외국어 편향 깨기 (다국어 질문 개선) – https://arxiv.org/abs/2502.11175
개요
이 논문은 AI 서비스가 다국어로 작성된 질문에 답할 때, 특정 언어나 질문 언어를 선호하여 생길 수 있는 ‘언어 편향’ 문제를 해결하는 방법을 제시합니다.
기본 아이디어
AI 서비스가 여러 언어(한국어, 스페인어, 영어 등)로 작성된 자료들을 보유하고 있을 때, 만약 질문이 스페인어로 입력되면, AI는 가장 중요한 내용을 담고 있을 수 있는 한국어 자료 보다는 영어나 스페인어 자료를 활용하는 경향이 있습니다(언어 편향). 이러한 편향은 답변의 정확성을 떨어뜨릴 수 있습니다.
방법론
1. 편향 측정 (MLRS): AI가 얼마나 특정 언어를 편애하는지를 순위 변화 점수(MLRS)라는 새로운 기준으로 측정했습니다. MLRS는 외국어 문서를 질문 언어로 번역했을 때 순위가 얼마나 오르는지를 보고 편향 정도를 평가합니다.
2. DKM-RAG 제안: AI가 언어 편향을 극복하고 일관된 답변을 제공하도록 두 가지 지식을 통합합니다.
- 외부 번역된 문서 : AI가 찾아낸 외국어 문서를 질문 언어로 모두 번역합니다.
- AI의 내부 지식으로 다듬은 문서: 번역된 문서 내용을 검토하고 내재된 지식을 활용하여 불필요한 부분을 제거하고 다듬습니다.
- 최종적으로 이 두 정보를 합쳐서 답변을 생성합니다.
차별 포인트
AI의 검색 능력과 답변 생성 능력에 큰 영향을 미치는 언어 편향을 체계적으로 분석하고, 번역된 정보와 모델 내부의 지식을 결합하여 언어 편향 문제를 해결했습니다.
Contribution 내용
검색 서비스가 자료가 풍부한 고자원 언어(ex:영어)와 질문에 사용된 언어를 선호하는 경향이 있으며, 답변 생성 과정에서도 질문 언어나 특정 계열 언어를 선호한다는 사실을 발견했습니다. DKM-RAG는 이러한 편향성을 줄이고 다국어 환경에서 답변의 정확성을 높였습니다.
연구의 활용 방안
다양한 언어를 사용하는 사용자들에게 언어에 상관없이 일관된 성능으로 AI 서비스가 답변을 생성하여 제공하도록 합니다.
–
(3) MIRAGE/CLARION: 복잡하고 애매한 수수께끼 풀이 (다단계 모호성 해결) – https://www.arxiv.org/abs/2509.22750
개요
이 논문은 질문 자체가 여러 단계를 거쳐야 풀릴 수 있거나, 의미가 모호한 질문을 AI가 풀어내도록 하는 방법을 제시합니다.
기본 아이디어
실제 사용 환경에서 입력될 수 있는 복잡한 질문 (예: “노벨 화학상 수상자가 발견한 원소가 국제 연합에 의해 공식적으로 인정된 것은 언제야?”)은 여러 단계의 추론을 필요로 하며, 각 개별 단계에도 모호성이 포함됩니다. AI 서비스는 보통 이런 질문을 받으면 유효할 수도 있는 다른 해석들을 무시하고 하나의 해석에만 집중하는 경향이 있습니다.
방법론
1. MIRAGE (미라지) 벤치마크 구축: 복잡하고 어려운 질문(다단계 추론 + 모호성)을 제대로 평가하기 위해 1,142개의 고품질 문제세트(MIRAGE)을 만들었습니다. 이 문제세트는 질문의 모호성 유형 (문법적, 일반적, 의미적)을 명확히 분류합니다.
2. CLARION (클라리언) 프레임워크 제안: 문제를 해결하기 위해 두 개의 에이전트가 함께 일하는 방식을 제시했습니다.
- 계획 에이전트 (Planning Agent): 질문을 분석하여 모호성을 찾고, 가능한 모든 해석에 대해 명확한 질문(Clarified Query)을 만들어냅니다.
- 실행 에이전트 (Acting Agent): 계획 에이전트가 세운 계획대로 각 해석을 따라가며 검색하고 답변을 찾는 역할을 수행합니다.
차별 포인트
기존의 연구들은 단순한 모호성이나 단순한 다단계 추론 중 하나만 다루어 왔지만, 이 논문에서 제시한 MIRAGE는 각 추론의 단계마다 모호성을 해결할 필요가 있는 실제적인 복합 질문을 최초로 직접 다루었습니다.
Contribution 내용
강력한 최신 AI 모델들도 이 복합적인 문제세트(MIRAGE)를 만나면 크게 헤맨다는 것을 보였습니다. CLARION은 이 문제세트에 대해 기존의 다른 AI 방식들보다 훨씬 뛰어난 성능을 보여주며 모호성 해결에 대한 기준점을 제시했습니다.
연구의 활용 방안
복잡하고 애매한 사용자 질문에 대해 AI 서비스가 모든 해석 가능성을 포괄하는 완벽하고 풍부한 답변을 할 수 있도록 합니다.