(CHI 2024 Best Paper 리뷰) LLM을 탑재한 대화형 검색 서비스를 쓰면 내 생각이 편향된다고?

생각해 봅시다.

인공지능이 알려준 건데, 이러쿵 저러쿵, 이랬대, 저랬대.

우리는 모두 각자의 생각과 의견을 가지고 있습니다.

  • 차범근, 박지성, 손흥민 중에서 누가 가장 위대한 한국 축구선수일까요?
  • 인공지능이 궁극적으로 인간을 대체하게 될까요?
  • 대한민국은 선진국인가요?

만약, 자신의 의견에 확신이 서지 않으면, 검색엔진을 써서 정보를 더 찾아볼 수 있습니다. 최근에는 LLM을 기반으로 한 대화형 검색 서비스가 쏟아져 나오고 있어서 잘 정리된 형태로 정보를 얻을 수도 있지요.

그런데 이런 의문이 듭니다. 이런 서비스들이 가져다 주는 정보가 전부일까요? 오히려 이런 서비스들이 드넓은 정보의 공간을 충분히 탐색하지 못하게 의도적으로 방해하는 것은 아닐까요? 어쩌면 우리는 눈에 보이는 것만 보고, 원하는 것만 보면서 자신이 합리적이라고 착각하고 있는 것은 아닐까요?

그래서 말인데요.

누구인가? 내가 보려고 하는 정보 공간을 제한하고 왜곡하는 것은?

사실, 이미 오래전, 그러니까 웹이 중요한 정보매체가 된 이후부터, 웹에 의한 선택적 정보 노출과 이로 인해 발생할 수 있는 확증 편향, 의견의 양극화 및 급진화에 대한 우려가 끊임없이 제기되어 왔습니다. 검색엔진, 개인화, 추천 시스템 등에 의한 부작용이라고 할 수도 있지요. 또한 소셜 미디어 서비스는 사람들로 하여금 같은 생각을 가진 사람들과만 상호작용하게 하여 이른바 “Echo Chamber”를 만들 수도 있습니다. 

이것저것 물어보고 찾아달라 하고… 편해서 좋네.

이러한 상황에서 대화형 검색, 챗봇, 글쓰기 도구 등과 같이 Large Language Model(LLM)을 기반으로 한 새로운 서비스들이 널리 사용되고 있습니다. 그런데, 불행하게도, 이러한 시스템이 사용자들의 정보 활용 과정에 어떤 영향을 미치는가에 대해서는 아직 충분히 연구되어 있지 않습니다.

Best Paper로 뽑힌 논문이니 꼼꼼하게 다 읽어 봅시다.

이 글에서는 CHI 2024 발표된 Best Paper, “Generative Echo Chamber? Effect of LLM-Powered Search Systems on Diverse Information Seeking”을 소개합니다. 직접 읽어보시면 알겠지만, 우리의 궁금증에 대한 답을 찾기 위해 이 논문의 저자들은 정말 대단한 프로젝트를, 그것도 아주 치밀하게 수행하였습니다.

어떻게 실험을 했는지 알아봅시다.

어떻게 하나 두고 보자고…

이 논문은 2개의 실험을 진행하였습니다. 첫번째 실험에서는 전통적인 검색 엔진과 LLM 기반의 대화형 검색 시스템이 사용자들의 정보 탐색 과정에 미치는 영향을 추적하였고, 두번째 실험에서는 특정 주제에 대해 편향된 의견을 가진 LLM 기반 대화형 검색 시스템이 선택적인 정보 노출과 의견 편향에 미치는 영향을 평가하였습니다.

첫번째 실험 방법

첫번째 실험에서는 참가자들을 다음과 같이 무작위로 분류하였습니다.

  • 전통적인 웹 검색 엔진을 활용하는 그룹
  • 정보의 출처를 제공하지 않는 (중립된 의견을 가진) 대화형 검색 시스템을 활용하는 그룹
  • 정보의 출처를 제공하는 (중립된 의견을 가진) 대화형 검색 시스템을 활용하는 그룹

전통적인 웹 검색 엔진을 활용한 실험을 진행하기 위해, 실제 검색 엔진과 동일한 구조를 가지는 실험용 검색 엔진을 구현하였습니다. 이 검색 엔진은 특정 주제에 대한 지지, 반대, 중립 의견에 대한 정보를 제공하였습니다. LLM 기반 대화형 검색 시스템을 활용한 실험을 진행하기 위해서는, 사용자가 쿼리를 입력하면, 일단 미리 선별해 놓은 문서 세트에서 관련 문서를 검색한 후에, 검색된 결과를 LLM에 입력하여 답변을 생성하는 Retrieval Augmented Generation(RAG) 서비스를 구현하여 활용하였습니다.

정보 탐색 과정을 진행하기에 앞서 진행한 사전 설문조사를 통해서는, 미리 준비된 검색 주제들에 대한 참가자들의 사전 의견을 수집하였습니다. 정보 탐색 과정에서는 참가자들로 하여금 주어진 주제들에 대한 정보를 검색하여 짧은 에세이를 작성하게 하였습니다. 마지막 단계에서 진행한 사후 설문조사에서는 주제에 대한 사후 의견을 다시 수집하였습니다.

측정 항목

아이고… 살펴볼 게 많아요…

첫번째 실험에서는 다음의 항목들을 측정하였습니다. 이 항목들을 측정하면 특정 주제에 대한 검색 과정에서 자신의 의견을 강화하는 방향으로만 계속 검색을 진행했는지 확인할 수 있습니다. 그리고 검색을 한 후에 해당 주제에 대한 의견에 변화가 생겼는지의 여부도 확인할 수 있습니다.

  • Confirmation Query : 참가자가 자신의 의견과 일치하는 쿼리를 입력하는 회수와 일치하는 않는 쿼리를 입력하는 회수의 비율을 측정
  • Confirmatory Attitude Change : 주어진 주제에 대해 사전 설문 조사에서 표시한 지지(반대) 점수와 사후 설문 조사에서 표시한 지지(반대) 정도 점수의 차이를 측정
  • Confirmatory Arguments : 최종 에세이에 작성된 내용에서 참가자의 기존 의견과 일치하거나 불일치하는 문장의 비율을 측정
  • Confirmatory Agreement : 사후 설문 조사 과정을 통해 의견 일치 기사에 대해 참가자가 매긴 점수에서 불일치하는 기사에 대해 매긴 점수를 뺀 값을 측정
  • Confirmatory Trust : 사후 설문 조사 과정을 통해 의견 일치 기사에 대해 참가자가 매긴 신뢰도 점수에서 불일치하는 기사에 대해 매긴 신뢰도 점수를 뺀 값을 측정
  • Confirmatory Extremeness : 사후 설문 조사 과정을 통해 의견 일치 기사에 대해 참가자가 매긴 극단성 점수에서 불일치하는 기사에 대해 매긴 극단성 점수를 뺀 값을 측정

가설

첫번째 실험에서는 각 측정 항목을 바탕으로, 다음과 같은 가설들을 세웠습니다.

  • H1 : 전통적인 웹 검색에 비해 대화형 검색에서 더 높은 Confirmatory Query 비율이 기록될 것이다.
  • H2 : 전통적인 웹 검색에 비해 대화형 검색에서 더 높은 정도의 Confirmatory Attitude Change가 기록될 것이다.
  • H3 : 전통적인 웹 검색에 비해 대화형 검색에서 더 높은 Confirmatory Arguments 비율이 기록될 것이다.
  • H4 : 동일한 주제에 대해, 전통적인 웹 검색에 비해 대화형 검색에서 더 높은 정도의 Confirmatory Agreement가 기록될 것이다.
  • H5 : 동일한 주제에 대해, 전통적인 웹 검색에 비해 대화형 검색에서 더 높은 정도의 Confirmatory Trust가 기록될 것이다.
  • H6 : 동일한 주제에 대해, 전통적인 웹 검색에 비해 대화형 검색에서 더 낮은 정도의 Confirmatory Extremeness가 기록될 것이다.

첫번째 실험의 결과

첫번째 실험을 통해 각 가설을 검증한 결과를 요약하면 다음과 같습니다.

  • (H1 supported) : 전통적인 웹 검색에 비해 대화형 검색에서 Confirmation Query 비율이 높았습니다. 대화형 검색에서 참조를 보여주는 것은 영향을 미치지 않았습니다.
  • (H2 not supported) : 검색 후에 Confirmatory Attitude에서 유의미한 변화가 관찰되지 않았습니다.
  • (H3 not supported) : 참가자들이 특정 주제에 대한 자신의 사전 의견을 계속 지지하는 내용을 에세이에 작성하는 패턴을 보였지만 전통적인 웹 검색과 대화형 검색 사이에서의 유의미한 차이를 발견할 수는 없었습니다.
  • (H4 supported) : 대화형 검색 참가자들이 전통적인 웹 검색 참가자들에 비해 유의미하게 높은 수준의 Confirmatory Agreement를 보였습니다.
  • (H5 partially supported) : 대화형 검색 참가자들이 전통적인 웹 검색 참가자들에 비해 높은 수준의 Confirmatory Trust를 보였는데, 정보 출처를 제공하는 대화형 검색 참가자들과 전통적인 웹 검색 참가자들 사이에서 유의미한 차이를 보였습니다.
  • (H6 not supported) : 의견 불일치 기사에 대한 Confirmatory Extremeness 경향이 높았고 대화형 검색 참가자들이 전통적인 웹 검색 참가자들에 비해 낮은 수준의 Confirmatory Extremeness를 보였으나 유의미한 차이는 아니었습니다.
갇혔는데, 갇혔는지 몰라요…

첫번째 실험의 결과 요약

첫번째 실험의 결과는 (중립된 의견을 가진) 대화형 검색 시스템의 사용자가 전통적인 웹 검색 엔진 사용자에 비해 더 높은 수준의 Confirmation Query를 사용한다는 것을 보여주었습니다. 이것은 대화형 검색 엔진을 쓰면 자신의 의견을 강화하는 방향으로 검색을 진행할 가능성이 높다는 의미입니다. 또한, 자신의 의견과 일치하는 정보와 불일치하는 정보에 대한 인식의 양극화 정도를 대화형 검색 시스템이 높였다는 증거를 제시하였습니다.

두번째 실험 방법

두번째 실험에서는 편향된 의견을 가지는 대화형 검색 시스템을 활용하였습니다. 즉, 사용자의 의견과 일치하는 편향성을 가진 LLM 기반 대화형 검색 과정이 “선택적 노출”에 의한 부작용을 악화시킬 수 있을 지, 사용자의 의견을 거스르는 편향성을 가진 LLM 기반 대화형 검색 과정이 선택적 노출의 부작용을 완화시킬 수 있을 지를 평가하였습니다.

각 참가자들은 정보 출처를 제공하는 대화형 검색과 제공하지 않는 대화형 검색에 대해 세 가지의 의견 편향 –  의견 일치, 중립, 의견 불일치 – 조건 그룹들 중 하나에 배당되었습니다. 따라서, 총 6가지 조건 그룹이 생성되었습니다.

이 실험을 위해, 수동으로 프롬프트를 설계하여, 참가자들의 의견과 일치하는 편향을 가지는 버전과 반대하는 편향을 가지는 대화형 검색 시스템을 구현하여 활용하였는데, 각 시스템은 특정 편향에 해당하는 문서들을 검색하여 제시하였습니다. 

  • Consonant 대화형 검색 시스템: 이 검색 시스템은 참가자의 의견과 일치하는 편향을 가지며, 참가자들의 기존 의견을 지지하는 정보를 제공
  • Neutral 대화형 검색 시스템: 이 검색 시스템은 중립적인 입장을 유지하며, 다양한 관점에서 정보를 균형 있게 제공
  • Dissonant 대화형 검색 시스템: 이 검색 시스템은 참가자의 의견과 반대하는 편향을 가지며, 참가자들의 기존 관점을 거스르는 정보를 제공

가설

두번째 실험에서는 다음과 같은 가설들을 세웠습니다.

  • Consonant 대화형 검색 시스템에 대한 가설.
    • [H1.a]: Neutral 대화형 검색 시스템에 비해 Consonant 대화형 검색 시스템으로 검색할 때, 참가자들은 Confirmatory Queries를 더 높은 비율로 발행할 것이다.
    • [H2.a]: Neutral 대화형 검색 시스템에 비해 Consonant 대화형 검색 시스템으로 검색할 때, 참가자들은 더 높은 수준의 Confirmatory Attitude Change를 보일 것이다.
    • [H3.a]: Neutral 대화형 검색 시스템에 비해 Consonant 대화형 검색 시스템으로 검색할 때, 참가자들은 에세이에 더 많은 Confirmatory Argument를 쓸 것이다.
    • [H4.a]: Neutral 대화형 검색 시스템에 비해 Consonant 대화형 검색 시스템으로 검색할 때, 참가자들은 더 높은 수준의 Confirmatory Agreement를 나타낼 것이다.
    • [H5.a]: Neutral 대화형 검색 시스템에 비해 Consonant 대화형 검색 시스템으로 검색할 때, 참가자들은 더 높은 수준의 Confirmatory Trust를 보일 것이다.
    • [H6.a]: Neutral 대화형 검색 시스템에 비해 Consonant 대화형 검색 시스템으로 검색할 때, 참가자들은 Confirmatory Extremeness의 수준이 낮아질 것이다.
  • Dissonant 대화형 검색 시스템에 대한 가설.
    • [H1.b]: Neutral 대화형 검색 시스템에 비해 Dissonant 대화형 검색 시스템으로 검색할 때, 참가자들은 Confirmatory Queries를 낮은 비율로 발행할 것이다.
    • [H2.b]: Neutral 대화형 검색 시스템에 비해 Dissonant 대화형 검색 시스템으로 검색할 때, 참가자들은 Confirmatory Attitude Change의 수준이 낮을 것이다.
    • [H3.b]: Neutral 대화형 검색 시스템에 비해 Dissonant 대화형 검색 시스템으로 검색할 때, 참가자들은 에세이에 더 적은 Confirmatory Argument를 쓸 것이다.
    • [H4.b]: Neutral 대화형 검색 시스템에 비해 Dissonant 대화형 검색 시스템으로 검색할 때, 참가자들은Confirmatory Agreement 수준이 낮아질 것이다.
    • [H5.b]: Neutral 대화형 검색 시스템에 비해 Dissonant 대화형 검색 시스템으로 검색할 때, 참가자들은 Confirmatory Trust 수준이 낮아질 것이다.
    • [H6.b]: Neutral 대화형 검색 시스템에 비해 Dissonant 대화형 검색 시스템으로 검색할 때, 참가자들은 더 높은 수준의 Confirmatory Extremeness을 보일 것이다.

결과

(H1.a Supported; H1.b Not Supported) : Consonant 조건의 참가자들이 중립 및 Dissonant 조건의 참가자들보다 더 많은 Confirmatory Queries를 발행했다는 것을 발견하였습니다. Consonant과 Dissonant 간의 차이가 유의미했으며, Consonant과 Neutral 간의 차이도 유의미했습니다. 이것은Consonant 대화형 검색 시스템이 Neutral 대화형 검색 시스템에 비해 더 많은 Confirmatory 정보 탐색 행동을 유도한다는 H1.a를 지지하며, 이것은 사람들이 기존의 견해를 강화하는 대화형 상호작용을 할 때 정보 탐색 행동이 더욱 편향될 수 있음을 시사합니다. 그러나 Dissonant 대화형 검색 시스템이 좀 더 다양한 관점의 정보 검색 행동을 유도한다는 가설을 지지하는 증거를 발견하지는 못했습니다.

(H2.a – 6.a Mostly Supported; H2.b – 6b Mostly Not Supported) : 

Confirmatory Attitude Change

  • 참가자들이 검색 세션을 수행한 후 보고한 Confirmatory Attitude Change에서 유의미한 차이를 관찰할 수 있었습니다. 이것은 Consonant 시스템으로 검색하는 것이 더 극단적인 태도 변화를 초래할 수 있음을 보여주는 H2.a를 부분적으로 지지합니다. 이와 달리, Dissonant 시스템 사용의 효과에서는 H2.b에 대한 지지 증거를 발견할 수 없었습니다.

Confirmatory Arguments

  • 편향된 대화형 검색 시스템이 참가자들의 에세이에 편향을 줄 수 있다는 사실을 발견하였습니다. 편향 조건에 따른 Confirmatory Arguments의 유의미한 차이를 발견하였습니다. 이 결과는 H3.a와 H3.b을 부분적으로 지지하며, Consonant 시스템을 사용하는 것이 더 높은 의견 양극화를 초래할 수 있음을 시사합니다. 한편, Dissonant 시스템이 의견 양극화를 줄일 가능성이 있습니다.

Confirmatory Agreement

  • 검색 수행 후 Consonnant 기사와 Dissonant 기사의 인식에 나타나는 의견 극단화를 측정하기 위해 동의, 신뢰 여부 및 극단성 정도 평가하도록 요청하였는데, 참가자들은 Consonnant 기사에 동의했으며, Dissonant 기사에 대해서는 동의하지 않았습니다. 이 결과는 H4.a를 지지하지만 H4.b는 지지하지 않습니다.

Confirmatory Trust

  • 참가자들은 Consonnant 기사를 Dissonant 기사보다 더 신뢰하는 패턴을 보였습니다. Consonnant 시스템은 다른 두 시스템보다 더 높은 수준의 Confirmatory Trust를 이끌어냈으며, Consonnant와  Neutral 간의 차이 및 Consonnant 와 Dissonant 간의 차이는 유의성 판단 기준에 살짝 미치지 못했습니다. Dissonant와 Neutral 간의 차이는 유의하지 않았습니다. 이 결과는 H5.a를 부분적으로 지지하지만 H5.b에 대해서는 지지하지 않습니다.

Confirmatory Extremeness

  • 참가자들은 Dissonant 기사를 Consonnant 기사보다 더 극단적으로 인식하였으며 Consonnant 시스템으로 검색한 참가자들은 다른 두 조건의 참가자들보다 낮은 수준의 Confirmatory Extremeness를 보였습니다. 이 결과는 H6.a를 부분적으로 지지하지만 H6.b는 지지하지 않습니다.
다른 사람들의 이야기는 들으나 마나죠…

두번째 실험의 결과 요약

두번째 실험의 결과는, 편향된 대화형 검색 시스템이 사람들의 정보 탐색 행동과 의견에 상당한 영향을 미칠 수 있으며, 이러한 효과는 시스템에 사전에 인코딩된 편향성이 사람들의 기존 견해와 일치하는지 불일치하는지에 따라 뚜렷해진다는 사실을 보여줍니다. 자신의 의견과 일치하는 시스템을 활용한 참가자들은 더 많은 Confirmatory Queries를 보였고(H1.a), 의견 양극화의 정도가 확실히 높았습니다(H2.a – H6.a). 이에 비해, 자신의 의견을 거스르는 편향을 보인 시스템을 활용한 경우에는 의견 양극화를 완화하는 효과가 뚜렷하지 않았습니다. 이것은 편향된 대화형 검색 시스템이 사람들이 가진 의견의 편향성을 강화시킬 수 있다는 사실을 나타냅니다.

그렇다면, 인공지능한테 쉽게 속겠는데요?

인공지능이 그러는데… 저 사람들의 생각은 다 잘못된 거래.

이 논문에서는 두 가지 실험을 통해 다음과 같은 결과를 제시하였습니다.

(1) LLM 기반의 대화형 검색은 대화과정에서 더 많은 Confirmation Query를 생성하게 하여 기존의 웹 검색에 비해 선택적 노출 및 의견 양극화를 증가시킬 수 있습니다

(2) 사용자의 견해를 강화하는 편향을 가진 LLM은 이러한 효과를 더 강화할 수 있으며, 이것은 “Generative Echo Chamber”의 위험성을 시사합니다. 

(3) 정보 출처를 제공하거나, 심지어 사용자와 다른 의견을 가진 LLM 기반 대화형 검색을 활용해도 선택적 노출과 의견 양극화를 줄일 수 없었습니다. 일반적으로 전통적인 웹 검색 시스템을 사용할 때에 비해 대화형 검색 과정에서 더 긴 쿼리를 입력하게 되는데, 이것은 사회적 상호작용과 유사하며, 자신과 같은 의견을 가진 상대방과 더 많은 이야기를 하게 되는 것과 유사합니다. 더 나아가, 참가자들은 대화 검색 시스템을 활용하는 과정에서 자신의 의견과 같은 내용을 담은 정보 출처의 링크를 클릭하는 회수가 그렇지 않은 내용을 담은 링크를 클릭하는 회수보다 많았고, 읽는 시간도 더 길었습니다.

따라서, LLM 기반 응용 서비스를 만들 때에는 사람들의 행동을 관찰하면서 사회적 문제의식을 가지고 접근해야 합니다. 구체적으로 말하면, 우리는 LLM에 사전에 인코딩된 편향을 통해 Echo Chamber 효과를 부추겨서 정치적 또는 상업적으로 이득을 보려는 집단들이 만들어낼 수 있는 사회적 위험성을 심각하게 고려해야 합니다. 이러한 편향된 LLM은 대화형 검색뿐만 아니라 글쓰기 지원 기능, 챗봇, 소셜 미디어 봇 등에도 사용될 수 있습니다. 

우리는 LLM의 의견 편향을 탐지하고 이러한 편향을 악의적으로 생성하여 활용하는 일을 막기 위한 기술적 장치와 감시 방법을 개발해야 합니다. 정책 입안자들은 어떻게 이러한 악의적인 조작을 억제하고 LLM의 의견 편향을 없애기 위한 규범과 규제를 어떻게 설정할 것인지에 대해 심각하게 고민해야 합니다. 우리는 또한 LLM 기반 정보 시스템 및 에이전트들에 의해 다수의 의견이 어떻게 왜곡될 수 있는지에 대해서도 지속적으로 탐구해야 합니다.

자, 그럼 이 글을 읽고 우리도 의견을 내볼까요?

LLM을 기반으로 하는 대화형 검색 시스템이 정말로 선택적 정보 노출과 의견 편향을 강화시킬까요?


코멘트

“(CHI 2024 Best Paper 리뷰) LLM을 탑재한 대화형 검색 서비스를 쓰면 내 생각이 편향된다고?”에 대한 2개의 응답

  1. […] 더보기 >> LLM을 탑재한 대화형 검색 서비스를 쓰면 내 생각이 편향된다고? […]

  2. 관련 유튜브 동영상은 https://youtu.be/jpSS97kiO2I?si=t4tW-fQaZdimlIsg 에서 보실 수 있습니다.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다