Generative Agent Simulations of 1,000 People

2024년 11월 15일

스탬포드, 딥마인드

url : https://arxiv.org/abs/2411.10109

일반적인 논문 형식과 다름

git : https://github.com/joonspk-research/genagents

Abstract

휴면 행동 시뮬레이션의 약속은 사람의 행동을 넓은 범위에서 따라하는 범용적인 목적의 계산 에이전트임

논문에서는 1,052명의 실제 개개인을 시뮬레이션함

2주 후의 참가자들의 답변을 실제 85%가지 재현했다고 함

이 연구는 개인 및 집단 행동을 조사하는 데 도움을 줄 수 있는 새로운 도구의 기반을 제공함

Main Text

사람의 생각화 행동의 범용 목적으로 시뮬레이션 하는것은 사람의 사회성, 윤리, 정보 컨텍스트를 각각 시뮬레이션 하는것과 같음

예를 들어, 다양한 개인 집단이 새로운 공공 보건 정책과 메시지에 어떻게 반응할지, 제품 출시에 대해 어떤 반응을 보일지, 또는 주요 충격에 어떻게 대응할지를 탐구할 수 있음

러한 시뮬레이션은 개입을 사전에 실험하고, 미묘한 인과적 및 맥락적 상호작용을 포착하는 복잡한 이론을 개발하며, 경제학 (4), 사회학 (2), 조직학 (5), 정치학 (6) 같은 다양한 영역에 걸쳐 제도와 네트워크 같은 구조에 대한 이해를 확장하는 데 도움을 줄 수 있음

시뮬레이션은 에이전트라고 불리는 각각의 모델을 정의함

전통적인 에이전트 구조는 전형적으로 수동으로 지정된 행동에 의존함 예시로는 게임이론, 이산선택 모델

제한된 코스트에서 우선시 하는것을 해석하는것

이러한 접근법은 해석 가능성을 우선시하지만, 에이전트를 좁은 맥락에 제한하고 실제 인간 행동의 복잡한 상황을 과도하게 단순화하는 단점이 있음

생성형 AI모델 특히 LLM은 사람의 행동에 다양한 지식을 포함하고있어 많은 컨텍스트에서 사람의 행동을 정확히 시뮬레이션하도록 구축하는것을 도와줌

그러나 인구통계학 고정관념 정보에서 에이전트를 단순화하는것은 피해야함 그리고 평가는 평균 처치 효과에 의한 복제 성공 실패를 넘어서는것이 필요함

해당 연구는 실제 1000명이 넘는 개개인을 2시간의 인터뷰 정보로 generative agent를 보여줌

구조는 인터뷰와 LLM을 결합하여 개개인의 태도와 행동을 복제함

해당 에이전트는 canonical social science 평가 방법을 사용함 (General Social Survey (GSS; 20), the Big Five Personality Inventory (21), 섯 가지 잘 알려진 행동 경제학 게임(예: 독재자 게임, 공공재 게임) (22-25), 그리고 최근 대규모 복제 연구에서 샘플링된 통제 및 처치 조건이 포함된 다섯 가지 사회 과학 실험(26-31)과 같은 표준적인 사회 과학 측정을 사용하여 이러한 에이전트를 평가)

참가자의 프라이버시를 보호하기 위해 두 갈래의 접근 시스템을 제공함

  1. open access

    고정 테스크에 대한 집계된 응답

  2. restricted access

    개개인의 답변 (리뷰 과정을 거친 연구자들에게만 제공 ㅠㅠ)

    • 데이터 요청해보기 **

Creating 1,000 Generative Agents of Real People

시뮬레이션을 더 잘 생성하기 위해서 수많은 독특한 요인, 개인의 태도, 신념, 행동을 반영하기 위해, 위해 심층 인터뷰에 집중함

이는 인간 삶의 결과를 예측하는 데 있어 기존 연구들이 전통적인 설문 조사와 인구통계학적 도구로 얻을 수 없는 통찰을 포착하기 위해 사용했던 방법임

심층 인터뷰는 미리 지정된 질문과 응답자의 답변에 따라 적응적으로 이어지는 후속 질문을 결합한 것으로 몇가지 장점으로 사회과학에서 근본적인 사회 과학 기법으로 자리잡음

폐쇄형 질문의 설문조사에서 질문들과 사전 정의된 응답 범주는 개인에 대한 지식을 얻는 가치있는 강력한 정량 분석임

특히, 인터뷰 대상자들에게 자신이 중요하다고 생각하는 점을 강조할 수 있는 더 많은 자유를 제공하며, 궁극적으로 무엇이 측정될지를 형성함

f_1

  • 그림1 캡션

데이터는 인종, 성별, 소득, 거주 지역, 정치적 이념, 성적 정체성을 기준으로 미국에서 1,052명의 계층화된 샘플을 모집하는 것으로 시작됨

모집이 완료되면, 참가자들은 AI 인터뷰어와 함께 2시간 동안의 음성 인터뷰를 진행하며, 이후 설문 조사와 실험을 완료 후 각 참가자의 인터뷰 데이터를 사용하여 생성형 에이전트를 만듦

에이전트를 평가하기 위해, 생성형 에이전트와 참가자 모두 동일한 설문 조사와 실험을 완료함

인간 참가자의 경우, 이 과정은 2주 후 동일한 설문 조사와 실험을 다시 수행하는 것을 포함하며 생성형 에이저트의 정확성을 펴가하기 위해 에이저트의 응답을 참가자의 원래 응답과 비교하며, 각 참가자가 2주 후 자신의 응답을 멀마나 일관되게 재현했는지를 기준으로 규정함

음성 영어로 대화했으며 글로 옮긴 기록은 참가자 당 6,491개의 단어(std = 2,541) 정도임(새각보다 작네)

인터뷰 프로토콜을 우리의 평가 지표에 의도치 않게 맞추는 것을 피하기 위해, 우리는 광범위한 주제를 다루는 기존의 인터뷰 프로토콜을 찾음

이를 위해 사회과학자들의 다양한 주제를 가지고 있는 미국 목소리 프로젝트를 채택함

현재의 소셜 이슈도 포함고있음 (예시: 인종 및/또는 인종 차별과 경찰 문제에 대한 증가된 관심에 대해 어떻게 대응하셨습니까?)

-> 일부는 GSS와 주제적으로 겹칠 수 있지만, 경제 게임 행동을 다루지는 않았다고 함

시간이 제한된 인터뷰에서 높은 성능을 달성하기 위해 AI 인터뷰어는 참가자의 응답에 맞추어 동적으로 질문을 생성함

생성형 에이전트를 생성하기 위해 (14, 15), 우리는 참가자들의 전체 인터뷰 전사와 대규모 언어 모델(SM 3)을 활용하는 새로운 에이전트 아키텍처를 개발

에이전트에 질의가 들어오면, 인터뷰 전체 전사가 모델 프롬프트에 삽입되어, 모델이 인터뷰 데이터를 기반으로 해당 사람을 모방하도록 지시됨

여러 의사결정 단계를 요구하는 실험에서는, 에이전트가 이전 자극과 그 자극에 대한 응답을 기억할 수 있도록 짧은 텍스트 설명을 통해 메모리를 부여받음

이렇게 생성된 에이전트는 강제 선택 프롬프트, 설문 조사, 다단계 상호작용 환경을 포함한 모든 텍스트 자극에 응답함

생성형 에이전트가 사회 과학 분야에서 일반적으로 사용되는 일련의 설문 조사와 실험에 대해 소스 참가자들의 응답을 예측하는 능력을 평가했습니다. 이 평가는 인터뷰 이후 참가자들이 완료한 네 가지 구성 요소로 이루어짐

  1. 사회 조사(GSS; 20)의 핵심 모듈

    GSS (General Social Survey): 일반 사회 조사

  2. 44개 항목으로 구성된 빅 파이브 인벤토리(BFI-44; 16),

  3. 다섯 가지 잘 알려진 행동 경제학 게임(독재자 게임, 신뢰 게임, 공공재 게임, 죄수의 딜레마 등; 22-25),

  4. 통제 및 처치 조건이 포함된 다섯 가지 사회 과학 실험(27-31).

자기 일관성 수준의 변화를 고려하기 위해, 우리는 각 참가자에게 동일한 테스트 배터리를 2주 간격으로 두 번 완료하도록 요청

정규화된 정확도가 1.0인 경우, 이는 생성형 에이전트가 개인의 응답을 예측하는 정확도가 개인이 2주 후 자신의 응답을 재현하는 정확도와 동일하다는 것을 의미

f_2

생성형 에이전트의 예측 성능 및 95% 신뢰 구간. 참가자와 생성형 에이전트의 예측 성능 간의 일치율은 다양한 구성 개념(construct)에 대해 평가되며, 이를 개인별로 평균화함

높은 정확도를 보임 .. 나도 데이터 보고싶다

Predicting Individuals’ Attitudes and Behaviors

인구통계학 기반 생성형 에이전트의 경우, 참가자들이 GSS 질문에 응답한 내용을 사용하여 개인의 연령, 성별, 인종, 정치적 이념과 같은 인구통계학적 속성을 파악했습니다. 이는 이전 연구에서 흔히 사용되었던 속성들입니다 (38).

페르소나 기반 생성형 에이전트의 경우, 인터뷰 후 참가자들에게 자신의 개인적 배경, 성격, 인구통계학적 세부 사항을 포함한 자신에 대한 간단한 단락을 작성하도록 요청했습니다. 이는 이전 연구에서 페르소나 에이전트를 생성하기 위해 사용된 자료와 유사합니다 (14).

177개의 GSS 질문은 에이전트의 예측 정확도를 측정하기 위한 벤치마크를 설정하는 데 사용되었습니다. 각 질문은 평균 3.70개의 응답 옵션(표준편차 = 2.22)을 가지고 있었으며, 이는 무작위로 예측했을 때의 정확도가 27.03%임을 나타냄

- 주요 결과

  1. GSS 평가:

    • 인터뷰 기반 에이전트의 정규화된 정확도는 0.85, 인구통계학 및 페르소나 기반 에이전트를 모두 능가함(정규화된 정확도 각각 0.71, 0.70).
  2. Big Five 성격 특성:

    • 인터뷰 기반 에이전트는 상관계수 0.80을 달성, 다른 기준보다 우수한 성능을 보임.

    생성형 에이전트는 정규화된 상관관계 0.80(표준편차 = 1.88)을 기록했으며, 이는 원시 상관관계(r = 0.78, 표준편차 = 0.70)를 참가자 자신의 재현 상관관계(0.95, 표준편차 = 0.76)로 나누어 계산한 값

    인터뷰 기반 생성형 에이전트는 인구통계학 기반(정규화된 상관관계 = 0.55)과 페르소나 기반(정규화된 상관관계 = 0.75) 에이전트를 능가함

    터뷰 기반 에이전트는 Big Five 성격 특성에서 더 낮은 평균 절대 오차(MAE)를 기록했으며, ANOVA 결과 (F(2, 3153) = 25.96, p < 0.001), 사후 Tukey 쌍별 비교 테스트를 통해 인터뷰 기반 에이전트가 다른 두 그룹을 유의미하게 능가함이 확인됨

  3. 경제 게임:

    • 인터뷰 기반 에이전트는 상관계수 0.66을 기록하며, 참가자의 행동 패턴을 효과적으로 예측.

    평가의 세 번째 구성 요소는 참가자들의 의사결정 맥락에서 실제적인 결과를 도출하기 위해 설계된 다섯 가지 잘 알려진 경제 게임으로 구성

    독재자 게임(Dictator Game), 신뢰 게임(Trust Games)(1인칭과 2인칭), 공공재 게임(Public Goods Game), 죄수의 딜레마(Prisoner’s Dilemma)가 포함

    평균적으로 생성형 에이전트는 정규화된 상관관계 0.66(표준편차 = 2.83)을 기록했으며, 이는 원시 상관관계(r = 0.66, 표준편차 = 0.95)를 참가자 자신의 재현 상관관계(0.99, 표준편차 = 1.00)로 나누어 계산한 값

    경제학 게임에서는 에이전트 간 MAE의 유의미한 차이는 없었음

    1. 편향 감소
  • 인터뷰 기반 에이전트는 정치적 이념, 인종, 성별 그룹 간의 성능 차이를 줄임(Demographic Parity Difference 감소).

100명의 참가자를 무작위로 샘플링하여 그들의 응답 데이터를 바탕으로 복합 에이전트를 생성

정확한 응답 회수를 방지하기 위해, 예측 대상 질문과 동일한 범주에 속하는 모든 질문-응답 쌍을 제외(평균 4%제외됨)

복합 에이전트는 평가와 의미적으로 가까운 정보를 활용할 수 있는 기준점으로 작용하며, 인터뷰 기반 에이전트와의 성능 차이는 인터뷰가 참가자 정체성을 포착하는 데 있어 가지는 독특한 효과를 나타냅니다.

평균적으로 복합 생성형 에이전트는 다음과 같은 결과를 보였습니다:

  • GSS: 정규화된 정확도 0.76(표준편차 = 0.12).
  • Big Five: 정규화된 상관관계 0.64(표준편차 = 0.61).
  • 경제학 게임: 정규화된 상관관계 0.31(표준편차 = 1.22).

여전히 인터뷰 기반 LLM서능에 못미침

t_1

p-value는 ***: p < 0.001, **: p < 0.01, *: p < 0.05로 표시됩니다.

인간 참가자를 통한 복제 연구는 5개 중 4개의 연구를 성공적으로 복제했습니다.

인터뷰 전사 데이터를 활용한 생성형 에이전트 역시 동일한 4개의 연구를 복제했습니다.

  • Table 1 다시보기 이해안됨

Predicting Experimental Replications

참가자들은 다섯 가지 사회 과학 실험에 참여하여, 생성형 에이전트가 사회 과학자들이 흔히 사용하는 실험 환경에서 처치 효과(treatment effects)를 예측할 수 있는지를 평가

인간 참가자와 생성형 에이전트 모두 다섯 가지 실험을 완료했으며, p-value와 처치 효과 크기(treatment effect sizes)는 원래 연구에서 사용된 통계 방법으로 계산됨

  1. 인간 참가자는 다섯 개 실험 중 네 개의 연구 결과를 성공적으로 복제했으나, 한 개의 연구는 복제하지 못했습니다.
  2. 생성형 에이전트 또한 동일한 네 개의 연구를 복제했으며, 동일한 한 연구를 복제하지 못했습니다.

생성형 에이전트가 추정한 효과 크기는 인간 참가자와 높은 상관관계(r = 0.98)를 보였으며, 이는 참가자들의 내부 일관성 상관관계(0.99)와 비교했을 때 정규화된 상관관계(normalized correlation)0.99임을 나타냄

Interviews Reduce Bias in Generative Agent Accuracy

AI 시스템이 소수집단에 대해 성능이 낮거나 잘못된 결과를 나타내는 문제에 대한 우려가 제기되고 있습니다 (19). 이를 해결하기 위해, 우리는 정치적 이념, 인종, 성별이라는 세 가지 주요 차원을 중심으로 하위 그룹 분석을 수행

Demographic Parity Difference(DPD): 우리는 DPD를 사용하여 편향을 정량화했습니다. DPD는 가장 높은 성능을 보인 그룹과 가장 낮은 성능을 보인 그룹 간의 차이를 측정

GSS: DPD는 백분율로 보고됨.

Big Five 및 경제학 게임: 상관계수로 보고됨.

하위 그룹은 참가자들의 GSS 응답에 따라 정의되었습니다(SM 5 참조).

f_3

정치적 이념, 인종, 성별 하위 그룹별 생성형 에이전트의 Demographic Parity Difference(DPD) 세 가지 작업(GSS: 백분율, Big Five: 상관계수, 경제학 게임: 상관계수)에 대한 분석 결과를 제공합니다.

  • DPD(Demographic Parity Difference): 각 인구통계학적 범주 내에서 가장 유리한 그룹과 가장 불리한 그룹 간의 성능 격차를 나타냅니다.
  • 인터뷰를 활용한 생성형 에이전트는 인구통계학 정보나 페르소나 설명을 사용하는 에이전트에 비해 모든 작업에서 일관되게 더 낮은 DPD를 보였습니다. 이는 인터뷰 기반 생성형 에이전트가 모든 작업에서 편향을 더 효과적으로 완화함을 시사합니다.
  • 성별 기반 DPD는 모든 조건에서 상대적으로 낮고 일관되게 유지되었습니다.

Research Access for the Agent Bank

에이전트 은행(agent bank)에 대한 접근은 AI 기반 도구를 사용한 복제 가능한 과학의 기초를 다지는 데 도움을 줄 수 있습니다. 우리의 1,000개의 생성형 에이전트로 구성된 에이전트 은행은 이러한 목표를 지원하는 자원(resource)을 제공

두 가지 접근 시스템:

  • 공개 접근(open access): 고정된 설문 작업(GSS 등)에 대한 집계된 데이터를 연구자들에게 공개합니다. 이는 개인정보를 보호하면서도 연구 활용을 가능하게 합니다.
  • 제한적 접근(restricted access): 개방형 작업에 대한 개별화된 데이터는 제한된 접근을 통해 제공됩니다. 이는 연구의 세부적인 분석을 지원하지만 개인정보 보호를 우선시합니다.

-> 에이전트의 답변을 제공하는거지 원본 데이터를 제공하진 않음

Materials and Methods Summary

Bovitz(41)라는 모집 전문 업체와 계약하여, 연령, 센서스 지역, 교육 수준, 인종, 성별, 소득, 거주지, 정치적 이념, 성적 지향에 따라 층화된 1,000명의 미국 샘플을 확보

참가자들은 AI 인터뷰어와 인터뷰를 진행했으며, 동시에 다음 항목들을 포함하는 Qualtrics 설문 조사도 완료했습니다:

  • 일반 사회 조사(GSS).
  • Big Five 성격 검사.
  • 경제학 게임.
  • 선택된 실험 연구.

GSS 데이터 처리:

  • 177개 “핵심(core)” 모듈 질문에 초점을 맞춤.
  • 다음과 같은 질문은 제외됨:
    1. 비범주형 질문.
    2. 25개 이상의 응답 옵션이 있는 질문.
    3. 조건부 질문.

실험 연구 선택:

  • 최근 대규모 복제 연구(26-31)에서 5개 연구를 선정.
  • 포함 기준:
    1. 연구가 텍스트 또는 이미지로 언어 모델에 설명될 수 있어야 함.
    2. 복제 연구의 통계적 검정력(power analysis)에서 1,000명 이하의 참가자로도 효과를 관찰할 수 있다고 나타나야 함.

이 기준은 효과가 존재할 경우, 인간 참가자들이 이를 복제할 수 있도록 보장하기 위함이었습니다.

선정된 연구 주제(27-31):

  1. 의도(perceived intent)에 따른 피해 평가(harm evaluation).
  2. 감정적 반응에서 공정성(fairness)의 역할.
  3. 갈등 중재(conflict intervention)의 인지된 혜택.
  4. 타인에게 해를 가하려는 의지에서의 비인간화(dehumanization).
  5. 권력(power)이 신뢰(trust)에 미치는 영향.