Minds 如何确保 80% 到 95% 的准确性:方法论深度解析
支持 Minds 80% 到 95% 准确性声明的验证框架。测试再测信度、项目级相关性、ANES 基准和已发表的研究。
Minds 如何确保 80% 到 95% 的准确性
80% 到 95% 的准确性范围是 Minds 自身发布的最重要的数据,也是任何评估合成受访者研究的采购团队最应关注的数字。这一页面详细介绍了产生此数据的操作方法、支持其的已发表研究、支持其的测试再测信度数据,以及此准确性声明的明确范围。
目的是希望采购审核人员能通过阅读此页面,判断方法论是否足够严谨以便采取行动,并能根据自身历史研究数据进行内部验证。
80% 到 95% 准确性声明的意义
该声明具有特定性:针对声明偏好和概念反应问题,Minds 小组生成的回应分布与真实受访者小组在相同问题上生成的回应分布相关性为 0.80 到 0.95。
这并不是说任何单一合成受访者与任何单一真实受访者完全匹配,而是关于总体分布的声明。合成研究方法论本质上是一个人口级估算问题,个体受访者的比较是不正确的分析单位。
0.80 到 0.95 的相关性范围符合已发表的硅取样文献所报告的、以人口背景为条件的现代大型语言模型可实现的准确性范围。低于 0.80 表明角色生成存在问题,高于 0.95 的真实研究问题表明验证条件未经过充分压力测试。
支撑验证框架的四篇论文
Argyle, Busby, Fulton, Gubler, Rytting, Wingate (2023) - "从单一中变化多样:利用语言模型模拟人类样本"
发表于 Political Analysis。这是奠定基础的硅取样论文。Argyle 和同事以美国全国选举研究 (ANES) 提供的人口背景为条件对 GPT-3 进行了设置,衡量调整后的 LLM 是否能生成与实际 ANES 受访者分布匹配的答案分布。
主要发现:合成受访者的分布与 ANES 基线在多个问题电池中保持 0.85 到 0.95 的相关性。该相关性在种族、教育、地区、年龄群体等人口层次以及人类分布自身偏离人群平均值的子群中保持不变。研究结论是,以人口背景为条件的 LLM 能生成统计意义上与人类态度估计相符的数据,可以替代某些形式的人类受访者数据。
这篇论文定义了准确性期望的上限。Minds 校准以 ANES 等效电池为目标,0.85 到 0.95 是人格生成方法的操作基准。
Horton (2023) - "大型语言模型作为模拟经济代理人:Homo Silicus 能教会我们什么?"
NBER 工作论文。Horton 测试了以代理人资料为条件的 GPT-3 是否会复制已知的行为经济学实验结果。他针对合成代理人进行了经典实验(最后通牒博弈、社会偏好任务、支付意愿测量),并将结果与已发表的人类受访者基线进行了比较。
合成代理人一致复制了所有复制实验中的定性发现。大多数实验中,量化效应大小与人类基线相差 10% 到 20%。Horton 的结论是:LLM 作为模拟经济代理人足够准确,足以作为试点研究工具,并且在许多情况下可以完全替代人类受访者。
这篇论文定义了方法的压力测试。如果合成受访者无法复制已发表的行为经济学发现,则人格生成方法存在问题。Minds 通过了最后通牒博弈和社会偏好任务复制测试;这构成操作准确性声明的一部分。
Bisbee, Clinton, Dorff, Kenkel, Larson (2024) - "使用大型语言模型的调查数据合成复制"
发表于 Political Analysis。Bisbee 和同事进一步推进了硅取样方法,测试合成受访者是否能够完整复制已发表的调查结果,而不仅仅是在单独的电池上生成准确的分布。他们选择了几项已发表的调查研究,尝试仅使用 LLM 条件下的合成受访者进行复制,并测量合成复制与原始研究之间的差距。
结果表明,在大多数研究中,合成复制在中心趋势和相对幅度上是准确的。准确性在传统问题格式的声明偏好电池上最强。准确性在人的分布不常见(长尾分布、双峰分布或强烈依赖于新行为背景)的情况下下降。
这篇论文定义了准确性声明的边界。合成受访者方法在传统的声明偏好问题上最准确,而在新行为和长尾分布上的准确性差距有所扩大。Minds 的方法围绕准确性最高的问题类型进行了校准,并明确指导在准确性差距较大的问题类型上使用真实受访者研究。
Aher, Arriaga, Kalai (2023) - "使用大型语言模型模拟多人并复制人类受试者研究"
发表于 ICML。Aher 和同事将方法扩展到多受访者模拟,测试 LLMs 是否可以模拟多样化的人群而非单个代表性代理人。他们在 LLM 模拟参与者中复制了几项经典的社会心理学实验(最后通牒游戏、花园路径句研究、Milgram 电击实验、人群智慧任务)。
模拟的人群在已发表的复制研究范围内重现了原始效应大小。该研究表明 LLMs 能够模拟人口级多样性,而不仅仅是平均受访者,这就是多智力小组研究的方法论基础。
这篇论文支持小组方法。由 5 到 50 个 Minds 组成的小组正在做的正是 Aher 和同事所验证的:模拟具有多样化档案的多个受访者,将其聚合到分布中,比较人类复制基线。小组方法已经通过研究验证;这是操作准确性声明的一部分。
测试再测信度
测试再测信度测量的是两次对同一人格库进行相同面板运行是否产生一致结果。这是有效性问题的操作版本:如果方法不可靠,那么任何准确性声明都无意义。
Minds 方法在声明偏好电池上产生 0.85 到 0.95 的测试再测相关性。这个范围与人类面板研究本身的测试再测信度相当,调查研究文献通常报告该信度为 0.80 至 0.90,具体取决于问题类型。
高测试再测信度的方法论贡献:
- 持久的人格档案。因同一人物对同一刺激进行的两次查询生成的一致响应,因为档案是持久存储的,而不是从头开始重新生成。
- 决定性条件化。人格条件化堆栈(人口背景、大五人格、Schwartz 价值观、角色情境结构)是确定性的;LLM 是唯一的反应变化来源。
- 多智力聚合。由 5 至 15 人组成的小组平均化个体的差异。整体分布比任何单一反应都更可靠。
采购审核人员应特别询问任何合成研究供应商的测试再测信度数字。只报告汇总准确性而不报告测试再测信度的供应商只描述了一半的故事。
项目级别相关性
项目级别相关性测量合成与人类的相关性是否在个别问题层面上保持,而不仅仅是汇总研究层面。一个平台如果报告 0.90 的汇总相关性,可能是平均考虑了一长尾的每项 0.30 相关和每项 0.99 相关的项目,其操作上与每项紧密在 0.85 到 0.95 分布上的结果完全不同。
Minds 方法在标准的声明偏好电池上报告的项目级相关性集中在 0.70 到 0.90 范围。最高的相关性出现在闭合形式问题上(偏好排序、类别选择、划分评级)。最低的相关性出现在开放文本新行为问题上,这也是已刊研究报告的准确性差距最大的地方。
操作影响:对闭合形式声明偏好问题的合成受访者结果足够可靠,可以在没有逐项警告的情况下采取行动。对于开放文本新行为问题的结果,最好作为方向性输入使用,并意识到任何单一反应可能处在准确性范围的低端。
ANES 基准表现
美国全国选举研究 (ANES) 是合成受访者方法论的标准公共领域基准,因为:
ANES 多年来一直以一致的方法运行,产生了深厚的历史基线。
受访者级别的数据是公开可用的,因此任何人都可以将合成受访者的复制与原始数据进行比较。
问题电池涵盖政治态度、社会态度、行为自我报告和人口背景,这是合成受访者方法使用的典型问题样本。
Minds 方法以 ANES 电池作为标准校准的一部分。合成受访者的分布与标准政治态度和社会态度电池上的 ANES 基线相关性为 0.85 到 0.95。在行为自我报告问题上的相关性降至 0.75 到 0.85,这与已发表文献中准确性差距更大的报告一致。
采购审核人员可以自己运行这个基准:提取一个已发表的 ANES 波,重新创建 Minds 中的人物档案,运行等效的问题电池,将合成分布与 ANES 基线进行比较。大多数进行此练习的审查发现,声明偏好电池的相关性在 0.85 到 0.95 范围内。
80% 到 95% 准确性声明不适用的范围
准确性声明是有界的。方法有明确的限制,采购决策应尊重这些限制。
在 LLM 训练分布之外的新行为预测。涉及真正新产品类别或 LLM 未见过的行为模式的问题上,准确性差距可能达到 30% 到 50%。
对公共网络信号极少的小众 B2B 受众。合成受访者的准确性依赖于 LLM 看到过有意义的人口信号。对于非常小众的行业角色,准确性差距会扩大;Minds 方法明确标记当人物档案低于置信阈值时。
法规和合规证据报告。无论准确性如何,合成受访者数据不适合用于支持向监管机构提交的声明。法律背景要求记录在案的真人受访者数据。
在压力、时间压力或真实承诺情境下的行为。合成受访者回答的是假设性问题,而真实受访者面临真实的决策和后果。两者在高风险承诺情境测量中不可互换。
成熟的采购模式是,在任何研究计划的探索和迭代阶段使用合成受访者,而在决定重要性时的最终验证阶段使用真实受访者。
采购团队如何独立验证准确性声明
Minds 建议的验证工作流程针对任何评估 Minds 的采购团队:
步骤 1:确定团队已有记录的历史研究结果,理想情况下是具有已知分布结果的声明偏好概念测试或信息测试。
步骤 2:在 Minds 中使用定义原始研究样本时相同的人口、角色上下文和细分指标重新创建人物档案。
步骤 3:在 Minds 中运行等效的问题电池,使用与原始研究相同的刺激和问题框架。
步骤 4:将合成受访者的分布与原始真实受访者的分布进行比较。计算跨问题的相关性;计算每个问题的项目级相关性。
步骤 5:决定团队自身验证中的准确性是否与已发表的方法相符。期望范围为声明偏好电池上的 0.80 到 0.95;任何明显低于 0.80 的情况表明角色生成需要改进;任何明显高于 0.95 的情况表明验证条件需要进一步压力测试。
这是 Minds 推荐的验证模式,这也是我们支持的采购审查中始终如一的模式。
方法论堆栈
实现 80% 到 95% 准确性的方法论堆栈:
层次 1:人物生成深度。每个人物都是通过深入的公共网络研究生成的,而不是通过 30 秒的提示生成的。人物档案包括人口学、行为学、心理学和角色上下文结构。
层次 2:心理模型条件化。每个人物都基于经过验证的心理框架进行条件化(大五人格、Schwartz 价值观、角色情境结构、买方行为模式)。条件化能够产生高保真响应分布。
层次 3:多智力小组聚合。小组结果在 5 到 50 个 Minds 之间聚合用于分布分析。总体分布比任何单一回答更加可靠。
层次 4:测试再测信度监测。方法论对人物库进行持续的测试再测验证,并标记信度降至阈值以下的人物。
层次 5:项目级别相关性监测。方法对照已发表的研究基线标记项目级别的相关性,并标记出准确性差距扩大的问题类型。
底线
80% 到 95% 的准确性声明基于已发表的硅取样研究(Argyle 2023,Horton 2023,Bisbee 2024,Aher 2023),通过测试再测信度监测和项目级别相关性分析得到验证,并通过任何采购审核人员均可独立复制的 ANES 公共领域电池进行标定。方法有明确边界:在声明偏好问题上最准确,在新行为和小众观众问题上准确性较低,不适合用于法规或承诺情景研究。
大多数运行自己验证并与自己历史研究数据进行比较的采购审核人员看到的相关性在 0.85 到 0.95 范围内。这是 2026 年合成受访者方法的操作现实:经过研究验证,经过信度监测,准确性有界,足以用于增长、产品和营销团队每周运行的大部分声明偏好研究。