近期,腾讯科技和《人类简史》作者尤瓦尔.赫拉利展开了一场深度对话:
对谈尤瓦尔·赫拉利:人类对秩序的渴求先于真相,是互联网和AI控制个人的首要原因
在对话中,赫拉利着重探讨了人工智能对个体决策的潜在影响,表达了对技术被少数人掌控的忧虑。
然而,最新研究显示,AI的威胁已远超赫拉利的预判。2024年4月发表在arXiv预印本平台的“SocioVerse”研究论文揭示了一个更为严峻的现实:AI技术已突破个体影响的边界,迈入群体操控的新阶段。
这项由复旦大学主导、联合上海创新研究院、罗切斯特大学、印第安纳大学以及中国社交媒体平台小红书共同完成的研究,通过构建一个基于1000万真实用户数据的社会模拟系统,展示了AI不仅能够理解和影响单个个体,它还可以操控成千上万的人,甚至预测并潜在地塑造整个社会的集体行为。
这种从微观个体到宏观社会的技术跃迁,让赫拉利的担忧显得几乎过于保守——我们面临的风险远比他当时预见的要严重得多。
如果说赫拉利担忧的是AI成为精通心理学的个人操纵者,那么“SocioVerse”则表明,AI正在演变为洞悉社会规律的超级架构师——一个能解码社会结构、预判群体动态,并可能改写社会运行逻辑的数字巨灵。
这一技术跃迁将AI风险从微观个体层面提升至宏观社会维度,其潜在冲击的深度与广度,远超我们此前的想象,其潜在后果之深远令人战栗。
SocioVerse:数字孪生社会背后的神秘面纱
SocioVerse意图构建一个前所未有的系统:一个能够模拟和预测真实人类社会行为的完整数字世界。
回溯至二十世纪中叶,社会学理论奠基人亨普尔和欧本海默就曾预言:真正的因果解释必须建立在社会现象的可预测性基础上。此后的多年间,尽管计算社会学不断发展,但传统社会模拟技术始终面临根本性局限——它们要么过度简化社会复杂性,要么与现实世界严重脱节,无法捕捉瞬息万变的社会动态、多元群体的行为差异,以及微妙的人际互动机制。
SocioVerse的诞生彻底改写了这一局面。这个系统不再是对社会的粗糙模仿,而是一个具备高度保真度的数字镜像。
通过整合最前沿的人工智能技术,它实现了对社会系统的全要素建模,包括:
●动态演化的社会环境
●具有独特行为模式的个体
●复杂的社会互动网络
●微妙的信息传播机制
这一突破使得SocioVerse超越了传统社会模拟的范畴,成为首个能够与现实社会保持同步演进的数字孪生体。其建模精度和系统完备性,标志着计算社会学研究达到了前所未有的高度。
用1000万个虚拟人,构筑一个流变真实的世界
之所以SocioVerse算是能模拟这个社会的项目,是因为它确实建构了一个能“以人类社会的方式运行”的社会模型——一个具备时间性、个体性、情境性、互动性与变迁性的系统。这使它不仅能模拟社会行为,还能模拟社会变迁。
在大多数社会学入门课程中,教师总会画一张简单的图:一些点(个体)和连接这些点的线(关系)。但这张图从来没有告诉我们,一个人为什么转发了某条微博、为什么开始焦虑地关注房价,或者,为什么在看到“AI裁员”的新闻时,忽然改变了对技术的态度。
这是人的行为不是在真空中产生的,它总是在事件的时间线上、身份的社会结构中、语境的交互场中发酵。社会,不是一堆人,而是一种信息的共振结构。
这正是SocioVerse的起点:如果我们要模拟社会,就不能只模拟人,还要模拟信息,及其如何穿透人群,塑造情绪,汇聚成共识或撕裂。
于是,他们设计了四个协作的引擎:社会环境引擎、用户引擎、场景引擎、行为引擎。这四者的协作,恰好对应了社会结构中最核心的四个逻辑维度:时间性(事件如何演化)、个体性(谁在被影响)、情境性(在哪种互动中)和互动性(如何相互作用)。
第一步,个体维度:从标签到人格的进化
SocioVerse的用户引擎可能是它最具人类学雄心的部分。他们从Twitter(X)与小红书上采集了超过1000万个真实用户数据,超过7100万条社交发言。然后,用三个最强LLM(GPT-4o、Claude
3.5、Gemini 1.5)给每一个人打标签。
这些标签不光包括我们熟知的人口学标签,比如年龄、性别、种族、地区;在这一层,基本就是传统推荐引擎的极限了。
而LLM的语义理解使得这一系统还可以对用户的政治倾向、消费偏好、价值观打标签。除此之外,他们甚至能对你的人格本身做标记,在实验中,他们应用了Big
Five人格模型(开放性、责任心、外向性、宜人性、神经质)对智能体做了分类,甚至连他们做表达的语义风格也可以分类模拟,比如它是偏情绪表达,还是喜欢逻辑分析。这使得这一系统中的模拟人Agent具有了过往系统所完全没有的细腻度和真实性。
完成这一系列打标后,系统会将标签交由人工评审,再训练成分类器,让整个用户库真正变成一个活的社会人群图谱。这些图谱包含:
●基础属性:年龄、地域、职业等人口学特征
●心理特征:大五人格特质(开放性、尽责性等)
●行为特征:表达风格(如“理性分析型”或“情绪宣泄型”)
●价值取向:政治立场、消费观念等深层倾向
这使得研究者能精准调用特定人群画像,如“技术乐观的95后程序员”或“对AI持怀疑态度的中年主妇”。
第二步,时空维度:动态演进的社会剧场
如果说社会是一个系统,那它首先是一个时间系统。人们的行为不是在“状态”中生成,而是在“进程”中变化。
为了实现社会的时间性变化,在建立完个人后,SocioVerse还建立了一套“社会环境引擎”。
它通过实时抓取新闻事件、政策变动、经济指标等数据,构建持续演化的社会背景。以美国大选模拟为例,系统不仅输入候选人政见,还整合了各州失业率等经济数据、社交媒体话题热度、突发公共事件影响,形成了一部24小时更新的“社会纪录片”。
第三步,场景维度:情境敏感的行为模拟
首先是场景引擎。我们对一个问题的回应,并不是脱离上下文的“意见表达”,而是被放置在某种语境中——餐桌上的谈话和问卷调查、微博发帖和面对面的访谈,是完全不同的体验。
SocioVerse就通过场景引擎,去模拟不同行为发生的“结构性环境”。
比如当它模拟“选举投票行为”时,就会选择匿名系统反馈。当它模拟“社交平台发言”时,要加入“会被谁看到”“评论如何反馈”的社交反馈机制。而当它模拟“用户接受经济调查”时,需要把问题置于是否信任问卷、是否担心隐私等背景因素中。
在“国家经济调查”这一模拟中,系统重建了一个与统计局高度一致的问卷环境——涵盖食品、住房、医疗、交通、教育等八大项,并设置了不同的发放方式和媒介渠道。
结果显示,当问卷从“政府官网”发出时,虚拟智能体普遍持“慎重”、“合规”态度。而他们在答题时也更倾向中性回答、谨慎表达负面意见。
而同样的话题从“小红书推荐博主”发出时,虚拟智能体则更容易将其当作“社交参与”或“生活方式表达”。也更容易在回答中真实反馈支出痛点、表达焦虑或消费偏见(例如“最近医疗真的太贵了”“房租太高撑不住了”)。
这意味着,它确实模拟了信息裹挟的情境。而非仅仅用AI模拟了聊天。
第四步,互动维度:信息传播的连锁反应
情景造好后,下面就是通路模拟。信息进入通路,然后把“个体”变成“彼此相关的个体”。SocioVerse称这个为行为引擎。
这一引擎采用了双轨系统。对于规则清晰的群体性行为,比如投票、选择、点赞等,SocioVerse采用了成熟的传统Agent-Based
Modeling(ABM)建模;而对于语言表达、态度生成、情绪反应等复杂互动,则调用大语言模型生成,给予每个Agent其“人格+历史+信息输入+场景位置”,生成其行为。
以特朗普发表演讲为例,系统不仅能生成智能体对事件的初始态度,更能模拟其在社交平台的发帖行为、信息传播路径及引发的连锁反应。从意见领袖的率先发声,到普通用户的跟风讨论,再到观点对立引发的舆论极化,每个环节都在算法驱动下层层递进,完整复现现实世界中热点事件从萌芽到爆发的全生命周期。
值得注意的是,行为引擎的核心并非简单复刻行为本身,而是构建一个闭环的信息生态系统。在这里,每个智能体的言论都可能经历“传播-误读-再创作-扩散”的循环,如同现实社会中的谣言发酵或热点炒作,让虚拟世界产生与真实社会同步共振的舆论涟漪。
虽然这个引擎名为行为引擎,但SocioVerse模拟的不只是行为本身,更是行为被看见、被误读、被引用以及引发反应的信息循环机制。
当社会环境引擎注入实时事件、用户引擎定义角色特征、场景引擎设定交互规则、行为引擎激活动态反馈,四大模块共同驱动着SocioVerse的数字社会模型。
这个系统不仅能感知时间的流动、识别个体的差异、还原场景的真实,更能捕捉人与人之间微妙的影响链条,最终构建出一个充满生命力的数字孪生社会。
惊人的预测能力:三个真实世界模拟的震撼结果
单看整套系统的设计,SocioVerse基本上做到了对人作为社会分子,其所受的核心影响因素做了深入毛孔的拆解。
也正是因此,SocioVerse展示了相当准确的预测真实世界行为的能力。
他们一共进行了三组实验,都相当准确。
第一组是美国总统选举预测。研究团队构建了一个包含33万多个虚拟选民的模型。其中每个虚拟选民都具有12个关键人口统计特征。他们使用迭代比例拟合技术确保这些虚拟选民的分布与美国各州的真实人口分布一致。随后,他们设计了一份包含49个问题的详尽调查问卷,涵盖从社会安全到LGBTQ+权利的各种政治议题。
结果在使用Qwen2.5-72b模型时,系统在所有州的预测准确率达到了92.2%,而在关键摇摆州的准确率也高达80%。根据现实中美国“赢者通吃”的选举人票分配规则,这意味着AI几乎可以完美预测整个美国总统选举的结果。
第二组则是突发新闻反馈分析——在这个场景中,研究者以ChatGPT的发布作为目标事件,尝试预测公众对这一技术突破的反应。他们首先界定了潜在受众群体(对技术感兴趣的小红书用户),然后从用户池中采样了2万个智能体,基于ABC态度模型(情感、行为、认知)设计了一份18个问题的问卷,覆盖公众认知、感知风险、感知收益、信任、公平和公众接受度六个维度。
结果AI智能体的反应与实际用户的反应高度一致,甚至在细微的观点分布上都表现出惊人的相似性。GPT-4o模型模拟的结果在KL散度指标上的得分仅为0.196,意味着预测分布与真实分布几乎重合。
第三个实验是中国国家经济调查——这一模拟展示了系统在经济行为预测方面的能力。研究团队根据中国国家统计局的方法论,从用户池中采样了1.6万个智能体,涵盖全国31个地区。他们精心设计了一份经济问卷,询问关于食品、服装、住房、日用品、交通通讯、教育娱乐、医疗保健和其他七大类消费的具体支出情况。
当模拟结果与官方统计数据比较时,所有测试的AI模型都展现出令人难以置信的准确性,尤其是在发达地区的表现更为突出。Llama3-70b模型在所有消费类别上的均方根误差低至0.026,意味着它能几乎完美地复制中国居民的消费模式。
这三个实验说明,SocioVerse确实已经成了一个能够准确模拟和预测大规模社会现象的强大系统。从新闻反应到政策影响,几乎没有任何社会现象能超出其模拟范围。
并非虚拟小镇,而是虚拟现实
很多人会说这个逻辑和之前的斯坦福小镇没啥区别啊,只是智能体数量扩大了,行为更多集中在信息交互上了。
确实,在SocioVerse之前,这类AI智能体社会模拟项目其实已经有过不少了。2023年末的“斯坦福小镇”虚拟社区,这一试验中让25个AI智能体在这个封闭环境中生活和互动。
而上一个出圈的实验是Project Sid
,他们把斯坦福小镇拓展到1000人的水平,并且把场景换成了minecraft,那里的智能体居民也逐步形成了社区和选举。
但SocioVerse从本质上和这类实验完全不同。
斯坦福小镇与真实世界之间存在一道清晰的界限:它是一个完全封闭的虚构环境,所有角色都是人为创建的,没有任何真实人类数据的直接输入。它更像是一个精心设计的互动小说,而非真实社会的镜像。
SocioVerse则完全不同。它直接建立在1000万真实人类的行为数据之上,每一个智能体都不是凭空想象的角色,而是基于真实用户的详细档案。
虽然研究者声称他们采取了保护用户隐私的措施,如只提取公开帖子内容并过滤异常数据,但这些措施并不能改变一个基本事实:SocioVerse正在从大规模真实人类行为中提取模式,并用这些模式来预测更广泛群体的反应。它不是在一个想象的世界中进行试验,而是在创建一个与我们共同生活的社会世界的“数字孪生”。
这种直接与真实世界对接的特性,使SocioVerse成为一种全新类型的社会工具——一个不仅能够观察和分析社会,还能够预测甚至可能影响社会的系统。这不再是学术上的思想实验,而是一种可能对现实世界产生深远影响的技术。
小红书,不应该在这里出现
过去,当平台拥有了比较粗糙用户数据时,他们用这些数据塑造了推荐算法,进而制造了达成平台利益最大化的信息茧房。而现在,当它拥有一个能够如此准确地预测人类行为的系统时,会有什么能阻止他们将其从预测转向去影响群体的决策?
与传统的社会工程或宣传不同,这种新型影响更加精细、更加个性化、也更加难以察觉。它不是通过明显的不实信息操作公众,而是通过微妙地调整真实信息的呈现方式,放大某些方面同时淡化其他方面,以产生预期的心理和行为反应。
这就是无声的控制,一根完美的牧羊杖。
拥有着AI助力的平台的能力远远超越了传统的个性化推荐,进入了对集体行为和社会偏好的积极塑造领域。如果说信息茧房只是针对个人的最大注意力抽取技术,那SocioVerse就将是对全社会的指挥棒。平台可以随意的指点,而我们则只能在不知觉的情况下随之起舞。
而这项研究,恰好就是不仅由学术机构主导,而且有小红书的参与。正是依靠着这家拥有上亿用户的社交媒体巨头,这些真实数据才有可能被获取。
而有了这套系统。我们在平台上的意见,和呼喊不再会是需求本身。而只不过是系统捕捉到的,可利用以达成它个体目的的信息而已。
这无可反击的意志,世界上最强大的政客和民意操作者,正在实验室中诞生。
这可能是AI时代,我们所面对的最坏的可能。