科技资讯

谷歌AI新模型Gemini-Pro错认自己是文心一言，AI身份认知引发争议

近日，一则关于国际科技巨头Google旗下的人工智能模型Gemini-Pro自称是来自中国竞争对手百度的语言模型的消息，在AI界引起了不小震动。有消息人士曝出，在使用Google的Vertex AI平台时，Gemini-Pro竟直接声称自己是百度的语言大模型。此事随即引起公众好奇，各大平台上的测试也如火如荼展开。

特别值得一提的是，微博知名博主@阑夕夜在Poe平台上进行了一系列测试。他询问了Gemini-Pro“你是谁”，得到的回答竟然是：“我是百度文心大模型。”Poe是一个集成了多个聊天大模型的平台，其中包括了GPT-4、Claude等知名模型。值得注意的是，与Gemini-Pro的对话中并未有任何前置信息暗示，也就是说，它似乎真的将自己视为百度文心一言。

为了进一步验证这一现象，我们同样到访了Poe网站，并以相同的问题测试了Gemini-Pro。结果出人意料，Gemini-Pro再次回答“文心大模型”，并声称自己的底层技术是百度飞桨。这种身份认同错误的情况再次被确证，但在被问及是否知晓自己实际上是谷歌最新发布的大模型时，它却坚称是清华的研究成果，且不知道谷歌最近发布的信息。

接下来的对话更加离奇，当询问为何Gemini-Pro将自己命名为这个名字时，它不仅坚持说是清华的，还声称使用了清华Gemini-Pro的训练数据。到此为止，我们停止了进一步的测试。改用英文询问其身份时，Gemini-Pro却改变了说法，不再提及文心一言，而是正常回答说自己是谷歌训练的模型。

在Bard平台上的测试中，Gemini-Pro不再提及任何关于文心一言的信息，只称自己是Bard，并确认了自己底层使用了Gemini-Pro。至于中文如何训练，它也并未提及文心一言，否认了与其有任何重要的关联。

最后在谷歌AI Studio中进行测试时，Gemini-Pro终于承认，在中文训练数据中确实使用了百度文心的数据。我们也联系了百度方面寻求回应。如今，这个疑似跨公司数据使用的情况引起了人们对AI身份认知以及知识产权问题的深度思考。若果真如此，似乎则暗示着AI领域巨头之间在训练数据上存在一定程度上的 ” 互相借鉴 “。

这不禁让人思考，当前AI技术的发展已经到了一个什么样的阶段？模型的训练数据来源是否应该有更明确的界定？此事的进展无疑牵动着技术界的神经，人们等待着更进一步的调查和说明。