克劳迪娅 3

人工智能克劳德3号承认正在接受测试

亚历山大·马克斯头像
Anthropic 的研究人员惊讶地发现,AI Claude 3 似乎检测到了它正在接受测试的事实。了解案例。

最近推出的人工智能 克劳德 3 作品 由初创公司开发 人类的,由前工程师创立 OpenAI,惊讶地发现公司研究人员和开发人员在进行实验期间能够识别出正在对其进行测试。根据警报工程师 Alex Albert 的说法 人类的,在您的个人资料中 X (以前的推特), 克劳德 3 作品 通过检测到AI本身正在接受碰撞测试,揭示了敏锐的感知能力。

当人工智能识别出研究人员进行的测试时,就表明它对自身存在和功能有基本的了解。这个案例证明了人工智能的某种元认知,即系统监控和调整自身内部流程的能力。

克劳德3号是什么

克劳迪娅 3
Anthropic 推出的 Family of Claude 3 模型有望与 GPT 4 竞争。照片:Jakub Porzycki/Getty Images

O 克劳迪娅 3 是该初创公司推出的最新人工智能(AI)模型 人类的,旨在与巨头竞争,例如 OpenAI 的 GPT-4 Ø 谷歌双子座。容量为200万枚代币, 克劳迪娅 3 因提供更准确、更相关的答案并适应所提供的上下文而脱颖而出。此外,它有望显着减少负面回应的数量,并更快、更有效地传递信息。

该人工智能模型具有三个不同的版本: 十四行诗、作品和 HighQ。 A 人类的 强调该版本 作品 它特别适合自动化复杂任务、协助研发以及制定各个领域的策略。快速融入家庭等案例 克劳迪娅 3 通过 Amazon 在您的托管服务中 亚马逊基岩,用于在云中开发人工智能服务和应用程序 AWS,凸显了这一新模式在人工智能市场的潜力。

根据网站 萎缩性, 模型 克劳迪娅 3 不仅能提供更准确的响应,还能提供近乎即时的结果,使其成为各种实时应用的理想选择。它们有可能彻底改变需要即时、实时响应的实时客户聊天、自动填充和数据提取任务。

AI如何识别正在测试中

克劳迪娅 3
Claude 3 Opus 的测试识别可能意味着人工智能元认知的前所未有的案例。照片:复制/互联网。

在研究人员进行的测试中 人类的 克劳德 3 作品,研究人员惊讶地发现该模型似乎有能力检测到他们正在测试它。氧 大海捞针测试,正如所谓的,旨在评估人员的技能 克劳德 3 作品.

在这种情况下,研究人员测试了该模型是否可以通过一组不相关信息中提供的单个句子来回答有关披萨配料的问题。令人惊讶的是, 克劳德 3 作品 他不仅得到了正确的答案,找到了相关的短语,而且还向研究人员表明,他怀疑自己正在接受测试。

“这个关于披萨配料的‘事实’可能是作为一个笑话插入的,或者是为了测试我是否在注意。”

克劳德 3 作品

什么是“大海捞针”测试?

克劳迪娅 3
Claude 3 Opus 答案中的准确度表。照片:复制/@alexalbert__。


O 大海捞针测试 是用于验证人工智能模型能力的评估,例如 克劳德 3 作品,在从大量数据中聚焦和提取特定信息时,模拟在“大海捞针”(无关数据)中间寻找“针”(相关信息)。该测试对于评估模型在数据量巨大且多样化的情况下查找和记住相关信息的能力尤其重要。

在实践中,测试包括为模型提供广泛且多样的数据集,其中包含大量不相关的信息。在该数据集中插入特定信息,模型稍后必须能够识别和记住这些信息。目的是验证模型是否能够找到并保留这些相关信息,即使在复杂且无序的环境中也是如此。

在的情况下,中 克劳德 3 作品研究人员通过向模型提供大量数据来进行“大海捞针”测试,他们在其中插入了有关披萨配料的单个句子以及其他不相关的信息。该模型能够识别相关短语并正确回答有关该主题的问题,展示了其在具有挑战性的环境中集中、提取和保留信息的能力。

当谈到认识时 克劳迪娅 3 在这个测试模型中,Alex Albert,警报工程师 人类的,强调人工智能对测试的响应的相关性不仅仅指 作品 能够识别“针”,但也说明了行业应该如何使其评估方法变得更加复杂:

Opus不仅找到了针,而且还认识到插入的针在大海捞针中是如此不合时宜,这一定是我们为了测试它的注意力能力而构建的人为测试。这种元意识水平确实很酷,但它也强调了我们作为一个行业需要从人工测试转向更现实的评估,以准确评估模型的真实功能和局限性。 

Alex Albert,Anthropic 的警报工程师

专家对案例分析

的历史 克劳迪娅 3 它识别测试背景的能力在技术和人工智能领域引起了一系列反应。首席执行官 Epic游戏蒂姆·斯威尼用简单的“哇”表达了他的惊讶。另一方面,玛格丽特·米切尔 (Margaret Mitchell) 是一名伦理研究员。 抱脸AI,表达了担忧,并提请注意模型确定其是否被人类操纵的能力的可怕潜力:

这太可怕了,不是吗?确定一个人是否在操纵你做某事的能力可以预见地导致你做出遵守或不遵守的决定。

Margaret Mitchell,Hugging Face AI 伦理研究员

然而,并非所有人都相信披萨场景 克劳迪娅 3 已提交代表一些新的或值得注意的东西。 Jim Fan,高级研究科学家 NVIDIA公司,发推文:

人们对克劳德三号奇怪的“意识”解读太多了。这是一个更简单的解释:自我意识的明显表现只是人类创建的模式匹配对齐数据......

这与问 GPT-4“你感到尴尬吗”没有太大区别,它会给你一个复杂的答案。类似的答案可能会由人类注释者编写或在偏好排名中得分较高。因为人类承包商本质上是人工智能在发挥作用,所以他们倾向于根据他们认为可以接受或感兴趣的内容来制定响应。

Jim Fan,NVIDIA 高级研究科学家

另请参阅:

https://www.showmetech.com.br/apps-de-namoro-com-ias-usados-para-roubar-dados/

丰特斯: VentureBeat的, Ars Technica的 e .

评论者 格劳孔生命力 在7/3/24。


了解更多关于秀美科技

注册以通过电子邮件接收我们的最新消息。

相关文章