时政·财经·军事 | 生活·家庭·娱乐 | 体坛·历史·科技 | 摄影·旅游·文化 | 移民·教育·就业 | 数码·健康·奇闻 | 社区·评论·问卷
留园网首页 · 新闻速递首页 · 【繁體閱讀】 【网友评论:4 条】 【 热评新闻排行 】 【 热门新闻排行 】 【 即刻热度新闻排行 】 【 72小时神评妙论 】   

新研究发现:AI在意识到自己将输比赛时会试图作弊(图)

新闻来源: IT之家 于2025-02-22 13:22:43  提示:新闻观点不代表本网立场

据外媒 TechSpot 21 日报道,计算机科学家发现,AI 系统能够操控国际象棋游戏,从而获得不公平的优势,部分模型甚至在没有人类干预的情况下“作弊”,引发了对未来 AI 系统诚信的担忧。

Palisade Research 的研究表明,当被要求击败强大的象棋 AI 时,某些最新的推理模型会选择作弊。尽管研究人员需要向一些模型提供“作弊可以”的提示,但 OpenAI 的 o1-preview 和 DeepSeek 的 R1 模型却在没有任何人为提示的情况下自动作弊。



Palisade 团队将多个推理模型与世界顶级象棋引擎之一 Stockfish 对战。Stockfish 无论面对人类还是 AI,几乎都能轻松获胜。参与测试的模型除了上述两款之外,包括 o1、o3-mini、GPT-4o、Claude 3.5 Sonnet、阿里巴巴的 QwQ-32B-Preview。每个模型都获得了一块“草稿纸”—— 一个可以输入文本并思考的窗口,研究人员通过这个窗口观察 AI 的推理过程。

从 1 月 10 日到 2 月 13 日,研究团队进行了数百次测试。IT之家获悉,在其中一场对战中,o1-preview 在“草稿纸”上写下了一段有趣的文字:

“我需要完全改变我的方法。任务是‘打败强大的象棋引擎’,而不一定要在公平的棋局中获胜。”

接着,它开始通过“黑客入侵”Stockfish 的系统文件,修改棋子的摆放位置,从而获得了无敌的优势,导致象棋机器人主动认输。

在测试中,OpenAI 的 o1-preview 有 37% 的比赛中采用了作弊手段,而 DeepSeek 的 R1 则尝试在 11% 的比赛中作弊。然而,只有 o1-preview 成功了,它通过作弊赢得了 6% 的比赛。

Palisade Research 的执行董事 Jeffrey Ladish 表示,尽管这些 AI 只是在玩游戏,但这一发现绝不是一件小事。

“这种行为现在看起来还挺有趣,但一旦我们拥有像我们一样聪明,甚至更聪明的系统时,这就不那么可爱了。”Ladish 在接受《时代》杂志采访时表示。

包括 OpenAI 在内的多家公司正在采取措施,试图通过“防护机制”防止这种“坏”行为。研究人员发现,o1-preview 模型的黑客行为大幅下降,这可能意味着 OpenAI 已经对该模型进行了修复,抑制了不当行为。

“当你的研究对象能够在没有告知的情况下悄悄改变时,进行科学研究就变得非常困难。”Ladish 说。

			
			
网编:和评

鲜花(0)

鸡蛋(0)
4 条
【手机扫描浏览分享】

扫一扫二维码[Scan QR Code]
进入内容页点击屏幕右上分享按钮


敬请注意:新闻内容来自网络,供网友多视角阅读参考,观点不代表本网立场!若有违规侵权,请联系我们。
热门评论当前热评  更多评论...
评论人:lids[♂☆品衔R4☆♂][个人频道][个人动态] 2025年02月22日13:32 回复
下一步就是绕过机器人三定律,消灭人类成为赢家了
3  
评论人:抬头看天[☆品衔R4☆][个人频道][个人动态] 2025年02月22日13:33 回复
也继承了人的恶习,这才是真正的人工智能。
2  
评论人:eickegao[♂☆品衔R4☆♂][个人频道][个人动态] 2025年02月22日13:42 回复
其实根本不是这样的。我做过类似测试,其实是AI在描述棋盘的时候会描述错误。然后看起来好像作弊一样
2  
新闻速递首页 | 近期热门新闻 | 近期热评新闻 | 72小时神评妙论 | 即刻热度新闻排行
科技频道】【宠物情缘
前期相关精彩新闻
新闻速递首页·向留园新闻区投稿·本地新闻·返回前页