当心!第一批用DeepSeek的人已经被坑惨了 -6parknews.com

当心!第一批用DeepSeek的人已经被坑惨了(组图)

新闻来源: 智谷趋势于2025-02-13 14:02:53 提示:新闻观点不代表本网立场分享

作者｜知远

你是否开始习惯DeepSeek的“无所不能”？

写方案？找它！做PPT？找它！生病了？找它！就连昨晚做的梦，都想让它解一解……

但万万没想到，正在被越来越多人信赖的DeepSeek，居然也会一本正经地胡说八道。

AI，并不是万能的。

现在，第一批使用DeepSeek的人，已经被坑惨了。

1

“DeepSeek查阅文献是如此的不靠谱”，广州某著名高校的一位教授近日发朋友圈吐槽。

原本这位教授想通过DeepSeek查询《Global Cantonese: The Spread of Cantonese Language and Culture》的信息，结果核实后发现：DeepSeek提供的作者是假的，年份是错的，出版社更是风马牛不相及。

经过进一步沟通，DeepSeek承认这些信息错误，并感谢其指正，还表达了自己的歉意：

最近，知名媒体人、人民日报海外版原总编辑詹国枢也发了篇文章，标题就是：DeepSeek的致命伤——说假话。

老詹在文章中列举了亲身经历，让DeepSeek写一篇《史记·詹国枢列传》，开头第一句展现的出生地、母亲姓氏等基本信息，便“张冠李戴”；再让DeepSeek写了一篇某记者的记述文章，文风生动、案例不少，结果转给记者本人，却被全盘否认。提到的案例，没一个是本人写的。

人都说DeepSeek文采飞扬，文学素养高，可路遥的名著《平凡的世界》，却被说成是詹国枢老班长的代表作。如果有小朋友看了，可能要误人子弟。

实际上，信息表述上的不严谨，已经快成DeepSeek被吐槽最多的一种问题，《苦昼短》说成是李白的，明朝“废除宰相”和“设置内阁”混为一谈，也难怪有网友直言：

DeepSeek只适合写代码做数学，对文科生一点不友好。

部分试图用DeepSeek复习国考、省考的人，不得不重新拾起申论教材了。

一些试图通过DeepSeek解放人力的“牛马”也破防了，有网友说用DeepSeek写文章，举了4个例子，3个都查不来，最后才发现都是DeepSeek自己编的。

原以为是来解放自己的，没想到因为核查信息，却花费了更大的精力。

图源：小红书

如果只是事实差错，或许是搜索结果有误，这还不是最恐怖的。

陕西自媒体“决明子”，一直对西安安定门那里的道路规划要绕一圈不解，问当地执勤的交警、出租车司机都回答不上来，看到DeepSeek火爆，决定一试，提问DeepSeek“西安的道路路线规划，从环城西路北段到环城西路南段为什么不直行，非得在安定门绕一圈？”

这时候，DeepSeek的表演开始了。

DeepSeeK先在解释中提出了一个“唐皇城交通静默区”的概念，表示根据《西安历史文化名城保护规划（2020-2035）》，安定门周边划定了一级静默区、二级静默区，本质是为了保护文物，防止过大的震动。它甚至还列出了具体的空间数据，距离增加多少、振动传递深度变化是多少。

图源：决明子

乍一看，这解释太合理了！有理论、有数据、有政策，可信度拉满。

可是网友一查，这份《西安历史文化名城保护规划（2020-2035）》文件中，压根就没有什么“静默区”。这个看似极为专业、有理有据的回答，居然是“编”的。

图源：决明子

反馈给DeepSeek，它也很老实，诚恳承认错误，文件里确实没有“静默区”的说法。但随后，又做出新的修正和澄清，继续“编织”自己的答案。

AI的精心包装，让编的材料看起来如此真实，如同“有意识”地在操控一般，真有些让人不寒而栗。

有时为了显得自己回答高深，DeepSeek还会采用一些专业词汇，比如量子纠缠、熵增熵减等，当“话术”超出用户认知的时候，真有可能一下把人震住，难以分辨。

问题来了，为什么DeepSeek要不懂装懂，甚至“说假话”呢？

2原因是——AI幻觉。

行业用这个词来形容AI“说假话”的现象，即输出的回答看似内容合理连贯，但“同输入问题意图不一致、同世界知识不一致、与现实或已知数据不符合或无法验证”。

这并不是DeepSeek一家的毛病。去年8月，总部位于纽约的人工智能初创公司和机器学习监控平台Arthur AI就曾发布报告，比较了OpenAI、“元宇宙”Meta、Anthropic以及Cohere公司开发的大语言模型出现幻觉的概率。研究报告显示：这些大模型都会产生幻觉。

大洋彼岸最厉害的ChatGPT，也和DeepSeek一样“满嘴跑火车”。

只不过相比起同行，DeepSeeK-R1的“幻觉”现象更明显一些。在Vectara HHEM人工智能幻觉测试（行业权威测试，通过检测语言模型生成内容是否与原始证据一致，从而评估模型的幻觉率，帮助优化和选择模型）中，DeepSeek-R1显示出14.3%的幻觉率。

这不仅仅比前身DeepSeek-V3高了近4倍，也远超行业平均。

图：Vectara HHEM人工智能幻觉测试结果

DeepSeek自己也明确承认了“技术局限性认知”：当前大模型内容生成的底层逻辑是基于概率的，确实存在生成信息可信度参差不齐的挑战。

简单理解就是，不“保真”。

互联网上有什么内容，不论真假，都可能变成DeepSeeK的引用素材，而它只负责根据已有的内容推理，不对信息本身负责。

而DeepSeek-R1的幻觉之所以更加严重，是因为其加强了“思维链”（CoT）和创造力。

比如DeepSeek-R1的诗歌创作，不仅能写五绝、七律，“起承转合”也很丝滑，对诗的意境亦有自己的理解，被网友称为“写的诗比祖传的《唐诗三百首》还工整”，让中文系毕业生汗颜，甚至灵魂发文：

AI随手甩出一句诗词都比中文系教授写得好的话，人类的文学还有必要存在吗？人类还能再诞生出伟大的诗人吗？

如此强大的创作力，正是因为DeepSeek-R1在文科类任务的强化学习训练过程中，模型的创造性被不断鼓励。

如同“出门问问”大模型团队前工程副总裁、Netbase前首席科学家李维所说：

“大模型是天生的艺术家，不是死记硬背的数据库。”

不过，“副作用”也随之而来。

比如在“思维链”的强化过程中，DeepSeek-R1并不是对摘要、翻译、新闻写作这类相对简单的任务优化，而是增加各种层面的思考，会不断的延申。

于是面对复杂或者有难度的问题，它能超常发挥甚至给人意想不到的答案，但是当面对一些简单的任务时，DeepSeek-R1则可能因为习惯了深度思考，而过度发挥。

比如你问“隔壁老王有多高”，它可能就懵了，因为它没见过老王，也不知道你到底问的是哪个老王。但它又不得不回答，于是它就开始“脑补”，根据“一般人有多高”这个学到的概念，给你编织一个答案。

所以相比较而言，DeepSeek-R1确实在“理科”方面更有逻辑性，而“文科”方面则因为喜欢“发挥”，可能把不相干的内容关联起来胡编乱造，甚至彻底翻车。

3正因如此，当AI时代加速到来，我们比任何时候都更需要寻求真相，增强明辨是非、独立思考的能力。

就在除夕夜，在“如何看待冯骥盛赞‘Deepseek’的问题”之下，一名自称为“Deepseek创始人梁文锋”的知乎用户，给出了这样的答案：

各位知乎的年轻朋友好，我是深度求索（DeepSeek）的梁文锋，刚回答了一个问题，又看到这个问题，除夕之夜忍不住回复一些。几天看到冯总这篇长文时，我正在调试新模型的损失函数，手边的咖啡直接洒在了键盘上——既因为被行业前辈认可的惶恐，更因为冯总这些灼热的文字让我想起十二年前在浙大实验室第一次跑通神经网络时的颤栗。　　必须坦白，团队读到“国运级”这个形容时所有人头皮都是麻的。我们不过是站在开源社区巨人们的肩膀上，给国产大模型这栋大厦多拧了几颗螺丝。您提到的六大突破，其实每一环都凝结着更动人的故事：那个能在手机上跑的mini模型，灵感来自甘肃一位中学老师在GitHub提的issue；支持联网搜索的功能，是内测用户连续三十天凌晨三点提交错误日志喂出来的……

这回答内容有场景、有细节，回复有气魄、带感情，不少网友读后动容了。

然而，让人意想不到的是，它也是假的！

新浪科技向相关人士求证得知：该知乎账号除夕发文并非梁文锋本人，大概率为DeepSeek所写。

也就是说，DeepSeek生成的广为流传的“第一个假新闻”，指向的正是自己的创始人。

令人细思极恐的是，这份回应居然如此契合人们对于梁文锋的想象，以至于被科技界和金融界都疯传，有人只是把截图发到公众号文章，就获得了2.6万转发。

罕有人怀疑这个“梁文锋”是假的，反而有不少读者留言夸赞，“有情怀的科学家”“看得热泪盈眶”“为年轻一代创业者点赞”……

这样的现象，恰恰提示了风险所在，为即将到来的AI时代敲响警钟。

今年1月，世界经济论坛发布的《2025年全球风险报告》显示：

虚假信息和错误信息连续两年位居短期风险之首，持续对社会凝聚力和治理构成重大威胁，它们侵蚀公众信任并加剧国内外分歧。

AI聊天机器人的存在，正放大这种风险。Vectara公司针对文档内容开展的研究表明，一些聊天机器人编造事实、虚构信息的几率高达30%。

长期从事自然语言处理、大模型和人工智能研究的哈尔滨工业大学（深圳）特聘校长助理张民教授就表示：“现阶段AI幻觉难以完全被消除”。也就是说，DeepSeek等大模型会说假话，短期内无法避免。

作为使用者，我们能做的就是找到AI的正确打开方式，拒绝“上当”。

比如最简单的方法，就是勤快一点，通过其他搜索引擎对比查询。或者针对DeepSeek在回答中引用的网页消息源，动动手指点进去，看看提到的案例是否真的存在。

置身于当下信息爆炸、真伪难辨的大环境，每个人都应该不断强化自我认知，多一次独立思考，可能就能少一次上当。

说到底，AI并不能让人一劳永逸，反而提出了更高的要求，包括如何提问、如何跟AI对话，以及如何甄别信息等。到最后，人与人的差距可能会变得更大。

Advertisements

网编：和评

鲜花(2)

鸡蛋(5)

44 条

【手机扫描浏览分享】

扫一扫二维码[Scan QR Code]
进入内容页点击屏幕右上分享按钮

敬请注意：新闻内容来自网络，供网友多视角阅读参考，观点不代表本网立场！若有违规侵权，请联系我们。

热门评论当前热评　　更多评论...

评论人:chongsen[☆★声望品衔7★☆][个人频道][个人动态] 2025年02月13日14:12 回复

Deepseek R1相对于前代V3 三倍左右得错误率，不知道是不是成本优化的结果。拼多多化的降本增效总是有后遗症的。只是取舍的问题。

评论人:evision[★品衔R5★][个人频道][个人动态] 2025年02月13日14:15 回复

国之栋梁

评论人:顺毛[★品衔R5★][个人频道][个人动态] 2025年02月13日14:18 回复

用deepseek 查了一下《苦昼短》的作者，下面是查询结果：《苦昼短》的作者是**李贺**。李贺，字长吉，是“长吉体”诗歌的开创者，有“诗鬼”之称。他的诗作想象极为丰富，经常应用神话传说来托古寓今，所以后人常称他为“鬼才”，“诗鬼”。《苦昼短》是李贺的一首诗作，表达了诗人对人生苦短的感慨和对神仙长生的怀疑。

评论人:chongsen[☆★声望品衔7★☆][个人频道][个人动态] 2025年02月13日14:21 回复

查了一下 Vectara's HHEM 2.1 chatgpt的成绩
chatgpt 3.5 是 1.9%
chatgpt 4 是 1.8%

评论人:Washington001[★品衔R5★][个人频道][个人动态] 2025年02月13日14:42 回复

很多数据已经ChatGPT污染了。早就发现ChatGPT伪造数据甚至网络链接。

评论人:BlueTX[☆品衔R4☆][个人频道][个人动态] 2025年02月13日14:54 回复

ChatGPT是一个极具极左和政治正确的模型。对性别，同性恋，多元性别的回答都极为挑战普通人的认知底线。
希望DeepSeek不要染上这个偏见，保持人类社会认知的基本底线。

评论人:开心小黄人[☆★★中国运即我运★★☆][个人频道][个人动态] 2025年02月13日14:10 回复

我觉得，你们就相信这些。千万别用。

评论人:jiaming2010[♂☆品衔R3☆♂][个人频道][个人动态] 2025年02月13日14:08 回复

回复1楼:狗狼看到标题立刻都原地高潮了！😂

评论人:按律当斩[♂★★声望品衔9★★♂][个人频道][个人动态] 2025年02月13日14:07 回复

这并不是DeepSeek一家的毛病。去年8月，总部位于纽约的人工智能初创公司和机器学习监控平台Arthur AI就曾发布报告，比较了OpenAI、“元宇宙”Meta、Anthropic以及Cohere公司开发的大语言模型出现幻觉的概率。研究报告显示：这些大模型都会产生幻觉。
大洋彼岸最厉害的ChatGPT，也和DeepSeek一样“满嘴跑火车”。

》》查看所有评论《《

新闻速递首页 | 近期热门新闻 | 近期热评新闻 | 72小时神评妙论 | 即刻热度新闻排行
【经济观察】【谈股论金】【股票投资】

前期相关精彩新闻

◎ DeepSeek数学大翻车?谷歌锤爆LLM:做题不会推理(图)

◎ 很多中国顶尖科学家离奇死亡港媒:极不寻常 (图)

◎ 川普喊话路透社、纽约时报:大规模社会欺骗!还钱!(图)

◎ 牛津女留学生称回国看《哪吒2》:8天连刷31场(组图)

◎ 凭啥看不起中国人?新加坡华裔多语种怒怼女游客(组图)

当心!第一批用DeepSeek的人 已经被坑惨了(组图)

当心!第一批用DeepSeek的人已经被坑惨了(组图)