DeepSeek火爆引争议,中国AI“软、硬”挑战犹存(图)
新闻来源: 钛媒体 于2025-02-01 20:38:01 提示:新闻观点不代表本网立场 分享
近日,DeepSeek在AI大模型领域引发热议,凭借其惊人的性能表现和低成本训练模式,迅速吸引了全球关注。虽然市场上几乎充满了赞叹声,但理性的业内人士已经开始提出质疑,认为这一现象可能并非一蹴而就,值得等待更多的验证。
DeepSeek究竟为何引发如此广泛的关注?2024年12月,DeepSeek发布的V3模型突破了多个开源大模型的性能,超越了阿里自研的Qwen2.5-72B和Meta的Llama 3.1-405B等模型,并与OpenAI的GPT-4o、Anthropic的Claude 3.5-Sonnet等闭源大模型相抗衡。在此基础上,DeepSeek于2025年1月20日发布并开源了DeepSeek-R1模型,该模型在数学、编程和自然语言推理等领域表现出色,甚至与OpenAI的O1模型相匹敌。此举不仅让DeepSeek在市场中名声大噪,还使其在苹果App Store的美国地区免费应用程式下载榜单上登顶,超越了ChatGPT等热门应用。
然而,DeepSeek的成功并非仅仅凭借其卓越的性能,更多的亮点在于其低成本与高效的训练模式。简而言之,DeepSeek通过极低的成本,成功实现了接近GPT等先进模型的性能,这一点引起了业界的广泛关注。
无法证真,难以证伪的成本惹争议提及成本,DeepSeek发表的原始报告中有详细解释这笔成本的计算:“在预训练阶段,每兆个token上训练DeepSeek-V3仅需要180K H800 GPU小时,也就是说,在我们拥有2048个H800 GPU的丛集上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,耗费2664K GPU小时。加上上下文长度扩充所需的119K GPU小时和后制训练所需的5K GPU小时,DeepSeek-V3的完整训练仅需2.788M GPU小时。假设H800 GPU的租赁价格为每GPU小时2美元,我们的总训练成本仅为557.6万美元。”
与此同时,该论文称:“上述成本仅包括DeepSeek-V3的正式训练,并不包括与架构、算法或数据方面的先前研究和实验相关的所有其它成本。”
而说到不包括与架构、算法或数据方面的先前研究和实验相关的所有其它成本,据媒体报道,2019年,推出DeepSeek的幻方量化成立AI公司,其自研的深度学习训练平台“萤火一号”总投资近2亿元,搭载了1100张GPU;两年后,“萤火二号”的投入增加到10亿元,搭载了约1万张英伟达A100显卡。
我们不清楚上述这些前期的投资与近日爆火的DeepSeek-V3和R-1(主要是R-1)到底有多少相关性,但从其搭载的为深度学习训练平台看,肯定是有,且相关性还不一定低。而这也理应分摊到成本之中。
此外,值得注意的是,上述557.6万美元仅是DeepSeek-V3的训练成本,虽然R-1模型的训练时间仍未有详尽披露,但“DeepSeek用远低于ChatGPT的成本达到相同效果”的说法已经开始广为流传。
对此,全球咨询公司DGA Group的合伙人保罗•特里奥洛(Paul Triolo)在Substack上撰文称:“OpenAI的o1的训练成本肯定远超过GPT-4,同样,(DeepSeek)R1的训练成本也肯定高于V3。从o3到o4/o5或从R1到R2/R3,训练计算成本只会增加。”
无独有偶,近日知名的SemiAnalysis公开发布的《DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts》的报告中称:DeepSeek论文中提到的600万美元成本仅指预训练运行的GPU成本,这只是模型总成本的一小部分,他们在硬件上的花费远高于5亿美元。例如为了开发新的架构创新,在模型开发过程中,需要投入大量资金来测试新想法、新架构思路,并进行消融实验。开发和实现这些想法需要整个团队投入大量人力和GPU计算时间。例如深度求索的关键创新—多头潜在注意力机制(Multi-Head Latent Attention),就耗费了数月时间。
综上公开信息和权威机构的公开报告,我们认为,业内流传的关于DeepSeek用远低于ChatGPT的成本达到相同效果的说法因漏读和误导而颇为值得商榷。
当然,由于商业机密等多重因素,业内,包括我们,事实上无法通过复现来证实557.6万美元训练成本是虚假的,即证伪;而基于同样的因素,推出DeepSeek-V3和R-1的幻方量化也不可能公开透明的向外界或者通过外界证明557.6万美元就是真实的训练成本,即证真。所以业内对于其成本争议的产生也自在情理之中了。
引微软和OpenAI知识产权疑虑,都是“蒸馏”惹得祸除了前述的DeepSeek成本之谜,最近,OpenAI和微软均向媒体证实,已掌握疑似DeepSeek通过“蒸馏”(distillation)技术,利用OpenAI专有模型来训练其AI大模型。这使得DeepSeek能够以较低的成本在特定任务上达到类似的效果。OpenAI虽未进一步提供证据的细节,但根据其服务条款,用户不得“复制”任何OpenAI的服务,或“利用输出结果开发与OpenAI竞争的模型”。
与此同时,微软和OpenAI也在调查DeepSeek是否通过未经授权的方式,不当获取OpenAI技术输出的信息。例如,微软早在2024年秋天就注意到,有人通过OpenAI应用程序接口(API)输出大量数据,怀疑这些行为与DeepSeek有关(注:OpenAI等公司对API调用和行为模式有严格监控,任何异常行为都会触发防护机制)。
除企业外,美国总统川普政府的AI专家大卫•塞克斯(David Sacks)也在福斯新闻访谈中提到“蒸馏”技术,并表示有“大量证据”显示DeepSeek依赖OpenAI的模型输出来协助开发其技术,但他并未进一步提供证据。他还提到,未来几个月,美国领先的人工智能公司将采取措施,防止“蒸馏”技术的滥用。
从目前公开的信息来看,OpenAI、微软和AI专家的核心关切在于DeepSeek是否采用了“蒸馏”技术,并且是否通过这种方式使用了OpenAI的专有模型。
问题的关键在于,DeepSeek是否使用了“蒸馏”技术来训练其模型;如果使用了,是否获得了OpenAI的授权,或者是否违反了OpenAI的服务条款?
对于上述两个核心问题,目前业内人士和媒体的说法纷繁复杂。有的观点认为DeepSeek(主要是R1模型)根本没有使用“蒸馏”技术;而有的则称,DeepSeek的技术文档表示,R1模型使用了“蒸馏”技术生成的高质量数据,以提升训练效率。
在我们看来,由于DeepSeek R-1刚发布不久,且其突破是在DeepSeek-V3的基础上进行的,而DeepSeek发布的原始报告中以V3为例(例如前文提到的成本),这表明R1与V3之间有着较强的关联性。因此,我们不妨从V3的角度出发,考察其是否采用了“蒸馏”技术,从而更客观地推测R1是否采用了“蒸馏”技术。
事实上,关于DeepSeek V3,曾在测试中出现过异常:该模型自称是OpenAI的ChatGPT,并能提供OpenAI的API使用说明。专家认为,这很可能是由于训练数据中混入了大量由ChatGPT生成的内容(即“蒸馏”数据),导致模型发生了“身份混淆”。
这一问题引发了部分网友的“套壳”质疑。不过,也有网友指出,当前数据清洗过程中最基本的原则之一,就是去除类似蒸馏GPT4的痕迹,删去这类数据是个非常简单的操作。那么,为什么DeepSeek没有采取这一操作呢?
对此,存在两种可能性:一是DeepSeek根本没有使用OpenAI的API生成数据,但网络上有不少人贡献了OpenAI的访问日志,而DeepSeek可能用了这部分数据;二是DeepSeek在合成数据时选择了他们认为最有效的方式,并且并不打算掩饰这一过程。
如果这些仍然只是部分网友的争议观点,那么,最近由中国科学院深圳先进技术研究院、北京大学、01.AI、南方科技大学、Leibowitz AI等多个知名机构的研究团队联合发表的《Distillation Quantification for Large Language Models(大语言模型的蒸馏量化)》论文则显示DeepSeek V3的蒸馏过程可能主要来自GPT4o,且蒸馏程度较高。
该论文提出了一个系统化的框架,量化并评估大模型蒸馏的过程及其影响,采用了“响应相似性评估(RSE)”和“身份一致性评估(ICE)”两个量化指标。RSE实验结果显示,DeepSeek V3的蒸馏程度与GPT4o接近,评分为4.102,远高于其他模型(如Llama 3.1-70B和Doubao-Pro-32k)。在ICE实验中,DeepSeek V3也显示出较高的蒸馏程度,属于可疑响应数量最多的模型之一。
此外,论文还提出过度蒸馏的问题,过度蒸馏可能导致模型同质化,降低独特性,甚至影响模型的性能。DeepSeek的R1模型也面临类似问题,可能在蒸馏过程中出现性能下降。
需要补充说明的是,对于DeepSeek爆火之下,马斯克一直罕见地并未发表评论,却在最近点赞了一则推文。推文中提到了DeepSeek大量依赖模型蒸馏技术,需要借助ChatGPT-4o和o1才能完成训练。尽管模型蒸馏是一项常见的技术手段,能够将OpenAI中的大量数据迅速提炼重点并快速理解和应用,但这种模式只能让DeepSeek接近OpenAI,而难以真正超越OpenAI。
其实在我们看来,这种“捷径”方法的影响远不止技术层面。
首先,方法缺乏透明度,使研究界难以准确评估并借鉴所谓的进展。许多机构可能隐瞒实际方法,却夸大自身技术能力,导致对领域进展的认知偏差;其次,这种趋势导致创新停滞,研究人员越来越依赖对现有强大模型进行蒸馏来训练自己的AI模型,而非开发根本性的新技术和通用大模型(类似于ChatGPT);第三,通过蒸馏提取出来的训练数据训练出来的AI模型存在固有局限性,即其能力受限于原有模型(O1),形成难以突破的天花板效应,阻碍真正的AI产业进步。
值得注意的是,近日,根据新闻可靠性评级服务机构NewsGuard的审查,DeepSeek的聊天机器人准确度仅为17%,在测试的11个聊天机器人中排名第10,远低于OpenAI的ChatGPT-4等。原因何在?是否与上述的过度蒸馏有关?
即使如此,DeepSeek仍然能够在成本上显著压倒其他大模型,这也是其被广泛关注的原因之一。
因此,关键问题是,DeepSeek是否获得了OpenAI的授权使用其模型进行蒸馏训练?如果没有,是否违反了OpenAI的服务条款?鉴于DeepSeek作为国内初创企业,可能并未充分研究OpenAI的服务条款,其可能面临法律挑战,尤其是在知识产权方面。
这里,我们可以不妨借用华为创始人任正非的做法,他常将一本名为《美国陷阱》的书放在办公桌上,并时常阅读。尽管书中的内容和他为何热衷于阅读它的原因并不在此展开,但我们可以借此说明,特别是美国科技公司,往往在其产品中埋设了大量的“地雷”,一不小心便可能误入雷区。
具体到DeepSeek,作为一家主要面向国内市场的初创AI企业,它是否会事无巨细地研究OpenAI的服务条款,尤其是其中关于版权、知识产权等敏感内容,实在令人存疑。此外,OpenAI的GPT作为闭源模型,其中可能包含许多知识产权、技术和商业机密。DeepSeek是否能够深入了解这些隐藏的内容,亦是一个值得考虑的问题。
再者,考虑到欧盟在数据隐私(如GDPR)和AI伦理等方面的严格监管,DeepSeek是否已经完全理解这些法律法规?若蒸馏过程中涉及到未经授权的OpenAI数据或受保护的商业模型,DeepSeek可能面临极其严苛的法律挑战。
最近,意大利隐私监管机构Garante向DeepSeek中国公司发出正式信息请求,要求其说明如何处理意大利用户的数据。Garante对DeepSeek是否对意大利用户的数据隐私构成风险表示担忧,并要求DeepSeek在20天内做出答复。同时,DeepSeek的应用在意大利的苹果和谷歌应用商店被下架。
除此之外,爱尔兰数据保护委员会和德国等欧洲国家也可能对DeepSeek展开调查。这些行动表明,DeepSeek的合规性问题在未来可能成为其发展道路上的重大挑战。
综上,尽管OpenAI、微软和AI专家未能提供直接证据,但一旦进入法律诉讼,DeepSeek的胜算仍然令人堪忧。特别是结合美国的国家安全法案等因素,DeepSeek面临的风险不可小觑。
从工程创新到基础创新:中国AI“软”实力几何?所谓瑕不掩瑜,当我们暂时抛开上述业内(包括厂商、相关专家等)部分对于DeepSeek成本、知识产权的质疑,仅站在AI(包括AI大模型)技术和产业的视角去看DeepSeek,其确实可圈可点。
有关技术方面,目前网络及专业媒体报道和分析的很多,我们就不班门弄斧了。只是引用下DeepSeek的说法,其得益于采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架构,实现了高效的推理和经济高效的训练。又引入了辅助损失自由负载平衡策略和多token预测训练目标,提升了模型性能。同时,在14.8万亿个高质量token上进行预训练时,通过监督微调和强化学习阶段充分挖掘了其潜力。
看来DeepSeek-V3通过数据与算法层面的优化,大幅提升算力利用效率,实现了协同效应。简而言之,DeepSeek更多是赢在了AI“软”实力和工程创新上。而这也得到国内外众多业内专家、厂商的认可。
不过我们作为非专业AI媒体,更多还是从技术发展逻辑(非技术本身)、市场事实阐述下我们的看法。
DeepSeek创始人梁文锋2023年在接受36氪旗下《暗涌》采访提及中国大模型的差距时曾称,首先训练效率存在差距,由于结构和训练动态方面的差距,中国最好的模型可能需要两倍的计算能力才能与全球顶尖模型匹敌;数据效率也降低了一半,这意味着我们需要两倍的数据和计算才能获得相同的结果。综合起来,资源是原来的四倍。我们的目标是不断缩小这些差距。
从2023年至今,一年多的时间,DeepSeek不仅弥补了其所说的我们大模型与国外综合起来的资源差距,甚至资源的投入仅为国外的不到1/10,且实现了性能比肩,甚至部分的超越,这一技术进步在短短一年多内的发生,确实让业内人士感到意外,这也引发了对其背后技术路径和资源配置的更多讨论。
接下来我们看看除了对其极致性能的夸赞之外,选取些我们看到的DeepSeek的表现。
广发证券发布的测试结果显示,DeepSeek-V3总体能力与豆包、Kimi等其他大模型相当,但在逻辑推理和代码生成领域具有自身特点。
例如,在密文解码任务中,DeepSeek-V3是唯一给出正确答案的大模型;而在代码生成的任务中,DeepSeek-V3给出的代码注释、算法原理解释以及开发流程的指引是最为全面的。在文本生成和数学计算能力方面,DeepSeek-V3并未展现出明显优于其他大模型之处。
另据国内大模型测评机构SuperCLUE 最新发布的《中文大模型基准测评2024 年度报告》,总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距正在扩大。
2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3 . 5、GPT4、GPT4 - Turbo、GPT4o、o1的多个版本的迭代升级。
国内模型也经历了波澜壮阔的1 8个月的迭代周期,从2 0 2 3年5月的30.12%的差距,缩小至2024年8月的1.29%。但随着o1的发布,差距再次拉大到15.05%。
看完上述,不知业内作何感想?我们认为无论是DeepSeek自身,还是中国AI大模型的整体,绝非像目前看到某些媒体和业内评价的那么极致和领先。尤其是整体,至少从去年一年的发展周期看,我们AI大模型与国外的差距反而加大了。
更应让我们不能盲目乐观的是,站在整个AI产业(包括,但不限于AI大模型)的高度,中国在AI领域仍然面临一些核心技术上的瓶颈,尤其是在基础算法和数学模型的创新方面。尽管开源技术,例如现有的深度学习模型和开源框架(如TensorFlow、PyTorch等)为很多应用提供了便利,但它们主要依赖于已有的模型和算法设计,若要应对日益复杂的任务,仅仅依赖这些现成的工具将难以满足要求。更进一步,依赖国外开源代码的情况下,可能会被技术壁垒、算法封锁等所困扰。
基于此,我们AI技术的进一步前行必须依赖于自己原创算法的突破,而不仅仅是现有技术的跟随,尤其是当前深度学习技术发展到一定阶段,遇到“天花板”,需要新的数学工具和算法架构来继续推动技术进步。未来的AI将不仅仅依赖数据和算力,还需要融入更多的逻辑推理、知识图谱等元素,这些都需要新的数学和算法理论来支撑。
写在最后:所谓风物长宜放眼量。不可否认,DeepSeek作为近年来崛起的AI大模型,虽然面临关于其低成本训练的具体细节和是否存在未经授权使用OpenAI技术的争议,但其在工程创新、算力优化等方面仍值得我们高度肯定,尽管如此,纵观整个中国AI产业,我们依然面临计算资源与算力受限、架构与算法过度依赖开源,缺乏核心原创AI算法等挑战待破局。
DeepSeek究竟为何引发如此广泛的关注?2024年12月,DeepSeek发布的V3模型突破了多个开源大模型的性能,超越了阿里自研的Qwen2.5-72B和Meta的Llama 3.1-405B等模型,并与OpenAI的GPT-4o、Anthropic的Claude 3.5-Sonnet等闭源大模型相抗衡。在此基础上,DeepSeek于2025年1月20日发布并开源了DeepSeek-R1模型,该模型在数学、编程和自然语言推理等领域表现出色,甚至与OpenAI的O1模型相匹敌。此举不仅让DeepSeek在市场中名声大噪,还使其在苹果App Store的美国地区免费应用程式下载榜单上登顶,超越了ChatGPT等热门应用。
然而,DeepSeek的成功并非仅仅凭借其卓越的性能,更多的亮点在于其低成本与高效的训练模式。简而言之,DeepSeek通过极低的成本,成功实现了接近GPT等先进模型的性能,这一点引起了业界的广泛关注。
无法证真,难以证伪的成本惹争议提及成本,DeepSeek发表的原始报告中有详细解释这笔成本的计算:“在预训练阶段,每兆个token上训练DeepSeek-V3仅需要180K H800 GPU小时,也就是说,在我们拥有2048个H800 GPU的丛集上需要3.7天。因此,我们的预训练阶段在不到两个月的时间内完成,耗费2664K GPU小时。加上上下文长度扩充所需的119K GPU小时和后制训练所需的5K GPU小时,DeepSeek-V3的完整训练仅需2.788M GPU小时。假设H800 GPU的租赁价格为每GPU小时2美元,我们的总训练成本仅为557.6万美元。”
与此同时,该论文称:“上述成本仅包括DeepSeek-V3的正式训练,并不包括与架构、算法或数据方面的先前研究和实验相关的所有其它成本。”
而说到不包括与架构、算法或数据方面的先前研究和实验相关的所有其它成本,据媒体报道,2019年,推出DeepSeek的幻方量化成立AI公司,其自研的深度学习训练平台“萤火一号”总投资近2亿元,搭载了1100张GPU;两年后,“萤火二号”的投入增加到10亿元,搭载了约1万张英伟达A100显卡。
我们不清楚上述这些前期的投资与近日爆火的DeepSeek-V3和R-1(主要是R-1)到底有多少相关性,但从其搭载的为深度学习训练平台看,肯定是有,且相关性还不一定低。而这也理应分摊到成本之中。
此外,值得注意的是,上述557.6万美元仅是DeepSeek-V3的训练成本,虽然R-1模型的训练时间仍未有详尽披露,但“DeepSeek用远低于ChatGPT的成本达到相同效果”的说法已经开始广为流传。
对此,全球咨询公司DGA Group的合伙人保罗•特里奥洛(Paul Triolo)在Substack上撰文称:“OpenAI的o1的训练成本肯定远超过GPT-4,同样,(DeepSeek)R1的训练成本也肯定高于V3。从o3到o4/o5或从R1到R2/R3,训练计算成本只会增加。”
无独有偶,近日知名的SemiAnalysis公开发布的《DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts》的报告中称:DeepSeek论文中提到的600万美元成本仅指预训练运行的GPU成本,这只是模型总成本的一小部分,他们在硬件上的花费远高于5亿美元。例如为了开发新的架构创新,在模型开发过程中,需要投入大量资金来测试新想法、新架构思路,并进行消融实验。开发和实现这些想法需要整个团队投入大量人力和GPU计算时间。例如深度求索的关键创新—多头潜在注意力机制(Multi-Head Latent Attention),就耗费了数月时间。
综上公开信息和权威机构的公开报告,我们认为,业内流传的关于DeepSeek用远低于ChatGPT的成本达到相同效果的说法因漏读和误导而颇为值得商榷。
当然,由于商业机密等多重因素,业内,包括我们,事实上无法通过复现来证实557.6万美元训练成本是虚假的,即证伪;而基于同样的因素,推出DeepSeek-V3和R-1的幻方量化也不可能公开透明的向外界或者通过外界证明557.6万美元就是真实的训练成本,即证真。所以业内对于其成本争议的产生也自在情理之中了。
引微软和OpenAI知识产权疑虑,都是“蒸馏”惹得祸除了前述的DeepSeek成本之谜,最近,OpenAI和微软均向媒体证实,已掌握疑似DeepSeek通过“蒸馏”(distillation)技术,利用OpenAI专有模型来训练其AI大模型。这使得DeepSeek能够以较低的成本在特定任务上达到类似的效果。OpenAI虽未进一步提供证据的细节,但根据其服务条款,用户不得“复制”任何OpenAI的服务,或“利用输出结果开发与OpenAI竞争的模型”。
与此同时,微软和OpenAI也在调查DeepSeek是否通过未经授权的方式,不当获取OpenAI技术输出的信息。例如,微软早在2024年秋天就注意到,有人通过OpenAI应用程序接口(API)输出大量数据,怀疑这些行为与DeepSeek有关(注:OpenAI等公司对API调用和行为模式有严格监控,任何异常行为都会触发防护机制)。
除企业外,美国总统川普政府的AI专家大卫•塞克斯(David Sacks)也在福斯新闻访谈中提到“蒸馏”技术,并表示有“大量证据”显示DeepSeek依赖OpenAI的模型输出来协助开发其技术,但他并未进一步提供证据。他还提到,未来几个月,美国领先的人工智能公司将采取措施,防止“蒸馏”技术的滥用。
从目前公开的信息来看,OpenAI、微软和AI专家的核心关切在于DeepSeek是否采用了“蒸馏”技术,并且是否通过这种方式使用了OpenAI的专有模型。
问题的关键在于,DeepSeek是否使用了“蒸馏”技术来训练其模型;如果使用了,是否获得了OpenAI的授权,或者是否违反了OpenAI的服务条款?
对于上述两个核心问题,目前业内人士和媒体的说法纷繁复杂。有的观点认为DeepSeek(主要是R1模型)根本没有使用“蒸馏”技术;而有的则称,DeepSeek的技术文档表示,R1模型使用了“蒸馏”技术生成的高质量数据,以提升训练效率。
在我们看来,由于DeepSeek R-1刚发布不久,且其突破是在DeepSeek-V3的基础上进行的,而DeepSeek发布的原始报告中以V3为例(例如前文提到的成本),这表明R1与V3之间有着较强的关联性。因此,我们不妨从V3的角度出发,考察其是否采用了“蒸馏”技术,从而更客观地推测R1是否采用了“蒸馏”技术。
事实上,关于DeepSeek V3,曾在测试中出现过异常:该模型自称是OpenAI的ChatGPT,并能提供OpenAI的API使用说明。专家认为,这很可能是由于训练数据中混入了大量由ChatGPT生成的内容(即“蒸馏”数据),导致模型发生了“身份混淆”。
这一问题引发了部分网友的“套壳”质疑。不过,也有网友指出,当前数据清洗过程中最基本的原则之一,就是去除类似蒸馏GPT4的痕迹,删去这类数据是个非常简单的操作。那么,为什么DeepSeek没有采取这一操作呢?
对此,存在两种可能性:一是DeepSeek根本没有使用OpenAI的API生成数据,但网络上有不少人贡献了OpenAI的访问日志,而DeepSeek可能用了这部分数据;二是DeepSeek在合成数据时选择了他们认为最有效的方式,并且并不打算掩饰这一过程。
如果这些仍然只是部分网友的争议观点,那么,最近由中国科学院深圳先进技术研究院、北京大学、01.AI、南方科技大学、Leibowitz AI等多个知名机构的研究团队联合发表的《Distillation Quantification for Large Language Models(大语言模型的蒸馏量化)》论文则显示DeepSeek V3的蒸馏过程可能主要来自GPT4o,且蒸馏程度较高。
该论文提出了一个系统化的框架,量化并评估大模型蒸馏的过程及其影响,采用了“响应相似性评估(RSE)”和“身份一致性评估(ICE)”两个量化指标。RSE实验结果显示,DeepSeek V3的蒸馏程度与GPT4o接近,评分为4.102,远高于其他模型(如Llama 3.1-70B和Doubao-Pro-32k)。在ICE实验中,DeepSeek V3也显示出较高的蒸馏程度,属于可疑响应数量最多的模型之一。
此外,论文还提出过度蒸馏的问题,过度蒸馏可能导致模型同质化,降低独特性,甚至影响模型的性能。DeepSeek的R1模型也面临类似问题,可能在蒸馏过程中出现性能下降。
需要补充说明的是,对于DeepSeek爆火之下,马斯克一直罕见地并未发表评论,却在最近点赞了一则推文。推文中提到了DeepSeek大量依赖模型蒸馏技术,需要借助ChatGPT-4o和o1才能完成训练。尽管模型蒸馏是一项常见的技术手段,能够将OpenAI中的大量数据迅速提炼重点并快速理解和应用,但这种模式只能让DeepSeek接近OpenAI,而难以真正超越OpenAI。
其实在我们看来,这种“捷径”方法的影响远不止技术层面。
首先,方法缺乏透明度,使研究界难以准确评估并借鉴所谓的进展。许多机构可能隐瞒实际方法,却夸大自身技术能力,导致对领域进展的认知偏差;其次,这种趋势导致创新停滞,研究人员越来越依赖对现有强大模型进行蒸馏来训练自己的AI模型,而非开发根本性的新技术和通用大模型(类似于ChatGPT);第三,通过蒸馏提取出来的训练数据训练出来的AI模型存在固有局限性,即其能力受限于原有模型(O1),形成难以突破的天花板效应,阻碍真正的AI产业进步。
值得注意的是,近日,根据新闻可靠性评级服务机构NewsGuard的审查,DeepSeek的聊天机器人准确度仅为17%,在测试的11个聊天机器人中排名第10,远低于OpenAI的ChatGPT-4等。原因何在?是否与上述的过度蒸馏有关?
即使如此,DeepSeek仍然能够在成本上显著压倒其他大模型,这也是其被广泛关注的原因之一。
因此,关键问题是,DeepSeek是否获得了OpenAI的授权使用其模型进行蒸馏训练?如果没有,是否违反了OpenAI的服务条款?鉴于DeepSeek作为国内初创企业,可能并未充分研究OpenAI的服务条款,其可能面临法律挑战,尤其是在知识产权方面。
这里,我们可以不妨借用华为创始人任正非的做法,他常将一本名为《美国陷阱》的书放在办公桌上,并时常阅读。尽管书中的内容和他为何热衷于阅读它的原因并不在此展开,但我们可以借此说明,特别是美国科技公司,往往在其产品中埋设了大量的“地雷”,一不小心便可能误入雷区。
具体到DeepSeek,作为一家主要面向国内市场的初创AI企业,它是否会事无巨细地研究OpenAI的服务条款,尤其是其中关于版权、知识产权等敏感内容,实在令人存疑。此外,OpenAI的GPT作为闭源模型,其中可能包含许多知识产权、技术和商业机密。DeepSeek是否能够深入了解这些隐藏的内容,亦是一个值得考虑的问题。
再者,考虑到欧盟在数据隐私(如GDPR)和AI伦理等方面的严格监管,DeepSeek是否已经完全理解这些法律法规?若蒸馏过程中涉及到未经授权的OpenAI数据或受保护的商业模型,DeepSeek可能面临极其严苛的法律挑战。
最近,意大利隐私监管机构Garante向DeepSeek中国公司发出正式信息请求,要求其说明如何处理意大利用户的数据。Garante对DeepSeek是否对意大利用户的数据隐私构成风险表示担忧,并要求DeepSeek在20天内做出答复。同时,DeepSeek的应用在意大利的苹果和谷歌应用商店被下架。
除此之外,爱尔兰数据保护委员会和德国等欧洲国家也可能对DeepSeek展开调查。这些行动表明,DeepSeek的合规性问题在未来可能成为其发展道路上的重大挑战。
综上,尽管OpenAI、微软和AI专家未能提供直接证据,但一旦进入法律诉讼,DeepSeek的胜算仍然令人堪忧。特别是结合美国的国家安全法案等因素,DeepSeek面临的风险不可小觑。
从工程创新到基础创新:中国AI“软”实力几何?所谓瑕不掩瑜,当我们暂时抛开上述业内(包括厂商、相关专家等)部分对于DeepSeek成本、知识产权的质疑,仅站在AI(包括AI大模型)技术和产业的视角去看DeepSeek,其确实可圈可点。
有关技术方面,目前网络及专业媒体报道和分析的很多,我们就不班门弄斧了。只是引用下DeepSeek的说法,其得益于采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架构,实现了高效的推理和经济高效的训练。又引入了辅助损失自由负载平衡策略和多token预测训练目标,提升了模型性能。同时,在14.8万亿个高质量token上进行预训练时,通过监督微调和强化学习阶段充分挖掘了其潜力。
看来DeepSeek-V3通过数据与算法层面的优化,大幅提升算力利用效率,实现了协同效应。简而言之,DeepSeek更多是赢在了AI“软”实力和工程创新上。而这也得到国内外众多业内专家、厂商的认可。
不过我们作为非专业AI媒体,更多还是从技术发展逻辑(非技术本身)、市场事实阐述下我们的看法。
DeepSeek创始人梁文锋2023年在接受36氪旗下《暗涌》采访提及中国大模型的差距时曾称,首先训练效率存在差距,由于结构和训练动态方面的差距,中国最好的模型可能需要两倍的计算能力才能与全球顶尖模型匹敌;数据效率也降低了一半,这意味着我们需要两倍的数据和计算才能获得相同的结果。综合起来,资源是原来的四倍。我们的目标是不断缩小这些差距。
从2023年至今,一年多的时间,DeepSeek不仅弥补了其所说的我们大模型与国外综合起来的资源差距,甚至资源的投入仅为国外的不到1/10,且实现了性能比肩,甚至部分的超越,这一技术进步在短短一年多内的发生,确实让业内人士感到意外,这也引发了对其背后技术路径和资源配置的更多讨论。
接下来我们看看除了对其极致性能的夸赞之外,选取些我们看到的DeepSeek的表现。
广发证券发布的测试结果显示,DeepSeek-V3总体能力与豆包、Kimi等其他大模型相当,但在逻辑推理和代码生成领域具有自身特点。
例如,在密文解码任务中,DeepSeek-V3是唯一给出正确答案的大模型;而在代码生成的任务中,DeepSeek-V3给出的代码注释、算法原理解释以及开发流程的指引是最为全面的。在文本生成和数学计算能力方面,DeepSeek-V3并未展现出明显优于其他大模型之处。
另据国内大模型测评机构SuperCLUE 最新发布的《中文大模型基准测评2024 年度报告》,总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距正在扩大。
2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3 . 5、GPT4、GPT4 - Turbo、GPT4o、o1的多个版本的迭代升级。
国内模型也经历了波澜壮阔的1 8个月的迭代周期,从2 0 2 3年5月的30.12%的差距,缩小至2024年8月的1.29%。但随着o1的发布,差距再次拉大到15.05%。
看完上述,不知业内作何感想?我们认为无论是DeepSeek自身,还是中国AI大模型的整体,绝非像目前看到某些媒体和业内评价的那么极致和领先。尤其是整体,至少从去年一年的发展周期看,我们AI大模型与国外的差距反而加大了。
更应让我们不能盲目乐观的是,站在整个AI产业(包括,但不限于AI大模型)的高度,中国在AI领域仍然面临一些核心技术上的瓶颈,尤其是在基础算法和数学模型的创新方面。尽管开源技术,例如现有的深度学习模型和开源框架(如TensorFlow、PyTorch等)为很多应用提供了便利,但它们主要依赖于已有的模型和算法设计,若要应对日益复杂的任务,仅仅依赖这些现成的工具将难以满足要求。更进一步,依赖国外开源代码的情况下,可能会被技术壁垒、算法封锁等所困扰。
基于此,我们AI技术的进一步前行必须依赖于自己原创算法的突破,而不仅仅是现有技术的跟随,尤其是当前深度学习技术发展到一定阶段,遇到“天花板”,需要新的数学工具和算法架构来继续推动技术进步。未来的AI将不仅仅依赖数据和算力,还需要融入更多的逻辑推理、知识图谱等元素,这些都需要新的数学和算法理论来支撑。
写在最后:所谓风物长宜放眼量。不可否认,DeepSeek作为近年来崛起的AI大模型,虽然面临关于其低成本训练的具体细节和是否存在未经授权使用OpenAI技术的争议,但其在工程创新、算力优化等方面仍值得我们高度肯定,尽管如此,纵观整个中国AI产业,我们依然面临计算资源与算力受限、架构与算法过度依赖开源,缺乏核心原创AI算法等挑战待破局。
Advertisements
网编:睿文 |
|
4 条 | |||
|
|||||
敬请注意:新闻内容来自网络,供网友多视角阅读参考,观点不代表本网立场!若有违规侵权,请联系我们。 | |||||
【科技频道】【宠物情缘】