留园新闻评论 6parknews.com

评论人:jxxy1234 [★品衔R6★] [个人频道] [个人动态] 发送时间: 2025年01月29日 21:35:58 【回复】

所以deepseek究竟是使用了openai的大数据集，蒸馏出自己的高质量小数据集；
还是deepseek直接用chatgpt的输出数据投喂deepseek，生成自己的高质量训练成果？
为啥前言不搭后语？还是我理解有问题？

4

踩

评论人:金山浪人 [★天灭反华狗★] [个人频道] [个人动态] 发送时间: 2025年01月30日 1:02:44 【回复】

都快一个星期了，除了被打脸的行业竞争对手、无良反华政客及一帮无脑狗粮在持续炒作所谓的“蒸馏”可能违法以外，没有一个AI顶级专家提出质疑甚至懒得谈论，因为所谓的“蒸馏”只是在业界常用的“雕虫小技”。以前AI大模型公司需要购买海量人工标注好的数据来训练，例如用1万张人工标注为狗的图片来训练大模型，然后用另外2千张标注为狗的图片来验证训练过的大模型来确定准确率。所谓的“蒸馏”的方法是依靠已经训练好的AI大模型代替人工来“标注”图片用于训练或者验证新的大模型，其好处是购买API的费用要远低于购买人工标注的数据，如果是自己的大模型就相当于免费。但是如果原始大模型有误判，那么新的大模型就会在错误的道路上一路狂奔得不偿失。所以一般业内一般会用“蒸馏”出来的数据做为验证之用，可以节省部分成本。

4

踩

评论人:djtg [☆品衔R4☆] [个人频道] [个人动态] 发送时间: 2025年01月29日 22:48:30 【回复】

明显说是用ChatGPT的API接口生成了大量数据，然后用这些数据加上别的数据训练得出的高质量的模型结果。其实这是很容易看出来的，毕竟如果大量使用chatgpt的生成数据来训练，模型的回答风格会和chatgpt很像甚至可能输出的结果都一样。

2

踩

评论人:newerer [品衔R2☆] [个人频道] [个人动态] 发送时间: 2025年01月29日 22:29:39 【回复】

：
OPEN AI的大数据应该不会开放
如果说的是API接口，就是chatGPT的输出数据。这种数据极为有限，而且提供方是知情的，不然不会开放API接口。
现在OPEN AI的借口是提供的输出数据不能用于建模。。。
他大爷的，这个数据肯定已经收费了的

1

踩

1

评论
用户名:密码:[--注册ID--]