所以deepseek究竟是使用了openai的大数据集,蒸馏出自己的高质量小数据集;
还是deepseek直接用chatgpt的输出数据投喂deepseek,生成自己的高质量训练成果?
为啥前言不搭后语?还是我理解有问题?
↓↓↓ 共 3 条评论 ↓↓↓
都快一个星期了,除了被打脸的行业竞争对手、无良反华政客及一帮无脑狗粮在持续炒作所谓的“蒸馏”可能违法以外,没有一个AI顶级专家提出质疑甚至懒得谈论,因为所谓的“蒸馏”只是在业界常用的“雕虫小技”。以前AI大模型公司需要购买海量人工标注好的数据来训练,例如用1万张人工标注为狗的图片来训练大模型,然后用另外2千张标注为狗的图片来验证训练过的大模型来确定准确率。所谓的“蒸馏”的方法是依靠已经训练好的AI大模型代替人工来“标注”图片用于训练或者验证新的大模型,其好处是购买API的费用要远低于购买人工标注的数据,如果是自己的大模型就相当于免费。但是如果原始大模型有误判,那么新的大模型就会在错误的道路上一路狂奔得不偿失。所以一般业内一般会用“蒸馏”出来的数据做为验证之用,可以节省部分成本。
明显说是用ChatGPT的API接口生成了大量数据,然后用这些数据加上别的数据训练得出的高质量的模型结果。其实这是很容易看出来的,毕竟如果大量使用chatgpt的生成数据来训练,模型的回答风格会和chatgpt很像甚至可能输出的结果都一样。
:
OPEN AI的大数据应该不会开放
如果说的是API接口,就是chatGPT的输出数据。这种数据极为有限,而且提供方是知情的,不然不会开放API接口。
现在OPEN AI的借口是提供的输出数据不能用于建模。。。
他大爷的,这个数据肯定已经收费了的