把技术的事留给技术吧,别往上套政治了。 deepseek 的技术优势是他的训练方法。 而这方法是基于蒸馏其他大模型而来的。 换句话说, 在其他大模型完成训练的基础上才有效。 这可以大幅降低进一步训练的成本。 但隐患是他的模型并不是从材料里直接训练出来的, 开源也许没问题, 一旦蒸馏被禁止他的成本就会直线上升。
↓↓↓ 共 5 条评论 ↓↓↓
:
可惜你说的不对
自己去看 deepseek 的报告,训练成本压根和信息蒸馏没关系
我估计你是被今天的某篇小作文误导了
正解,所以这是开源的成就,不是哪个国家的,可惜很多人根本不理解,看到个标题就开喷。
“ 把技术的事留给技术吧,别往上套政治了。 deepseek 的技术优势是他的训练方法。 而这方法是基于蒸馏其他大模型而来的。 换句话说, 在其他大模型完成训练的基础上才有效。 这可以大幅降低进一步训练的成本。 但隐患是他的模型并不是从材料里直接训练出来的, 开源也许没问题, 一旦蒸馏被禁止他的成本就会直线上升。”
。
愿闻其详
其他大模型本来就不是开源的 你告诉我蒸馏怎么被禁止