新年头一天发表高效率新架构 DeepSeek 准备再次震撼全球？

中国大陆人工智慧（AI）新创公司DeepSeek 1日发表新技术论文，勾勒一种效率较高的AI开发方式，显示尽管无法自由采购辉达（Nvidia）公司晶片，中国大陆AI业仍努力与OpenAI等业者竞争。

这篇论文提出一个名为流形约束超连接（Manifold-Constrained Hyper-Connections，mHC）的架构，推出这个框架目的是改善可扩展性，以及降低训练先进AI系统的运算与能源需求。这篇论文列出19名作者，DeepSeek共同创办人梁文锋排在最后一位。

DeepSeek研究员团队分别以有30亿、90亿和270亿个参数的模型测试mHC，结果发现mHC能在运算负担未大增情况下扩展规模。这些研究员说：「实证结果证实，mHC能有效达成稳定大规模训练，而且可扩展性优于传统超连接（HC）。」

业内观察家认为，DeepSeek论文常提供重要早期讯号，暗示该公司下一个推出的大模型将选择哪种工程设计。DeepSeek一年前推出的R1推理模型震撼全球，彭博行业研究（BI）分析师认为，DeepSeek未来数月可能推出的R2模型，有再次颠覆全球AI业的潜力。

由于美国阻止中国大陆新创公司取得开发和执行AI不可或缺的最先进半导体，这些业者营运持续严重受限，这些限制已迫使研究员诉诸非传统方法与架构。 $(document).ready(function () {nstockStoryStockInfo();});

🔗 您可能感兴趣的内容: