星期五, 2 1 月

新年头一天发表高效率新架构 DeepSeek 准备再次震撼全球?

中国大陆人工智慧(AI)新创公司DeepSeek 1日发表新技术论文,勾勒一种效率较高的AI开发方式,显示尽管无法自由采购辉达(Nvidia)公司晶片,中国大陆AI业仍努力与OpenAI等业者竞争。

这篇论文提出一个名为流形约束超连接(Manifold-Constrained Hyper-Connections,mHC)的架构,推出这个框架目的是改善可扩展性,以及降低训练先进AI系统的运算与能源需求。这篇论文列出19名作者,DeepSeek共同创办人梁文锋排在最后一位。

DeepSeek研究员团队分别以有30亿、90亿和270亿个参数的模型测试mHC,结果发现mHC能在运算负担未大增情况下扩展规模。这些研究员说:「实证结果证实,mHC能有效达成稳定大规模训练,而且可扩展性优于传统超连接(HC)。」

业内观察家认为,DeepSeek论文常提供重要早期讯号,暗示该公司下一个推出的大模型将选择哪种工程设计。DeepSeek一年前推出的R1推理模型震撼全球,彭博行业研究(BI)分析师认为,DeepSeek未来数月可能推出的R2模型,有再次颠覆全球AI业的潜力。

由于美国阻止中国大陆新创公司取得开发和执行AI不可或缺的最先进半导体,这些业者营运持续严重受限,这些限制已迫使研究员诉诸非传统方法与架构。 $(document).ready(function () {nstockStoryStockInfo();});

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注