The news is by your side.

DeepSeek的最新模型中的新功能:DeepSeek-V3.2-Exp

6


安娜·巴克莱|盖蒂图片新闻|盖蒂图像

中国创业公司DeepSeek的最新实验模型有望提高效率并提高AI以一小部分成本处理大量信息的能力,但是关于架构的有效性和安全性仍然存在问题。

DeepSeek于去年启动了第一款Model R1时使Silicon Valley陷入了疯狂,这表明可以使用更少的资源来快速培训大型语言模型(LLM),在功能较低的芯片上进行培训。

根据AI论坛拥抱面孔的一篇文章,该公司周一发布了DeepSeek-V3.2-Exp,这是其当前模型DeepSeek-V3.1-Terminus的实验版本,该版本进一步以提高AI系统效率的使命为基础。

“ DeepSeek v3.2继续关注效率,降低成本和开源分享,” Hugging Face的中国社区负责人Adina Yakefu告诉CNBC。 “最大的改进是一个名为DSA的新功能(DeepSeek稀疏关注),这使AI更好地处理了长期文档和对话。与以前的版本相比,它也削减了将AI运行的成本。”

Futurum Group的AI副总裁兼实践负责人Nick Patience表示:“这很重要,因为它应该使模型更快,更具成本效益。” “这使开发人员,研究人员和小型公司更容易获得强大的人工智能,这可能会导致一波新的创新应用。”

稀疏关注的利弊

AI模型根据其培训数据和新信息(例如提示)做出决策。假设一家航空公司希望找到从A到B的最佳路线,虽然有很多选择,但并非全部可行。通过滤除较不可行的路线,您可以大大减少旅途的时间,燃料和最终所需的金钱。这完全是稀疏的关注,这仅在数据中,它认为这一点很重要,因为手头的任务与迄今为止对模型中所有数据进行处理的其他模型相反。

“因此,基本上,您剪掉了自己认为并不重要的东西,” New Venture Capital Fund Blankpage Capital的联合创始人兼执行合伙人Ekaterina Almasque说。

稀疏的注意力是效率的福音,并且需要更少的资源来扩展AI的能力,但是一个问题是,由于缺乏对信息和为什么打折信息的监督,这可能导致可靠模型的下降程度下降。

“现实是,他们(稀疏注意模型)失去了很多细微差别,” Almasque是Dataiku和Darktrace的早期支持者,也是GraphCore的投资者。 “然后,真正的问题是,他们是否有正确的机制来排除并不重要的数据,或者是否有不包括非常重要的数据的机制,那么结果将不再重要?”

投资者指出,这对于AI的安全性和包容性可能尤其有问题,并补充说,与竞争对手或传统体系结构相比,它可能不是“最佳的或最安全的” AI模型。

但是,DeepSeek说,该实验模型与其v3.1末端相当。尽管猜测泡沫形成,但AI仍在与美国和中国争夺获胜地点的地缘政治竞争中心。 Yakefu指出,DeepSeek的模型与中国制造的AI芯片(例如Ascend and Cambricon)“开箱即用”,这意味着它们可以在不用任何额外设置的情况下在国内硬件上本地运行。

她说,DeepSeek还分享了使用实验模型所需的实际编程代码和工具。 “这意味着其他人可以从中学习并建立自己的进步。”

但是对于Almasque而言,这种性质意味着该技术可能无法辩护。她说:“这种方法并不是超级新的,”她指出,该行业一直在“谈论自2015年以来稀疏模型”,而DeepSeek由于开源而无法为其技术提供专利。她补充说,DeepSeek的竞争优势必须在于它如何决定包含哪些信息。

该公司本身承认v3.2-Exp是“拥抱面孔”的“迈向我们下一代建筑的中间步骤”。

正如耐心指出的那样,“这是DeepSeek的价值道具:效率变得与原始力量一样重要。”

Yakefu补充说:“ DeepSeek正在玩漫长的比赛,以使社区对他们的进步进行投资。” “人们总是会选择便宜,可靠和有效的东西。”

(Tagstotranslate)突发新闻:技术(T)技术(T)商业新闻



关键词: