2024 年 7 月 5 日,阿里巴巴在中国上海世博展览中心举行的世界人工智能大会上展台。
努尔照片|努尔照片|盖蒂图片社
虽然美国市场一直关注人类和利他工具对软件和金融服务的影响,但中国科技巨头本周发布了人工智能模型,显示了机器人和视频生成方面的进步。
阿里巴巴、TikTok 创作者字节跳动和短视频平台 快手,都发布了新的人工智能模型,突显了中国企业如何跟上美国企业的步伐
此前,谷歌 DeepMind 老板 Demis Hassabis 告诉 CNBC,中国的人工智能模型仅落后西方竞争对手“几个月”。
这些来自中国的模型与 OpenAI 的 Sora 等视频生成模型以及来自中国的机器人模型直接竞争 英伟达 和 谷歌。
这是模型的概要。
阿里巴巴的RynnBrain
阿里巴巴达摩院本周推出了 RynnBrain,这是一种人工智能模型,旨在帮助机器人理解周围的物理世界并识别物体。
在视频演示中,阿里巴巴展示了一个手上有钳子的机器人,它似乎能够数橙子、捡起橙子并将其放入篮子中。还显示从冰箱中取出牛奶。
模型需要大量的训练才能识别日常交互的物体,这意味着像拾取水果这样的简单任务在机器人技术中可能具有挑战性。
RynnBrain 现在让阿里巴巴与以下公司展开竞争 英伟达 和 谷歌 他们正在开发自己的机器人人工智能模型。
Hugging Face 的研究员 Adina Yakefu 告诉 CNBC:“它的关键创新之一是内置的时间和空间意识。”
“机器人不是简单地对即时输入做出反应,而是可以记住事件发生的时间和地点,跟踪任务进度,并继续执行多个步骤。这使得它在复杂的现实环境中更加可靠和连贯。”
亚克夫补充说,阿里巴巴的“更广泛的野心”是“为实体系统建立一个基础智能层”。
字节跳动的 Seedance 2.0
Seedance 2.0 是一种视频生成人工智能模型,能够仅根据用户的文本提示生成逼真的视频。但提示还可以包含其他视频和图像。
使用 Seedance 2.0 创建并经 CNBC 审核的视频似乎显示了完全由 AI 创建的非常逼真的图像和视频。
Billy Boman 居住在瑞典斯德哥尔摩,经营着一家制作人工智能生成内容的创意广告公司,他使用了 Seedance 2.0。
他表示,人工智能视频生成在过去两年中取得了重大进展,整个行业进步迅速。

“回到 2023 年……很难让人跑或走。任何类型的现实主义都(仅限于)非常短的剪辑,一切都非常慢,纹理很差,没有皮肤纹理,缺乏细节。现在剧本已经翻转。现在我可以做任何事情。这简直就是非凡的技术进步,”博曼在接受 CNBC 采访时表示。
Hugging Face的Yakefu补充道,Seedance 2.0模型在“可控性、速度和生产效率”方面较前代产品有所进步。
“Seedance 2.0 是我迄今为止测试过的最全面的视频生成模型之一。它确实让我感到惊讶,因为它在第一次尝试时就提供了令人满意的结果,即使是一个简单的提示。视觉效果、音乐和摄影以一种抛光而不是实验的方式结合在一起,”Yakefu 说。
然而,虽然用户称赞这项技术,但 Seedance 却遇到了麻烦。中国当地媒体报道称,Seedance 已暂停一项允许人工智能根据人上传的图片生成声音的功能。此前,中国的一位博主对未经同意的语音生成表示担忧。
CNBC 联系字节跳动时,并未立即发表评论。
快手Kling 3.0
上周发布的快手 Kling 3.0 是另一种可与字节跳动竞争的视频生成模型。
Kling 3.0“在一致性、逼真输出、将视频持续时间延长至 15 秒以及跨多种语言、方言和口音的本地音频生成方面进行了重大升级。
快手表示,该模式仅适用于付费订阅者,但很快就会向公众开放。
快手Kling模式的成功是其股价去年上涨50%以上的关键因素。
快手股价今年迄今
其他关键人工智能模型发布
智普人工智能(在香港交易的名称为知识图谱科技)周四发布 GLM-5 后,其股价飙升。GLM-5 是一种开源大语言模型,具有增强的编码能力和长时间运行的代理任务。
该公司表示,该模型在编码基准测试中接近 Anthropic 的 Claude Opus 4.5,同时在某些测试中超越了谷歌的 Gemini 3 Pro。 CNBC 无法证实这些说法。
MiniMax 周四推出了带有增强型人工智能代理工具的更新版 M2.5 开源模型,其股价也大幅上涨。 “代理”或“代理人工智能”是指旨在自动化任务的人工智能工具。
— CNBC 的 Anniek Bao 和 Dylan Butts 对本报告做出了贡献。
关键词:人工智能,互联网,科技,快手科技,阿里巴巴集团控股有限公司,阿里巴巴集团控股有限公司,中国,美国,NVIDIA公司,Alphabet Class A,商业新闻