要点:
- 周一,中国初创公司 DeepSeek 超越 ChatGPT,成为 App Store 上评分最高的免费应用程序;
- DeepSeek称,其免费应用使用的数据更少,成本仅为竞争对手模型的一小部分;
- 分析人士对DeepSeek声称的相关模型总训练成本提出了质疑。
继上周推出了一款免费人工智能应用后,中国AI初创公司DeepSeek走红,成为美国苹果商店App Store上评分最高的免费应用程序,超越ChatGPT。
该公司称,该应用能以更少的数据和更低的成本运行,与竞争对手的模型相比具有显著优势。这可能标志着人工智能投资需求的一个转折点。
这款应用由 DeepSeek-V3 模型提供支持,其开发者声称该模型“在开源模型中排名第一,并可媲美全球最先进的闭源模型”。
DeepSeek是个什么样的公司?其开发的应用是如何运作的?
DeepSeek的成立背景
DeepSeek是一家中国杭州初创公司,成立于2023年。根据中国企业记录,其控股股东是1985年出生的梁文峰。他也是量化对冲基金幻方(High-Flyer)的联合创始人。
自2022 年底 OpenAI 发布 ChatGPT 后,中国科技公司纷纷涌入人工智能领域,竞相开发自己的聊天机器人。
2023年3月,梁文峰的基金公司在其官方微信账号上宣布,正在“重新起航”,将资源集中于创建一个“全新的独立研究团队,以探索通用人工通用智能(AGI)的本质”。
同年晚些时候,DeepSeek成立。
目前尚不清楚幻方对DeepSeek 的具体投资金额。根据中国企业记录,幻方在DeepSeek同一栋楼内设有办公室,并拥有与训练人工智能模型相关的芯片集群专利。
幻方的人工智能部门曾于2022 年 7 月在官方微信账号上表示,其拥有并运营一个由一万个 A100 芯片组成的集群。
关于芯片的争议
从 ChatGPT 到 DeepSeek 的人工智能模型都需要先进的芯片来支持其训练。
2021年,美国前总统乔·拜登(Joe Biden)扩大了出口禁令的范围,禁止这些芯片出口到中国并被用于训练中国企业的人工智能模型。
然而,DeepSeek 的研究人员在上个月发布的一篇论文中表示,DeepSeek-V3 使用英伟达(Nvidia)的H800 芯片进行训练,且总成本不到600 万美元(约合 950 万澳元)。
这一细节随后引发争议,让美国科技高管开始质疑其技术出口管制的有效性。
有人对 DeepSeek的成功故事公开表示质疑。
Scale AI 的首席执行官 Alexandr Wang 周四在接受CNBC 采访时表示,DeepSeek拥有五万个 英伟达H100 芯片(目前市面上性能最强的英伟达芯片),但并未提供证据。
他声称这些芯片不会被披露,因为这将违反美国的出口管制政策。该政策禁止向中国公司出售此类先进的人工智能芯片。
针对这一指控,DeepSeek未立即回应置评请求。
周一,伯恩斯坦研究公司(Bernstein Research)的分析师在一份研究报告中指出,DeepSeek 的 V3 模型的总训练成本未知,但远高于该初创公司声称的计算能力使用成本。
分析师还表示,同样备受赞誉的R1模型的训练成本也未被披露。
欢迎下载应用程序SBS Audio,订阅Mandarin。您也可以通过YouTube、Apple Podcasts、Spotify等平台随时收听SBS普通话音频内容。请在 和 关注SBS中文,了解更多澳洲新闻。