而該公司聲稱,其使用的科技與 OpenAI及 Meta 等科技巨頭的最先進模型不相上下, 而該公司指出,他們的人工智能助理軟件,亦成為美國蘋果公司的手機應用程式商店中評分最高的一個免費應用程式,甚至超越現時許多人所採用的ChatGPT。
不過,該公司在星期一(1月27日)表示,其網站由於受到大規模的惡意網絡攻擊而中斷,並且要一度暫時限制新用戶註冊。不過,昨天(1月28日),該公司表示,已經解決其應用程式介面及用戶無法登入網站的問題。而今次網站中斷,亦是該公司在過去90日以來最長的一次發生網絡中斷的情況,同時,亦正正是在該應用程式人氣飆升的期間。
DeepSeek在上星期推出了一款免費的聊天助理軟件,據講,其使用的數據比其他競爭對手為少,而成本比其他公司亦更為便宜,因此亦令外界相信可能對人工智能所需要的投資水平比以往為低,而這個情況,亦一度令美國多間科技公司的股價暴跌。
DeepSeek早於2023年11月經已推出其首個人工智能助理軟件版本,到今年(2025)1月10日, 更加推出了所謂「DeepSeek-V3 」模型,負責開發該軟件模型的人士指出,該軟件「在自由/開源軟件中名列前茅,亦可與全球最先進的封閉來源軟件相媲美」。所謂自由或開源體軟件 (FOSS) 與閉源模式的軟的分別是使用閉源模式件的原始碼是不會向公眾公開。
根據應用程式的數據研究公司 Sensor Tower 的數據顯示,DeepSeek-V3模型廣受用家歡迎。
其實,在2022 年底當OpenAI 的人工智能聊天軟件ChatGPT 公開發行以來,經已引發中國的科技公司紛紛創造自己的聊天軟件來與之競爭。但當中國的搜尋引擎巨頭百度發布首個中文版的 ChatGPT軟件之後,中國民眾對中國對比美國公司在人工智能的性能上的差距,普遍感到失望。
不過,當DeepSeek 公開發行其最新的兩款軟件模型DeepSeek-V3 和 DeepSeek-R1之後,這兩款軟件的品質和成本效益卻徹底顛覆了這個情況,同時,兩款軟件亦受到矽谷高層和美國科技公司工程師的一致好評,並認為其水平與 OpenAI 和 Meta 最先進的軟件模型不相上下。
其實,不論是ChatGPT抑或是 DeepSeek,這些人工智能軟件模型都需要先進的晶片來支援訓練這些模型的工作。但自 2021 年起,美國前總統拜登則擴大了禁止出售先進晶片的範圍,目的便是希望阻止這些晶片出口到中國並利用作為訓練中國公司發展的人工智能模型。
不過,DeepSeek 的研究人員在上個月的一篇論文中寫道,DeepSeek-V3 是使用輝達(Nvidia) 的 H800 晶片進行訓練,而所花的費用不到 600 萬美元(約950 萬澳元)。
雖然這些資料一直存在爭議,但由於中國聲稱所使用的晶片的性能,是比美國試圖阻止進入中國的輝達最先進的產品,而用於培訓軟件模型的成本亦相對便宜,這亦令美國的科技公司高層質疑美國在管制技術出口的有效性。
究竟 DeepSeek是何方神聖?
DeepSeek 是一間位於中國杭州的初創公司,根據中國商企登記記錄,其主要控股股東是對沖基金幻方量化(High-Flyer)的聯合創辦人梁文鋒。
2023年3月,梁氏基金在其官方微信公眾號上宣布會「重新出發」,集中資源打造一個「全新獨立研究團隊」,探索人工智能(Artificial General Intelligence)的本質,而在同年稍後,該公司亦創立了DeepSeek。
究竟幻方量化對 DeepSeek 投資了多少目前仍然是未知之數,但根據中國商企登記記錄,幻方量化與 DeepSeek的辦公室均是位於同一棟大廈,同時,幻方量化亦擁有用於訓練人工智能模型的晶片集群相關的專利。
根據幻方量化的人工智能部門於 2022 年 7 月在其官方微信上表示,該公司擁有並營運 10,000 個 A100晶片 的集群。
不過,亦有人質疑 DeepSeek 的成功故事。
為機器學習模型提供訓練資料的公司Scale AI 的行政總裁Alexandr Wang早前接受CNBC 採訪時表示,估計DeepSeek 擁有50,000 個市場上性能最強的輝達H100 晶片,而他聲稱這些晶片數量是不會被披露,因為這是違反美國對中國在晶片上的出口管制措施。而DeepSeek對有關言論亦未作出回應。
日前,伯恩斯坦研究公司 (Bernstein Research) 的分析師在一份研究報告中強調,DeepSeek 的 V3 模型的總訓練成本目前仍未清楚,但應該是遠高於該公司所聲稱的成本。而分析師亦表示,同樣廣受好評的R1模型軟件的訓練成本亦尚未揭露。不過,美國總統特朗普則表示,DeepSeek的出現導致美國的科技股暴跌,是對美國的公司敲起了一個警號。相信未來在人工智能軟件的開發上,都有一番龍爭虎鬥。詳情請收聽鄺美玲和梁焱剛的報道。