是什麼

DeepSeek 是一家來自中國的人工智能公司,專注於大語言模型的研發,並以發佈開源或開放權重的模型而受到關注。它的多款模型在公開評測中展現出有競爭力的能力,同時強調在訓練與推理上的成本效率,常被視為「在有限算力下做強模型」路線的代表。

為什麼重要

DeepSeek 引發廣泛討論的關鍵,在於它推動了關於「訓練頂尖模型究竟需要多少算力」的重新審視。其相對高效的做法,提示模型能力不只取決於堆疊算力,也取決於數據、架構與工程優化。開放權重的策略也讓更多開發者能夠在其基礎上構建應用,影響了開源與閉源路線的競爭格局。

與五層蛋糕的關係

DeepSeek 位於「五層蛋糕」的「模型」層。它向下依賴「基礎設施」與「芯片」層提供算力,但其效率導向的路線,正是在探討這層對下層算力的依賴能壓縮到何種程度。向上,它通過開放模型為「應用」層提供可自由調用與微調的基礎,豐富了模型層的供給生態。

API 價格

DeepSeek 各代模型以高性價比著稱。其 API 價格(收費標準)、上下文窗口與歷次調價記錄,可在本站大模型庫逐一查看——如 DeepSeek R1DeepSeek V4 Pro