本公众号(fxkjwx)是奉贤区科学技术委员会的官方微信,提供奉贤科技政策、创新创业环境、智慧城市建设、各类科普资讯等方面推送服务。

  奉贤科委官方网页(https://www.fengxian.gov.cn/kw/),欢迎收藏浏览。

党的十八大以来,以习近平同志为核心的党中央始终坚持把科技创新摆在国家发展全局的核心位置,将其作为高质量发展的重要驱动力

党的二十届三中全会对科技体制改革作出部署,推动科技政策从各管一段向构建高效协同的政策体系转变,指出科技创新引领产业创新,为发展新质生产力夯实产业基础,要推动不同产业之间的跨界融合和协同发展,推进产业向高端化、智能化、绿色化发展。

蛇年新春钟声还未敲响,人工智能领域就迎来了新春大礼包,近日,通用人工智能模型AGI研发商DeepSeek受到了广泛关注。1月26日,DeepSeek相关话题已位列东方财富热榜话题榜第二名。

DeepSeek,这家成立于 2023 年 7 月的人工智能公司,犹如一匹横空出世的黑马,在短时间内迅速在 AI 领域崭露头角。它由知名量化资管巨头幻方量化创立,总部位于杭州 。幻方量化在量化投资领域积累的丰富技术与雄厚资源,为 DeepSeek 的技术研发提供了坚实的基础,使其从诞生之初就具备了强大的技术实力和创新能力。

27日,DeepSeek应用登顶苹果中国地区和美国地区应用商店免费App下载排行榜,在美区下载榜上超越了ChatGPT。

据悉,DeepSeek于2025年1月发布了性能比肩OpenAI o1正式版的DeepSeek-R1模型,该模型在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。

模型发布后引起了广泛热议,CNBC称:“一家鲜为人知的中国人工智能实验室发布了人工智能模型,尽管其搭建成本更低,但性能却超越美国最好的人工智能模型,这引发了整个硅谷的恐慌。”

图丨Google 新闻首页推荐内容(来源:Google)

最直接的冲击体现在同样倡导开源的 Meta 上。据美国匿名职场社区 teamblind 爆料,DeepSeek 的一系列动作已经让 Meta 的生成式 AI 团队陷入恐慌。一位 Meta 员工在帖子中写道:“工程师们正在疯狂地分析 DeepSeek,试图从中复制任何可能的东西。这一点都不夸张。”更令他们担忧的是,“当生成式 AI 组织中的每个‘领导’的薪资都比训练整个 DeepSeek-V3 的成本还要高,而我们有好几十个这样的‘领导’时,他们要如何面对高层?”

尽管 Meta 的首席 AI 科学家 Yann LeCun 强调,这不应被解读为“中国在 AI 领域超越美国”,而是“开源模型正在超越专有模型”。然而,扎克伯格随后的举措还是暴露了 Meta 的焦虑:宣布加速研发 Llama 4,计划投资 650 亿美元扩建数据中心,并部署 130 万枚 GPU 以“确保 2025 年 Meta AI 成为全球领先模型”。

图丨扎克伯格在相关贴文中附上的 2 吉瓦数据中心位置图(来源:Facebook)

低成本、高性能

DeepSeek-R1模型最显著的特点是较强的性能与较低的成本。

公开信息显示,DeepSeek-R1的性能可对标OpenAI o1正式版,但DeepSeek-R1 API服务定价为每百万输入tokens1元(缓存命中)/4元(缓存未命中),每百万输出tokens16元。有业内人士向记者表示,这个收费标准大约是OpenAI o1运行成本的三十分之一。

DeepSeek-R1 API价格

DeepSeek-AI团队的论文显示,DeepSeek R1的技术关键点在于其创新的训练方法——DeepSeek-R1-Zero路线,传统LLM的推理能力通常需要大量人工标注的监督数据,而该路线直接将强化学习(RL)应用于基础模型,无需依赖监督微调(SFT)和已标注数据。

事实上,低成本、高性能一直是DeepSeek模型的“卖点”。

DeepSeek曾于2024年12月推出DeepSeek-V3模型,其多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

值得注意的是,该模型仅用了两个月的时间和不到600万美元就开发完成,且模型训练使用的是性能受限的英伟达H800显卡。与之相对的,Meta的Llama-3.1-405B的训练成本高达6000万美元,使用的计算资源是 DeepSeek-V3的11倍。

在美国匿名职场社区teamblind上,已有Meta员工表示DeepSeek的低成本和高效能让团队面临预算合理性的问题:“生成式AI开发团队中的每个领导的薪酬都比整个DeepSeek-V3的成本还要高,而我们有好几十个这样的领导。”

市场反响激烈

微软首席执行官萨提亚·纳德拉(Satya Nadella)在达沃斯世界经济论坛上表示:“DeepSeek的新模型令人印象深刻,他们不仅有效地开发出了一个能够进行推理时计算的开源模型,而且计算效率极高。”

经济学人指出,目前美国训练一个大语言模型要花费数千万美元,而DeepSeek的支出不到600万美元。这种廉价训练正随着模型设计的发展改变整个行业,可能导致更多针对特定用途的专业模型涌现,打破赢者通吃的市场格局。

此外,AMD宣布DeepSeek-V3模型已集成至Instinct MI300X GPU上,并借助SGLang进行了性能优化。AMD还表示,此次集成将有助于加速尖端人工智能应用的发展。

据技术文档,DeepSeek-V3训练提效的原因主要包括:低精度计算、小参数量和高质量数据等。最重要的是,该模型使用数据蒸馏技术(Distillation)生成的高质量数据提升了训练效率。

“数据蒸馏”是大数据技术中的一个概念,指的是通过一系列算法和策略,将原始的、复杂的数据进行去噪、降维、提炼等操作,从而得到更为精炼、有用的数据。说穿了,就是“站在巨人的肩膀上”。

在此可以举一个类似的例子:两个水平相当的销售,如果一个人手中拿的是高意向名单,另外一个人拿的是底层名单(没有经过筛选的),毫无疑问,前者的成单率一定会远远高于后者!

不过,蒸馏技术并不是十全十美。有学者认为,蒸馏技术虽然可以提高模型训练效率,但借此开发的模型无法超越基础模型的能力,在多模态数据方面效果不好,而且会导致研发人员为了快速取得成果而放弃对基础模型的探索。

模型在训练中展现出类似人类的“反思”行为,例如主动暂停推理、重新评估解题步骤并探索替代方案。这种自发的“顿悟时刻”被视为强化学习能力的自然涌现,而非人工编程设计。

DeepSeek-V3模型使用界面。

DeepSeek的热度高涨也引起了国内资本市场的关注。相关业内人士表示,人工智能有望在春节前后继续成为资本市场追逐的热点板块。

当前,上海正加快推进“五个中心”建设,而奉贤也积极融入上海建设具有全球影响力的科创中心大局,认真践行“五个创新”理念,加快形成南上海科创中心框架体系,致力于培育、招引、集聚一批像杭州深度求索人工智能基础技术研究有限公司这样的企业,为区域经济高质量发展提供坚实的科技支撑。

内容综合自: 上海证券报、DeepTech深科技、封面新闻

-END-

奉贤科技

奉贤科技

政策口袋书

扫一扫二维码

了解更多信息

免责声明:凡本站注明稿件来源为“科普中国”、科普类微信公众号及互联网的文章,其转载目的在于传递更多信息并促进科学普及,但并不代表本站赞同其观点或对其内容的真实性、准确性负责,亦不构成任何形式的建议。若需转载本网站所提供的内容,请确保完整转载,并明确注明来源及原作者姓名。未经许可,转载内容不得用于任何商业目的。任何单位或个人若认为本网站或其链接内容涉嫌侵犯其合法权益,请及时向本网站提交书面反馈,并提供身份证明、权属证明及详细的侵权情况说明。本网站在收到上述法律文件后,将尽快处理并移除涉嫌侵权的内容或链接。