当前位置 > 散户吧 > 财经要闻 > 宏观经济 > 李国杰院士“七问”DeepSeek

李国杰院士“七问”DeepSeek

发布时间：2025-03-03 18:02来源：全球财经散户吧字号：大中小

近日，DeepSeek的横空出世，在全球科技领域激起千层浪，引发了从学界到业界的广泛热议与深度思考。《科技导报》2025年第3期刊发李国杰院士的《DeepSeek引发的AI发展路径思考》一文，深入剖析了DeepSeek背后所蕴含的AI发展路径相关问题，见解深入、专业、富于启发，特此全文呈现给广大读者。

本文来自散户吧WWW.SANHUBA.COM

李国杰

本文来自散户吧WWW.SANHUBA.COM

1 为什么DeepSeek会引起全球性的科技震撼 本文来自散户吧WWW.SANHUBA.COM

DeepSeek的横空出世是人工智能（AI）发展史上新的标志性事件。7天之内DeepSeek的用户增长超过1亿，创造了用户增长速度新的世界纪录。与此同时，芯片巨头公司英伟达（NVIDIA）的股价单日暴跌17%，市值缩水5890亿美元，创下美国上市公司单日最大损失纪录。DeepSeek的崛起，打破了“高算力和高投入是发展人工智能唯一途径”和“集成电路制程优势=人工智能技术霸权”的迷信，引领人工智能行业进入以算法和模型架构优化为主，同时高度重视数据质量与规模、理性提高算力的新时期。同时，DeepSeek的崛起也标志着中国科技公司从“追赶者”变为“规则改写者”，在全球最关注的人工智能领域，以颠覆性的创新开始挑战西方在AI领域的霸权。本文来自散户吧WWW.SANHUBA.COM

全球人工智能龙头企业纷纷拥抱DeepSeek，凸显其不可抗拒的影响力。微软最早宣布将DeepSeek R1模型添加到其云平台Azure AI Foundry，开发者可用于构建基于云的应用程序和服务。亚马逊云科技（AWS）、英伟达、超威半导体（AMD）等公司相继宣布在其AI服务平台上部署DeepSeek V3和R1模型。不管某些国家政府如何抵制，少数媒体如何恶意中伤，上亿用户和众多大公司根据DeepSeek的性价比和亲身体验做出选择，主动融入DeepSeek生态。DeepSeek推出的高效率、低成本的推理模型和开源商业模式，将引领人工智能行业新潮流。本文来自散户吧WWW.SANHUBA.COM

DeepSeek的V3和R1模型广受欢迎，首先是因为其在模型算法和系统软件层次都有重大创新。DeepSeek-V3的模型参数量高达6710亿，但由于采用了自主研发的混合专家模型（MoE）架构，每一层有256个细分领域的路由专家和1个共享专家，每次调用只激活约370亿个参数，显著降低了训练计算成本。DeepSeek改进的多头潜在注意力机制（MLA），减少了键值缓存开销，把显存占用降到了其他大模型的5%~13%，极大提升了模型运行效率。DeepSeek-R1模型摒弃了传统的监督微调（SFT），开创性地提出群组相对策略优化（GRPO），直接通过强化学习从基础模型中激发推理能力，大幅降低了数据标注成本，简化了训练流程。DeepSeek揭示了一个真相，即推理模型的开发比想象中更为简单，各行各业都可以做。DeepSeek的这些发明并非首次提出来的原始创新，但DeepSeek通过艰苦的努力把技术做到极致，在前人公开成果基础上，登上新的技术高峰。本文来自散户吧WWW.SANHUBA.COM

第3波人工智能兴起后，美国政府、AI龙头企业和投资界形成一个基本信念：发展人工智能需要高算力，而目前实现人工智能计算性能最高的芯片就是英伟达的GPU。因此，美国认为只要控制GPU的销售，就能在人工智能领域独霸全球。特朗普在就职典礼第2天就签署法案，启动星际之门计划，投资5000亿美元，打造人工智能的基础设施。可见，美国政府是把夯实人工智能的算力基础当成维持其全球领导地位的关键。以英伟达为代表的美国AI龙头企业，有真老虎的一面，也有纸老虎的另一面。初生牛犊不怕虎的年轻的中国科技工作者，在纸老虎上戳了一个洞，让世人看清了原来这只老虎也没有那么可怕。DeepSeek震撼全球就是揭示真相的威力。本文来自散户吧WWW.SANHUBA.COM

2 “规模法则（Scaling Law）”是否已遇天花板

本文来自散户吧WWW.SANHUBA.COM

2020年1月，OpenAI发表论文《神经语言模型的规模法则》（Scaling Laws for Neural Language Models），提出规模法则：“通过增加模型规模、数据量和计算资源，可以显著提升模型性能。”在AI领域，规模法则被一些人认为是“公理”，俗称“大力出奇迹”，OpenAI等龙头企业和美国的AI投资界把它当成制胜法宝。但规模法则不是像牛顿定律一样经过无数次验证的科学定律，而是OpenAI等公司近几年研制大模型的经验归纳。从科学研究的角度看，属于一种对技术发展趋势的猜想；从投资的角度看，属于对某种技术路线的押注。人工智能是对未来技术的探索。技术路线存在多种可能，人工智能本身也存在多元化的目标，探索的道路上有很多高山需要去攀登，攀登一座高山的路径也不止一条。把一种信仰或猜想当成科学公理，不是科学的态度。近几年大模型训练的实际效果表明，要获得大模型性能的线性增长，必须在模型规模、数据量和算力投入上高指数性的增长，几个月就翻一倍。从GPT-3到GPT-4，参数规模增加约10倍，用于训练的GPU数量增加了近24倍，总计算量增加了近70倍。任何投入的高指数性增加都不可能是长久的，民航大飞机的速度提高、集成电路的主频提高等都是到适当的时候就停止了，大模型也应该不会破例。

本文来自散户吧WWW.SANHUBA.COM

(小编：财神)