当前位置 > 散户吧 > 财经要闻 > 宏观经济 > 李国杰院士“七问”DeepSeek
李国杰院士“七问”DeepSeek
近日,DeepSeek的横空出世,在全球科技领域激起千层浪,引发了从学界到业界的广泛热议与深度思考。《科技导报》2025年第3期刊发李国杰院士的《DeepSeek引发的AI发展路径思考》一文,深入剖析了DeepSeek背后所蕴含的AI发展路径相关问题,见解深入、专业、富于启发,特此全文呈现给广大读者。
本文来自散户吧WWW.SANHUBA.COM
李国杰
本文来自散户吧WWW.SANHUBA.COM
1 为什么DeepSeek会引起全球性的科技震撼 本文来自散户吧WWW.SANHUBA.COM
DeepSeek的横空出世是人工智能(AI)发展史上新的标志性事件。7天之内DeepSeek的用户增长超过1亿,创造了用户增长速度新的世界纪录。与此同时,芯片巨头公司英伟达(NVIDIA)的股价单日暴跌17%,市值缩水5890亿美元,创下美国上市公司单日最大损失纪录。DeepSeek的崛起,打破了“高算力和高投入是发展人工智能唯一途径”和“集成电路制程优势=人工智能技术霸权”的迷信,引领人工智能行业进入以算法和模型架构优化为主,同时高度重视数据质量与规模、理性提高算力的新时期。同时,DeepSeek的崛起也标志着中国科技公司从“追赶者”变为“规则改写者”,在全球最关注的人工智能领域,以颠覆性的创新开始挑战西方在AI领域的霸权。 本文来自散户吧WWW.SANHUBA.COM
全球人工智能龙头企业纷纷拥抱DeepSeek,凸显其不可抗拒的影响力。微软最早宣布将DeepSeek R1模型添加到其云平台Azure AI Foundry,开发者可用于构建基于云的应用程序和服务。亚马逊云科技(AWS)、英伟达、超威半导体(AMD)等公司相继宣布在其AI服务平台上部署DeepSeek V3和R1模型。不管某些国家政府如何抵制,少数媒体如何恶意中伤,上亿用户和众多大公司根据DeepSeek的性价比和亲身体验做出选择,主动融入DeepSeek生态。DeepSeek推出的高效率、低成本的推理模型和开源商业模式,将引领人工智能行业新潮流。 本文来自散户吧WWW.SANHUBA.COM
DeepSeek的V3和R1模型广受欢迎,首先是因为其在模型算法和系统软件层次都有重大创新。DeepSeek-V3的模型参数量高达6710亿,但由于采用了自主研发的混合专家模型(MoE)架构,每一层有256个细分领域的路由专家和1个共享专家,每次调用只激活约370亿个参数,显著降低了训练计算成本。DeepSeek改进的多头潜在注意力机制(MLA),减少了键值缓存开销,把显存占用降到了其他大模型的5%~13%,极大提升了模型运行效率。DeepSeek-R1模型摒弃了传统的监督微调(SFT),开创性地提出群组相对策略优化(GRPO),直接通过强化学习从基础模型中激发推理能力,大幅降低了数据标注成本,简化了训练流程。DeepSeek揭示了一个真相,即推理模型的开发比想象中更为简单,各行各业都可以做。DeepSeek的这些发明并非首次提出来的原始创新,但DeepSeek通过艰苦的努力把技术做到极致,在前人公开成果基础上,登上新的技术高峰。 本文来自散户吧WWW.SANHUBA.COM
第3波人工智能兴起后,美国政府、AI龙头企业和投资界形成一个基本信念:发展人工智能需要高算力,而目前实现人工智能计算性能最高的芯片就是英伟达的GPU。因此,美国认为只要控制GPU的销售,就能在人工智能领域独霸全球。特朗普在就职典礼第2天就签署法案,启动星际之门计划,投资5000亿美元,打造人工智能的基础设施。可见,美国政府是把夯实人工智能的算力基础当成维持其全球领导地位的关键。以英伟达为代表的美国AI龙头企业,有真老虎的一面,也有纸老虎的另一面。初生牛犊不怕虎的年轻的中国科技工作者,在纸老虎上戳了一个洞,让世人看清了原来这只老虎也没有那么可怕。DeepSeek震撼全球就是揭示真相的威力。 本文来自散户吧WWW.SANHUBA.COM
2 “规模法则(Scaling Law)”是否已遇天花板
本文来自散户吧WWW.SANHUBA.COM
2020年1月,OpenAI发表论文《神经语言模型的规模法则》(Scaling Laws for Neural Language Models),提出规模法则:“通过增加模型规模、数据量和计算资源,可以显著提升模型性能。”在AI领域,规模法则被一些人认为是“公理”,俗称“大力出奇迹”,OpenAI等龙头企业和美国的AI投资界把它当成制胜法宝。但规模法则不是像牛顿定律一样经过无数次验证的科学定律,而是OpenAI等公司近几年研制大模型的经验归纳。从科学研究的角度看,属于一种对技术发展趋势的猜想;从投资的角度看,属于对某种技术路线的押注。人工智能是对未来技术的探索。技术路线存在多种可能,人工智能本身也存在多元化的目标,探索的道路上有很多高山需要去攀登,攀登一座高山的路径也不止一条。把一种信仰或猜想当成科学公理,不是科学的态度。近几年大模型训练的实际效果表明,要获得大模型性能的线性增长,必须在模型规模、数据量和算力投入上高指数性的增长,几个月就翻一倍。从GPT-3到GPT-4,参数规模增加约10倍,用于训练的GPU数量增加了近24倍,总计算量增加了近70倍。任何投入的高指数性增加都不可能是长久的,民航大飞机的速度提高、集成电路的主频提高等都是到适当的时候就停止了,大模型也应该不会破例。
本文来自散户吧WWW.SANHUBA.COM
(小编:财神)
相关新闻更多新闻>>
- ·【中国电建完成武汉最大“方舱医院”援建任务】2月19日凌晨1时,随着中国电建所属...10-03
- ·商务部:武汉目前生活必需品供应基本正常02-11
- · 图说丨“政策红包”来了!中长期资金入市有何作用?速看券商解读01-24
- · 中央经济工作会议定调!关注这八点!12-18
- ·【西藏连续16天无新增病例】2月15日上午,西藏自治区卫健委发布新型冠状病毒感染的...02-16
- · 国君固收:流动性重回平稳宽松03-11
- · 受马斯克热捧的ChatGPT 到底有多厉害?12-18
- ·武汉三甲医院急救中心:医护人员感染“减员”痊愈即返岗“补位”02-10
- · 电商平台策略调转车头 重视成交额淡化“卷价格”08-07
- ·突发利空:出手了!06-07
今日要闻更多>>
- ·供需拐点隐现 聚氨酯龙头业绩修复可期03-02
- ·全国糖酒会即将举办,食饮消费持续拉动,这些概念股频获调研03-02
- ·5巨头角逐,折叠屏手机迈入快车道03-02
- ·人形机器人必不可少的部件 3D视觉传感器有望快速放量03-02
- ·DeepSeek将尽快推出R2人工智能模型 机构看好AI应用加速爆发03-02
- ·Deepseek带来全新机遇 RISC-V架构芯片渗透率或将进一步加深03-02
- ·高瓴资产积极布局!最新关注了这些公司!03-02
- ·绿地集团发布入境旅游战略 推动绿地旅游业务5年内突破百亿规模03-02
- ·金价屡创新高!银行金条成“香饽饽”03-02
- ·光伏浪潮中的破局者:中信博的海外征程与技术革新03-02
财经要闻更多>>
- ·【元宇宙应用方向板块股票】2024年第二季度研发03-02
- ·华为智界股管理费用排行榜来啦!(2024年第二季03-02
- ·2024年第二季度:甲醇板块股票财务费用十大排名03-02
- ·[财经]耀磊汇国际投资团队:多元布局创佳绩 稳03-02
- ·撕开百威蜕变瓶,揭开新年好彩头 百威新春战役以「蜕变瓶」重构“年味儿”仪式感03-02
- ·攻坚加密资管三重困境,Cactus Custody 掀起加密资管革命03-02
- ·传承与创新 天安门文旅吉祥物IP破圈而来03-02
- ·2025成渝国际低空产业博览会将于9月在成都举行03-02
- ·餐饮供应增速明显,山葵说打造全链路供应体系03-02
- ·汇添富九州通医药REIT成功在上交所挂牌上市03-02