当前位置 > 散户吧 > 今日要闻 > 昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代
昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代
3月18日,昆仑万维正式开源首款工业界多模态思维链推理模型Skywork R1V,即日起开源模型权重和技术报告。
本文来自散户吧WWW.SANHUBA.COM
本文来自散户吧WWW.SANHUBA.COM
开启多模态思考新时代 本文来自散户吧WWW.SANHUBA.COM
继OpenAI o1和DeepSeek-R1在全球掀起长思考模型热潮后,大模型进入新技术范式。昆仑万维秉持实现 AGI 的初心,积极贡献开源社区,正式开源Skywork R1V多模态视觉推理模型,成为中国第一个开源“多模态推理模型”的企业。
本文来自散户吧WWW.SANHUBA.COM
什么是视觉推理模型?
本文来自散户吧WWW.SANHUBA.COM
视觉推理模型是一类能够解决需要思维链(Chain-of-Thought)的视觉任务的模型,通过对视觉信息进行多步逻辑推理与分析,逐步推导出最终结果。这种模型不仅关注图像内容的识别与理解,更强调通过层层递进的推理路径,实现复杂视觉问题的精准求解,例如视觉逻辑推理、视觉数学问题、图像中的科学现象分析、医学影像的诊断推理等,从而有效拓展了视觉大模型的应用边界。 本文来自散户吧WWW.SANHUBA.COM
无论是日常繁琐的工作任务、复杂的数据分析、难以解答的学术问题,还是前所未见的陌生场景,都可以交给Skywork R1V进行高效处理。 本文来自散户吧WWW.SANHUBA.COM
快速体验下来,R1V的视觉理解和推理能力双双在线。这样的模型能力是如何炼成的呢? 本文来自散户吧WWW.SANHUBA.COM
强大推理能力,刷新跨模态任务新高度 本文来自散户吧WWW.SANHUBA.COM
在Reasoning推理能力方面,Skywork R1V实现了模型的顶尖逻辑推理与数学分析能力。在权威的MATH500和AIME基准测试中,Skywork R1V分别取得了94.0和72.0的高分,明显领先于行业内众多主流模型。Skywork R1V在纯文本复杂推理任务中展现出卓越性能,使其在逻辑推理和数学问题求解领域展现出人类专家级别的水准。 本文来自散户吧WWW.SANHUBA.COM
在Vision视觉理解能力方面,Skywork R1V成功地将其强大的文本推理与思维链推导能力高效迁移到视觉任务中。凭借创新的跨模态迁移技术与推理优化框架,Skywork R1V能够高效解决需要多步视觉推理的问题,在MMMU与MathVista等视觉推理基准中分别取得了69和67.5的优异成绩。这些结果不仅明显超越了多个近似大小的开源竞争模型,更达到与规模更大的闭源模型媲美的水准,充分证实了Skywork R1V在需要视觉思维链推理的跨模态任务中的领先优势。
Skywork R1V通过视觉与文本能力的深度融合和视觉思维链推理能力的突破,推动了多模态推理模型的进一步发展,标志着人工智能领域的又一重大进步。 本文来自散户吧WWW.SANHUBA.COM
目前,Skywork R1V已全面开源,期望助力全球范围内更多视觉推理任务的学术研究与产业应用探索。
本文来自散户吧WWW.SANHUBA.COM
和开源同规模或更大规模模型的对比,Skywork R1V 38B体现出行业显著优异的推理能力,以及领先的多模态视觉理解能力。如下图,与开源同规模或更大规模模型的对比: 本文来自散户吧WWW.SANHUBA.COM
本文来自散户吧WWW.SANHUBA.COM
与闭源头部模型性能对比,R1V 38B模型性能媲美甚至超越更大开源模型以及主流闭源模型。如下图,与开源大尺寸模型与闭源专有模型的对比:
本文来自散户吧WWW.SANHUBA.COM
本文来自散户吧WWW.SANHUBA.COM
三大核心技术创新,引领视觉推理新突破 本文来自散户吧WWW.SANHUBA.COM
Skywork R1V能够达到当前的性能高度,依赖于以下三项关键技术创新:
本文来自散户吧WWW.SANHUBA.COM
1、文本推理能力的多模态高效迁移 本文来自散户吧WWW.SANHUBA.COM
昆仑万维团队首次提出利用Skywork-VL的视觉投影器,无需重新训练语言模型和视觉编码器,即可实现文本推理能力的高效迁移到视觉任务,同时保留了优秀的原本推理文本能力(AIME 72.0,MATH500 94.0)。
本文来自散户吧WWW.SANHUBA.COM
2、多模态混合式训练(Iterative SFT+GRPO) 本文来自散户吧WWW.SANHUBA.COM
通过结合迭代监督微调(Iterative SFT)和GRPO强化学习,分阶段对齐视觉-文本表征,实现跨模态任务的高效融合,极大提升跨模态任务的表现。推动模型在MMMU基准达到69分的能力,同时在MathVista达到67.5分,与更大规模的闭源模型基本持平。通过反复迭代地利用高质量数据与高难度数据的组合,实现模型持续的知识巩固与错误纠正,显著提升了多模态推理的精度与泛化性能。 本文来自散户吧WWW.SANHUBA.COM
本文来自散户吧WWW.SANHUBA.COM
图丨多模态混合式训练(来源:Skywork R1V技术报告) 本文来自散户吧WWW.SANHUBA.COM
3、自适应长度思维链蒸馏 本文来自散户吧WWW.SANHUBA.COM
团队提出了一种基于视觉-文本复杂度的自适应推理链长度控制机制,动态优化模型推理过程,避免模型“过度思考”,提升推理效率。结合多阶段自蒸馏策略,进一步提升了数据生成与推理过程的质量,促进了模型在复杂多模态任务中的表现。 本文来自散户吧WWW.SANHUBA.COM
本文来自散户吧WWW.SANHUBA.COM
本文来自散户吧WWW.SANHUBA.COM图丨自适应长度思维链蒸馏(来源:Skywork R1V技术报告)
Skywork R1V在训练过程中创新性地采用了三阶段方法,使得文本端强大的推理能力得以高效迁移至视觉任务上,具体训练流程如下: 本文来自散户吧WWW.SANHUBA.COM
1、STEP1 视觉语言表征的初始对齐
(小编:财神)
相关新闻更多新闻>>
- · 千味央厨不超5.9亿定增获深交所通过 中德证券建功07-27
- · 从资本大佬新增仓 看未来A股机会在哪儿02-21
- · 数字经济如何实现高质量加速跑09-27
- · 虎牙发布2024年Q1财报:毛利率提升至14.7%,净利润同比增长79.3%05-16
- · 618期间京东支付新用户同比增长60%06-20
- · 西藏珠峰控股股东所持股份再遭处置 海外盐湖提锂项目进展受关注10-04
- · 西上海:拟500万元参与认购上海石雀安亭麒麟基金份额06-09
- · 承诺绝不涨价却被查价格违法 老百姓大药房接连打脸02-14
- · 复星系继续减持金徽酒5%股权07-27
- · 明牌珠宝:公司及相关人员收到浙江证监局警示函03-07
今日要闻更多>>
- ·钨合金产品板块上市公司盘点(3月18日)03-18
- ·上海建工集团投资公司49亿私募债获受理03-18
- ·超九成百亿级私募盈利 高仓位“春耕”成共识03-18
- ·百亿私募积极布局港股 科网、医疗股受追捧03-18
- ·业绩回暖下,百亿级私募的进攻态势愈发显着03-18
- ·私募基金管理人结构进一步优化03-18
- ·沪指窄幅震荡小幅涨0.19%,华为海思、环保概念股03-18
- ·南华仪器属于烟气安全检测分析仪器概念股吗?03-18
- ·散户必看!a股医疗目录受益股名单梳理(2025/303-18
- ·英飞拓是不是龙头企业?(2025/3/18)03-18
财经要闻更多>>
- ·亚辉龙:取得两项计算机软件著作权登记证书 有利于提升公司综合竞争力03-18
- ·徐工集团举办第九届科技创新大会 吹响“科技创新打头阵”冲锋号03-18
- ·好消息!市场易营销自动化平台全面接入DeepSeek03-18
- ·徐工机械:徐工重型再度入选全国工信系统先进集体拟表彰名单03-18
- ·宁波建工:子公司中标4.24亿元房地产开发建设施工总承包项目03-18
- ·金利华电:子公司中标约9529万元南方电网招标项目03-18
- ·福耀科技大学的未来发展之路: 著名爱国人士华国中心中的榜样陈嘉庚和曹德旺03-18
- ·京东金融协助警方破获金融骗局,反催收风险需警惕03-18
- ·万元奶粉赠送,金领冠为三孩家庭加“育儿底气”03-18
- ·祥鑫科技:公司分别与三度智能、武迪电子签署战略合作协议03-18





