8日晚间,上海大模型独角兽企业阶跃星辰发布多模态推理模型Step-R1-V-Mini,这款模型支持图文输入和文字输出,能够高精度感知图像并完成复杂推理任务。

据悉,DeepSeek-R1为代表的推理模型,大多都是大语言模型,主要用于文本对话领域。而Step-R1-V-Mini可在多模态基础上实现推理能力,相当于大模型不仅能进行文字思考,还能对“看懂”图片再进行思考。目前,用户已经可以在阶跃AI网页端体验,该大模型还面向开发者推出API接口。

据阶跃星辰介绍,Step-R1-V-Mini具有超强的感知能力和推理能力,能精准捕捉画面中的各种细节,并基于用户指令进行深度推理,用户也可以清晰地看到Step-R1-V-Mini的思维链路。比如上传一张家常菜照片并询问菜品做法,模型可以清晰地识别出加工前使用的菜品、蘸料,并给出“虾仁300g、大葱白2根”等细节丰富的操作方式。

阶跃星辰新模型的测试结果。

Step-R1-V-Mini的模型性能在多个公开基准评测榜单中表现亮眼,在MathVision等视觉推理榜单中位列国内第一,在视觉推理、数学逻辑和代码等方面表现优异。

阶跃星辰创始人、CEO姜大昕表示,多模态和推理是“智能体”两大必备要素,今年将重点发力智能终端,新发布的Step-R1-V-Mini则是今年战略主线的最新进展。

来源:投资上海 Invest Shanghai

免责声明:凡本站注明稿件来源为“科普中国”、科普类微信公众号及互联网的文章,其转载目的在于传递更多信息并促进科学普及,但并不代表本站赞同其观点或对其内容的真实性、准确性负责,亦不构成任何形式的建议。若需转载本网站所提供的内容,请确保完整转载,并明确注明来源及原作者姓名。未经许可,转载内容不得用于任何商业目的。任何单位或个人若认为本网站或其链接内容涉嫌侵犯其合法权益,请及时向本网站提交书面反馈,并提供身份证明、权属证明及详细的侵权情况说明。本网站在收到上述法律文件后,将尽快处理并移除涉嫌侵权的内容或链接。