sunbet(中国区)官方网站

产品及服务 AI原生赋能平台 智算基础设施 AI算力调度与加速平台 申博sunbet太阳城DeepSeek版 DC·AI生态创新中心 行业解决方案 汽车 金融 医疗医药 合作伙伴 产品技术伙伴 联盟合作伙伴 sunbet申搏 关于申博太阳城 关于我们 企业文化 ESG 联系我们 sunbet(中国区)官方网站
2025/12/06
申博太阳城行业首个!商汤正式开源原生多模态架构NEO训练仅需110数据量|安倍夏

  智东西12月2日消息★ღ★ღ,昨天★ღ★ღ,商汤科技正式发布并开源了全新多模态模型架构NEO★ღ★ღ,该架构由商汤科技和新加坡南洋理工大学AI技术实验室S-Lab合作研发★ღ★ღ,是行业首个可用的★ღ★ღ、实现深层次融合的原生多模态架构★ღ★ღ,基于NEO架构的NEO模型仅用3.9亿训练数据★ღ★ღ,就达到了模块化架构下顶级VLM(视觉-语言模型)模型的性能★ღ★ღ,数据量仅需其他同等性能模型的1/10★ღ★ღ。

  从基准测试来看★ღ★ღ,NEO模型在多模态能力综合评估★ღ★ღ、跨学科和复杂推理等多项指标中碾压上海AI Lab推出的Mono-InternVL-1.5★ღ★ღ、清华大学★ღ★ღ、上海AI Lab联合商汤推出的HoVLE等原生VLM模型安倍夏树★ღ★ღ,还在多项视觉理解任务中追平通义千问的视觉语言模型Qwen2-VL★ღ★ღ、上海AI Lab联合商汤推出的InternVL3等基于模块化架构的顶级VLM模型申博太阳城★ღ★ღ。

  当前★ღ★ღ,业内主流的多模态模型大多遵循“视觉编码器+投影器+语言模型”的模块化范式★ღ★ღ,本质上仍以语言为中心★ღ★ღ,图像与语言的融合仅停留在数据层面申博太阳城★ღ★ღ,视觉编码和语言解码分离★ღ★ღ,模型学习效率低下★ღ★ღ,在复杂多模态场景下处理任务受限申博太阳城★ღ★ღ。

  为此★ღ★ღ,商汤科技抛弃了传统的模块化结构★ღ★ღ,推出从零设计的NEO原生架构★ღ★ღ。NEO架构在注意力机制★ღ★ღ、位置编码和语义映射进行了底层创新★ღ★ღ,构建一个统一的原生基元★ღ★ღ,让模型具备统一处理视觉与语言的能力★ღ★ღ。

  NEO架构相关论文已发布在arXiv上★ღ★ღ,题为《从像素到文字——迈向大规模的原生视觉语言原始基元(From Pixels to Words — Towards Native Vision-Language Primitives at Scale)》★ღ★ღ,商汤科技联合创始人申博太阳城★ღ★ღ、执行董事及AI基础设施和大模型首席科学家林达华博士★ღ★ღ,南洋理工大学S-Lab负责人★ღ★ღ、副教授刘子纬等均在该论文的作者行列★ღ★ღ。

  基于NEO架构★ღ★ღ,研究人员推出了两个参数的VLM模型★ღ★ღ:NEO-2.2B和NEO-9B★ღ★ღ,这两个模型利用Qwen3-1.7B和Qwen3-8B两个基础语言模型作为基础语言模型★ღ★ღ,添加了原生视觉组件★ღ★ღ。

  在基准测试中申慱sunbet★ღ★ღ,★ღ★ღ,研究人员把NEO-2.2B★ღ★ღ、NEO-9B和同级别VLM模型进行对比★ღ★ღ,包括模块化架构的VLM模型InternVL3★ღ★ღ、Qwen2.5-VL等安倍夏树★ღ★ღ,以及原生VLM模型Mono-InternVL-1.5★ღ★ღ、HoVLE等★ღ★ღ。为了进行公平★ღ★ღ、可控的科学对比★ღ★ღ,研究人员专门构建了一个模块化VLM基线模型Encoder-Based作为对照★ღ★ღ。

  从通用视觉语言的理解能力来看菲律宾申慱sunbet★ღ★ღ,★ღ★ღ,与模块化VLM相比★ღ★ღ,NEO在2B和8B参数规模下表现都不错★ღ★ღ,NEO-2.2B和NEO-9B在多模态能力综合评估★ღ★ღ、跨学科和复杂推理等多个关键指标优于模块化VLM Encoder-Based★ღ★ღ;在同参数规模下★ღ★ღ,NEO几乎全面领先其他原生VLMsunbet(中国区)官方网站★ღ★ღ,★ღ★ღ。

  值得一提的是★ღ★ღ,NEO仅使用约3.9亿训练数据★ღ★ღ,而InternVL3等模块化架构的顶级VLM模型至少使用了60亿训练数据申博sunbet★ღ★ღ,★ღ★ღ,是NEO所需数据的15倍★ღ★ღ。

  视觉任务测试中★ღ★ღ,在图表理解和文档结构理解任务上★ღ★ღ,NEO-2.2B和NEO-9B都表现出接近顶级模块化模型水平★ღ★ღ。

  不过★ღ★ღ,NEO的密集文本识别和理解能力仍存在不足安倍夏树★ღ★ღ,几乎落后于所有模块化模型★ღ★ღ,在原生模型的对比中也不占优★ღ★ღ。NEO-9B在文档问答和图像中的文本问答能力的得分略低于NEO-2.2B★ღ★ღ。

  研究人员指出★ღ★ღ,密集文本识别和理解能力不足是由于训练数据中此类高质量★ღ★ღ、知识密集型样本的不足★ღ★ღ,而NEO-9B的得分低于NEO-2.2B则是由于当前训练数据集的覆盖范围和知识密度有限★ღ★ღ。

  此外★ღ★ღ,NEO在边缘部署方面具有优势★ღ★ღ,特别是在0.6B-8B的参数区间内★ღ★ღ,便于计算资源有限或实时性要求严格的场景应用★ღ★ღ。

  NEO架构通过在注意力机制安倍夏树★ღ★ღ、位置编码和语义映射三个关键维度的底层创新★ღ★ღ,让模型天生具备了统一处理视觉与语言的能力★ღ★ღ:

  1★ღ★ღ、原生图块嵌入(Native Patch Embedding)★ღ★ღ: 这一方法摒弃了离散的图像tokenizer★ღ★ღ,通过独创的图块嵌入层(Patch Embedding Layer ★ღ★ღ,PEL)自底向上构建从像素到词元的连续映射★ღ★ღ。

  2安倍夏树安倍夏树★ღ★ღ、原生三维旋转位置编码(Native-RoPE)★ღ★ღ:NEO架构解耦了三维时空频率分配★ღ★ღ,为三个维度设定了不同的旋转基频率★ღ★ღ。视觉维度采用高频频率★ღ★ღ,便于模型理解空间布局和细粒度对齐★ღ★ღ;文本维度采用低频频率★ღ★ღ,兼容了预训练语言模型的旋转位置编码(RoPE)设置★ღ★ღ。由此★ღ★ღ,训练后的模型具备向视频处理sunbet官网★ღ★ღ,★ღ★ღ、跨帧建模等复杂场景扩展的潜力★ღ★ღ。

  3★ღ★ღ、原生多头注意力(Native Multi-Hea´d Attention)★ღ★ღ:针对不同模态特点★ღ★ღ,NEO在统一框架下实现了文本token的自回归注意力和视觉token的双向注意力并存★ღ★ღ。基于此★ღ★ღ,模型可以无视线性化顺序★ღ★ღ,直接根据原生三维旋转位置编码(Native-RoPE)的二维坐标来学习任意两个空间区域的语义和几何关系申博太阳城★ღ★ღ,以支撑复杂的图文混合理解与推理★ღ★ღ。

  在预训练阶段★ღ★ღ,训练的主要工作是学习基础视觉概念和上下文关系★ღ★ღ,并在预训练语言模型的指导下★ღ★ღ,初步建立图像与文本之间的对齐★ღ★ღ。NEO架构采用了Pre-Buffer(NEO中新增的视觉层)和Post-LLM(NEO中的语言大脑)分离式预训练★ღ★ღ,这一阶段Post-LLM被冻结★ღ★ღ,Pre-Buffer需要从头开始学习视觉感知能力★ღ★ღ,这保护了语言模型不被低质量的图像-文本对破坏★ღ★ღ,实现跨模态学习★ღ★ღ。这一阶段使用了约3.45亿的网络和合成的图像-文本对的数据★ღ★ღ。

  中期训练阶段的核心目标是强化视觉与语言能力的对齐★ღ★ღ,提升模型对高分辨率图像★ღ★ღ、复杂场景★ღ★ღ、小物体和OCR文本的感知能力★ღ★ღ。这一阶段的训练数据来自InternVL-1.5的预训练语料库sunbet集团中国官网入口★ღ★ღ。★ღ★ღ,包含4000万样本数据★ღ★ღ,整个架构使用相同的损失函数进行更新★ღ★ღ,以巩固视觉-语言对齐★ღ★ღ。

  在监督微调阶段★ღ★ღ,NEO能够遵循复杂指令★ღ★ღ、进行多轮对话和执行多样化任务★ღ★ღ,更适用于实际应用★ღ★ღ。研究人员使用约400万高质量★ღ★ღ、多来源的指令数据★ღ★ღ,涵盖视觉问答★ღ★ღ、多模态对话★ღ★ღ、数学推理★ღ★ღ、知识问答等多种任务★ღ★ღ。

  阶段式训练不仅防止了视觉训练破坏已有的语言能力★ღ★ღ,确保稳定优化★ღ★ღ,还能实现模型能力从基础的视觉概念到复杂指令的平滑过渡★ღ★ღ。

  NEO系列模型实现了模型数据训练的高效性★ღ★ღ,其性能在同等参数规模原生VLM模型中处于领先地位★ღ★ღ。在图表和文档结构化理解上申博太阳城★ღ★ღ,NEO模型具有明显优势和竞争力★ღ★ღ。受制于训练数据和计算资源★ღ★ღ,NEO模型仍表现出了媲美顶尖模块化VLM的实力★ღ★ღ。

  NEO模型还存在密集文本识别和理解能力的不足★ღ★ღ、依赖外部知识的短板★ღ★ღ。不过★ღ★ღ,研究人员指出这并非是架构的缺陷★ღ★ღ,而是训练数据集的覆盖范围★ღ★ღ、知识密集型样本★ღ★ღ、高质量数据的不足安倍夏树申博太阳城★ღ★ღ。

  研究人员称★ღ★ღ,未来他们将会探索更大规模的NEO模型★ღ★ღ,解决知识和文本理解短板★ღ★ღ,开发稀疏架构★ღ★ღ,探索视频★ღ★ღ、

申博太阳城行业首个!商汤正式开源原生多模态架构NEO训练仅需110数据量|安倍夏
sunbet(中国区)官方网站|http://www.wiszone.com