400 128 6709

行业新闻

Jina-VLM:可在笔记本上跑的多语言视觉小模型

发布时间:2025-12-13点击次数:

ai 搜索公司 jina ai 正式推出全新视觉语言大模型 jina-vlm,该模型拥有 24 亿参数,是当前开源领域中规模达 20 亿级的 vlm 中,在多语言视觉问答任务上表现最为领先的模型。

Jina-VLM:可在笔记本上跑的多语言视觉小模型

Jina-VLM 创新性地融合了 SigLIP2 视觉编码器与 Qwen3 语言主干网络,并通过注意力池化连接器(Attention Pooling Connector)实现高效跨模态对齐。这一设计使其在覆盖 29 种语言的多语言场景下均展现出强大性能,同时兼顾推理速度与资源占用。其整体架构如图所示,清晰呈现了“SigLIP2 视觉编码器 → VL-Connector → Qwen3 语言基座”的信息流向。

Jina-VLM:可在笔记本上跑的多语言视觉小模型

得益于轻量化的结构设计与优化策略,Jina-VLM 对硬件要求极低,可在主流消费级 GPU 或 Apple M 系列芯片的 MacBook 上稳定、流畅运行。

实测结果显示:无论是在标准视觉问答(VQA)、多语言多模态理解(MMMB、MMBench),还是 OCR 解析与纯文本推理(如常识问答、数学推理)等多样化任务中,Jina-VLM 均达到同参数量级模型中的顶尖水平,并同步实现了面向消费级设备的高度友好型推理效率

  • 多语言多模态理解(MMMB SOTA):在阿拉伯语、中文、英语、葡萄牙语、俄语及土耳其语六大语种组成的 MMMB 基准测试中,Jina-VLM 以 78.8 分的综合得分位居榜首,充分验证其卓越的跨语言视觉语义理解能力(参见图 1 & 图 2)。
  • 高难度视觉问答(VQA):在 ChartQA(图表理解)、DocVQA(文档问答)、TextVQA(场景文字识别问答)以及 CharXiv(科学图表解析)等多项极具挑战性的评测中,模型均保持稳健且精准的表现(参见图 3)。
  • 视觉增强不损语言能力:多数视觉语言模型在强化图像理解能力时往往导致文本能力下降。而 Jina-VLM 凭借独特的训练范式,在 MMLU(大规模多任务语言理解)和 GSM-8K(小学数学应用题)等纯文本基准上,几乎完整继承了 Qwen3 原始基座的强大语言能力(参见图 5)。

Jina-VLM:可在笔记本上跑的多语言视觉小模型

拾贝 拾贝

一键同步微信读书所有笔记和划线,并在新标签页回顾

拾贝 186 查看详情 拾贝

Jina-VLM:可在笔记本上跑的多语言视觉小模型

Jina-VLM:可在笔记本上跑的多语言视觉小模型

Jina-VLM:可在笔记本上跑的多语言视觉小模型

Jina-VLM:可在笔记本上跑的多语言视觉小模型

论文地址:https://www.php.cn/link/3a532033aa5b0c64d1a7b2b13e4b5d33
Hugging Face 模型页:https://www.php.cn/link/76daf89ce28106580694a0eea18a27ee

源码获取:点击下载

以上就是Jina-VLM:可在笔记本上跑的多语言视觉小模型的详细内容,更多请关注其它相关文章!


# 葡萄牙语  # 热播韩剧网站建设文案  # 细胞神曲seo介绍  # 锦州推广seo  # 竞速电影网站建设  # 紫川网站建设  # 免费推广的软件下载网站  # 荆门seo推广视频公司  # 河源全网推广营销公司  # 北京网店营销推广方案  # 减肥产品创业推广营销  # 自驾  # 正式发布  # 阿拉伯语  # 编码  # 史上  # 彻头彻尾  # 基座  # 拾贝  # 可在  # qwen  # 大模型  # 多语言  # apple  # ai  # mac  # macbook  # app 


相关栏目: 【 行业新闻62819 】 【 科技资讯67470


相关推荐: 乐天派桌面机器人加入小米米家生态系统,实现与其他智能设备的互联  技术如何使人变得懒惰?  人工智能在交通领域的革新:智能解决方案彻底改变交通方式  构建数字文旅新高地!洛阳涧西区开启元宇宙时代  跑不动的元宇宙,虚拟世界比现实更冷酷  高通发布长期产品计划,为工业和企业物联网产品提供全新组合方案  三星加速AR眼镜进程,预计明年上半年亮相  讯飞星火大模型实现升级 助力通用人工智能人才培养  爱设计PPT发布第二代AI一键生成PPT产品:智能、个性化、自动化  Midjourney创始人:AI应该成为人类思想的延伸  V社回应拒绝上架含 AI 生成内容的游戏:审核政策正在调整中  机智云AI离线语音识别模组,让家电变得更加智能便捷  国宝级文物“铜兽驮跪坐人顶尊铜像”完成模拟拼接,腾讯AI立功  机器人加速!稀土永磁也被带火,持续性如何?  苹果2万5的AR遭遇砍单95%:不及预期  腾讯AI首次模拟拼接三星堆文物,工作取得阶段性的成果  十个AI算法常用库J*a版  人工智能在服务优化方面优缺点有哪些  Valve Index VR 头显销量下滑,上市四年的长青树渐失光彩  社区里,孩子们体验“机器人竞技”  日新月异,脑机接口技术都有哪些新应用?  机器人 展才能  Meta推出VR订阅服务Quest +:每月免费玩两款游戏,7.99美元/月  小米首次曝光 64 亿参数的 MiLM-6B AI 大模型,或将应用于小爱同学  杀入生成式AI的亚马逊云科技,能否再次生成未来?  美图秀秀发布七款 AI 工具:修图一样修视频、打造电影级上镜脸  换流站无线物联网络为新型电力系统铺设“数字之路”  AI与5G的强强联合:唤醒数字时代的无尽潜能  阿里达摩院向公众免费开放100项AI专利许可  人工智能颠覆软件测试四大方式  OpenAI 向所有付费 API 用户开放 GPT-4  猿辅导推出Motiff,整合三大AI功能,助力UI设计生产力革新  英媒:硅谷有些人太鼓吹AI,宣扬“学习无用”  优化J*a与MySQL合作:分享批处理操作的技巧  人工智能行业急缺人 AI人才年薪能达近42万元  给小朋友最好的科技礼物:乐天派桌面机器人  云鲸发布全新的扫拖机器人J4系列  华为发布大模型时代AI存储新品  AMD称下半年AI显卡供应充足,不需要像NVIDIA那样加价抢购  一公司推出喷火机器狗,可喷出 9 米长火焰  pixivFANBOX 更新运营规则,禁止通过外链绕开 AI 生成禁令  人工智能在商业中的风险和局限性  7/8上海 | 2025世界人工智能大会分论坛:科技与人文-共筑无障碍智能社会  剧透!蜜小豆@2025世界人工智能大会多个亮点曝光  加强高质量数据供应能力,促进通用人工智能大模型领域的创新  上新7款产品,美图继续“蹭”AI  时间、空间可控的视频生成走进现实,阿里大模型新作VideoComposer火了  美图公司:Wink国内首发AI画面拓展功能  机器人技能大比拼  美图发布国内首个“懂美学的”AI视觉大模型MiracleVision 

400 128 6709
E-mail

contact@tlftec.cn

扫一扫,添加微信

©  云南淘乐房科技有限公司 版权所有  滇ICP备2025071560号  

云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司 云南淘乐房科技有限公司