OpenVision-加州大学开源的视觉编码器家族

OpenVision-加州大学开源的视觉编码器家族-AIGC资源中心
OpenVision-加州大学开源的视觉编码器家族
此内容为免费阅读,请登录后查看
积分
免费阅读
已售 11

OpenVision是什么

OpenVision是加州大学圣克鲁兹分校(UCSC)推出的完全开放、高效且灵活的高级视觉编码器家族,专注于多模态学习。提供从5.9M到632.1M参数的多种规模模型,适用于从边缘设备到高性能服务器的不同场景。OpenVision采用渐进式多阶段分辨率训练策略,训练效率比同类专有模型快2到3倍。在多模态基准测试中表现出色,与OpenAI的CLIP和SigLIP等模型相当。OpenVision支持8×8和16×16的可变大小patch,能灵活应对详细视觉理解或高效处理的需求。
OpenVision

OpenVision的主要功能

完全开放:数据集、训练配方和模型检查点全部公开,在Apache 2.0许可证下开源,促进了多模态研究的可重复性和透明度。
模型规模多样:提供从5.9M到632.1M参数的视觉编码器,共有26种不同的模型,涵盖了从边缘设备到高性能服务器的各种部署需求。
性能卓越:在多模态基准测试中,OpenVision的性能与OpenAI的CLIP和SigLIP等专有视觉编码器相当,在某些情况下超越了它们。
训练效率高:通过渐进式多阶段分辨率训练策略,OpenVision在训练效率上比专有对手快2到3倍。
灵活配置:支持8×8和16×16的可变大小patch,支持根据实际需求进行详细视觉理解或高效处理。

OpenVision的技术原理

渐进式分辨率训练策略:OpenVision采用从低分辨率(如84×84)开始,逐步提高到高分辨率(如336×336或384×384)的训练方式。显著提高了训练效率,比CLIP和SigLIP快2到3倍,不损失下游性能。
视觉编码器预训练:在预训练阶段,OpenVision的每个编码器会在三个连续的分辨率阶段进行训练。具体而言,不同变体的模型会根据其规模,在不同分辨率下进行训练,如Large、SoViT-400M和Huge变体分别在84×84、224×224,最终在336×336或384×384进行训练。预训练完成后,舍弃文本塔和解码器,仅保留视觉主干。
多模态学习架构:OpenVision的模型架构主要由视觉编码器和文本编码器组成。视觉编码器负责提取图像的特征,文本编码器用于提取自然语言序列的特征。在训练过程中,模型通过图像-文本对的对比学习,最大化正样本对的相似度,最小化负样本对的相似度。
优化轻量级系统和边缘计算应用:OpenVision与小型语言模型有效结合,构建低参数量的多模态模型。

OpenVision的项目地址

项目官网:https://ucsc-vlaa.github.io/OpenVision/
Github仓库:https://github.com/UCSC-VLAA/OpenVision
HuggingFace模型库:https://huggingface.co/collections/UCSC-VLAA/openvision
arXiv技术论文:https://arxiv.org/pdf/2505.04601

OpenVision的应用场景

多模态学习:OpenVision可以集成到多模态框架中,如LLaVA等,用于图像识别、视频分析和自然语言处理等任务。
工业检测:OpenVision的高分辨率图像传感器和强大的处理能力适合用于工业检测,如缺陷检测、尺寸测量等。
机器人视觉:通过集成高性能的图像传感器和处理芯片,OpenVision可以为机器人提供实时的视觉感知能力,支持路径规划、物体识别等任务。
自动驾驶:在自动驾驶领域,OpenVision可以作为车载视觉系统,处理来自多个摄像头的图像数据,进行环境感知和决策。
科研与教育:开源的特性使OpenVision成为科研人员和教育机构进行视觉计算研究和教学的理想平台。

THE END
喜欢就支持一下吧
点赞47 分享