DINO-X:用于开放世界目标检测和理解的统一视觉模型
DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
November 21, 2024
作者: Tianhe Ren, Yihao Chen, Qing Jiang, Zhaoyang Zeng, Yuda Xiong, Wenlong Liu, Zhengyu Ma, Junyi Shen, Yuan Gao, Xiaoke Jiang, Xingyu Chen, Zhuheng Song, Yuhong Zhang, Hongjie Huang, Han Gao, Shilong Liu, Hao Zhang, Feng Li, Kent Yu, Lei Zhang
cs.AI
摘要
本文介绍了DINO-X,这是由IDEA研究团队开发的统一的面向对象视觉模型,具有迄今为止最佳的开放世界目标检测性能。DINO-X采用与Grounding DINO 1.5相同的基于Transformer的编码器-解码器架构,以追求面向对象的表示,用于开放世界目标理解。为了简化长尾目标检测,DINO-X扩展了其输入选项,支持文本提示、视觉提示和定制提示。通过这种灵活的提示选项,我们开发了一个通用的对象提示,以支持无提示的开放世界检测,使得可以在图像中检测任何物体,而无需用户提供任何提示。为了增强模型的核心基础能力,我们构建了一个包含超过1亿个高质量基础样本的大规模数据集,称为Grounding-100M,用于提升模型的开放词汇检测性能。在这样一个大规模基础数据集上进行预训练,形成了一个基础的对象级表示,使得DINO-X能够集成多个感知头部,同时支持多个对象感知和理解任务,包括检测、分割、姿态估计、对象字幕、基于对象的问答等。实验结果展示了DINO-X的卓越性能。具体而言,DINO-X Pro模型在COCO、LVIS-minival和LVIS-val的零样本目标检测基准上分别达到了56.0 AP、59.8 AP和52.4 AP。值得注意的是,它在LVIS-minival和LVIS-val基准的稀有类别上分别获得了63.3 AP和56.5 AP,将先前的SOTA性能提高了5.8 AP。这一结果突显了其显著提升的长尾目标识别能力。
English
In this paper, we introduce DINO-X, which is a unified object-centric vision
model developed by IDEA Research with the best open-world object detection
performance to date. DINO-X employs the same Transformer-based encoder-decoder
architecture as Grounding DINO 1.5 to pursue an object-level representation for
open-world object understanding. To make long-tailed object detection easy,
DINO-X extends its input options to support text prompt, visual prompt, and
customized prompt. With such flexible prompt options, we develop a universal
object prompt to support prompt-free open-world detection, making it possible
to detect anything in an image without requiring users to provide any prompt.
To enhance the model's core grounding capability, we have constructed a
large-scale dataset with over 100 million high-quality grounding samples,
referred to as Grounding-100M, for advancing the model's open-vocabulary
detection performance. Pre-training on such a large-scale grounding dataset
leads to a foundational object-level representation, which enables DINO-X to
integrate multiple perception heads to simultaneously support multiple object
perception and understanding tasks, including detection, segmentation, pose
estimation, object captioning, object-based QA, etc. Experimental results
demonstrate the superior performance of DINO-X. Specifically, the DINO-X Pro
model achieves 56.0 AP, 59.8 AP, and 52.4 AP on the COCO, LVIS-minival, and
LVIS-val zero-shot object detection benchmarks, respectively. Notably, it
scores 63.3 AP and 56.5 AP on the rare classes of LVIS-minival and LVIS-val
benchmarks, both improving the previous SOTA performance by 5.8 AP. Such a
result underscores its significantly improved capacity for recognizing
long-tailed objects.Summary
AI-Generated Summary
论文概述
本文介绍了《HigherHRNet: 面向不同尺度的表示学习的底部人体姿势估计》,主要发现包括HigherHRNet在底部人体姿势估计中的出色表现以及多尺度表示学习对提高姿势估计准确性的帮助。
核心贡献
- HigherHRNet在底部人体姿势估计中表现出色。
- 利用多尺度表示学习来提高姿势估计的准确性。
研究背景
本研究基于底部的人体姿势估计技术,实现了HigherHRNet,利用多尺度表示学习来提高姿势估计的性能。
研究缺口
- 先前研究在底部人体姿势估计中存在性能提升的空间。
- 多尺度表示学习在姿势估计中的应用仍有待深入研究。
技术挑战
- 如何有效整合多尺度表示学习以提高底部人体姿势估计的性能。
- 如何设计适用于不同尺度的表示学习模块。
先前方法
- 先前方法在多尺度表示学习和底部人体姿势估计方面的性能有限。
方法学
本文采用多尺度表示学习来改进底部人体姿势估计,引入了Scale-aware Representation Learning Module (SRM)来提高性能。
理论基础
- 多尺度表示学习的数学理论基础。
- SRM模块的设计原理和数学基础。
技术架构
- HigherHRNet的系统设计和技术架构。
- SRM模块在底部人体姿势估计中的具体应用。
实现细节
- 具体算法和方法的实现细节。
- 使用的工具和技术。
创新点
- HigherHRNet在多尺度表示学习方面的技术优势。
- SRM模块的创新设计和性能提升。
实验验证
本文在人体姿势估计任务中进行了实验,评估了HigherHRNet在不同尺度下的性能表现。
设置
- 实验的具体配置和参数设置。
- 使用的数据集和数据集规模。
评估指标
- 详细的性能评估标准和指标。
- 量化和定性结果的评估方法。
结果
- 实验结果的定量和定性发现。
- HigherHRNet在不同尺度下的性能表现。
比较分析
- 与基准方法的详细比较分析。
- HigherHRNet相对于先前方法的优势和劣势。
影响和意义
本文介绍了HigherHRNet在底部人体姿势估计中的重要发现和意义,包括其具体贡献、局限性、未来研究方向和实际应用意义。
主要发现
- HigherHRNet在底部人体姿势估计中的显著贡献。
- 多尺度表示学习在姿势估计中的重要性。
局限性
- 本研究的局限性和不足之处。
- 可能影响实验结果的因素。
未来方向
- 可以探索的具体研究方向。
- 未来在多尺度表示学习和底部人体姿势估计方面的发展方向。
实际意义
- HigherHRNet在实际场景中的应用潜力。
- 多尺度表示学习在人体姿势估计中的实际应用意义。
1比特LLM时代:所有大型语言模型均为1.58比特。The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
1比特LLM时代:所有大型语言模型均为1.58比特。
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
Shuming Ma, Hongyu Wang, Lingxiao Ma, Lei Wang, Wenhui Wang, Shaohan Huang, Li Dong, Ruiping Wang, Jilong Xue, Furu Wei•Feb 27, 2024•612142
DeepSeek-R1:通过强化学习激励LLMs中的推理能力DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement Learning
DeepSeek-R1:通过强化学习激励LLMs中的推理能力
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via
Reinforcement Learning
DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen Zhang•Jan 22, 2025•3685
Qwen2.5 技术报告Qwen2.5 Technical Report
Qwen2.5 技术报告
Qwen2.5 Technical Report
Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan Qiu•Dec 19, 2024•36311