AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

OmniDocBench: 포괄적 주석을 사용한 다양한 PDF 문서 구문 분석의 벤치마킹
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations

Linke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He•Dec 10, 2024•111

ProcessBench: 수학적 추론에서의 과정 오류 식별
ProcessBench: Identifying Process Errors in Mathematical Reasoning

Chujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin•Dec 9, 2024•806

연속 잠재 공간에서 추론하는 대규모 언어 모델 훈련
Training Large Language Models to Reason in a Continuous Latent Space

Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, Yuandong Tian•Dec 9, 2024•787

RL 에이전트의 메모리 복잡성 해독: 분류 및 평가 방법론
Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation

Egor Cherepanov, Nikita Kachaev, Artem Zholus, Alexey K. Kovalev, Aleksandr I. Panov•Dec 9, 2024•712

마야: 지시어 세세하게 조정된 다국어 다중 모달 모델
Maya: An Instruction Finetuned Multilingual Multimodal Model

Nahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji•Dec 10, 2024•272

80개의 타임스텝 안에 세계 일주하기: 전역 시각 지리 위치 결정에 대한 생성적 접근
Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation

Nicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu•Dec 9, 2024•212

디보트: 확산 기능을 갖춘 비디오 토크나이저로 이해와 생성을 돕다
Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation

Yuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan•Dec 5, 2024•162

다중 모드 대형 언어 모델을 위한 다중 단계 개념 주석 탐색
Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models

Xiao Xu, Tianhao Niu, Yuxi Xie, Libo Qin, Wanxiang Che, Min-Yen Kan•Dec 8, 2024•162

당신이 보면, 당신이 얻는다: 규모의 자유 자세 비디오에서 3D 생성 학습
You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale

Baorui Ma, Huachen Gao, Haoge Deng, Zhengxiong Luo, Tiejun Huang, Lulu Tang, Xinlong Wang•Dec 9, 2024•133

게이트형 델타 네트워크: 델타 규칙을 활용하여 Mamba2 개선하기
Gated Delta Networks: Improving Mamba2 with Delta Rule

Songlin Yang, Jan Kautz, Ali Hatamizadeh•Dec 9, 2024•113

MotionShop: 점수 가이드의 혼합을 사용한 비디오 확산 모델에서의 제로샷 모션 전이
MotionShop: Zero-Shot Motion Transfer in Video Diffusion Models with Mixture of Score Guidance

Hidir Yesiltepe, Tuna Han Salih Meral, Connor Dunlop, Pinar Yanardag•Dec 6, 2024•92

지구의 전역적이고 밀도 높은 임베딩: 잠재 공간에서 떠다니는 주요 TOM
Global and Dense Embeddings of Earth: Major TOM Floating in the Latent Space

Mikolaj Czerkawski, Marcin Kluczek, Jędrzej S. Bojanowski•Dec 7, 2024•82

MAtCha 가우시안: 희소한 관점으로부터 고품질 지오메트리 및 사실적인 이미지를 위한 차트의 아틀라스
MAtCha Gaussians: Atlas of Charts for High-Quality Geometry and Photorealism From Sparse Views

Antoine Guédon, Tomoki Ichikawa, Kohei Yamashita, Ko Nishino•Dec 9, 2024•72

CARP: 시각 운동 정책 학습을 위한 Coarse-to-Fine 자기회귀 예측
CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction

Zhefei Gong, Pengxiang Ding, Shangke Lyu, Siteng Huang, Mingyang Sun, Wei Zhao, Zhaoxin Fan, Donglin Wang•Dec 9, 2024•72

LLM 기반 패러프레이저를 사용한 견고한 다비트 텍스트 워터마크
Robust Multi-bit Text Watermark with LLM-based Paraphrasers

Xiaojun Xu, Jinghan Jia, Yuanshun Yao, Yang Liu, Hang Li•Dec 4, 2024•62

사용할 수 없다면 재활용하라: 규모 확장에서 병합 최적화 성능 트레이드오프 완화
If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs

Muhammad Khalifa, Yi-Chern Tan, Arash Ahmadian, Tom Hosking, Honglak Lee, Lu Wang, Ahmet Üstün, Tom Sherborne, Matthias Gallé•Dec 5, 2024•52

터보3D: 초고속 텍스트-3D 생성
Turbo3D: Ultra-fast Text-to-3D Generation

Hanzhe Hu, Tianwei Yin, Fujun Luan, Yiwei Hu, Hao Tan, Zexiang Xu, Sai Bi, Shubham Tulsiani, Kai Zhang•Dec 5, 2024•42