Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

2,5 Anos em Sala de Aula: Um Livro Didático Multimodal para Pré-treinamento Visão-Linguagem
2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Wenqi Zhang, Hang Zhang, Xin Li, Jiashuo Sun, Yongliang Shen, Weiming Lu, Deli Zhao, Yueting Zhuang, Lidong Bing•Jan 1, 2025•957

VideoAnydoor: Inserção de Objeto de Vídeo de Alta Fidelidade com Controle Preciso de Movimento
VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control

Yuanpeng Tu, Hao Luo, Xi Chen, Sihui Ji, Xiang Bai, Hengshuang Zhao•Jan 2, 2025•493

CodeElo: Avaliação de Referência da Geração de Código de Nível de Competição de LLMs com Classificações Elo Comparáveis às Humanas
CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings

Shanghaoran Quan, Jiaxi Yang, Bowen Yu, Bo Zheng, Dayiheng Liu, An Yang, Xuancheng Ren, Bofei Gao, Yibo Miao, Yunlong Feng, Zekun Wang, Jian Yang, Zeyu Cui, Yang Fan, Yichang Zhang, Binyuan Hui, Junyang Lin•Jan 2, 2025•476

LTX-Video: Difusão Latente de Vídeo em Tempo Real
LTX-Video: Realtime Video Latent Diffusion

Yoav HaCohen, Nisan Chiprut, Benny Brazowski, Daniel Shalem, Dudu Moshe, Eitan Richardson, Eran Levin, Guy Shiran, Nir Zabari, Ori Gordon, Poriya Panet, Sapir Weissbuch, Victor Kulikov, Yaki Bitterman, Zeev Melumian, Ofir Bibi•Dec 30, 2024•413

VideoRefer Suite: Avançando a Compreensão de Objetos Espaço-Temporais com o Video LLM
VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

Yuqian Yuan, Hang Zhang, Wentong Li, Zesen Cheng, Boqiang Zhang, Long Li, Xin Li, Deli Zhao, Wenqiao Zhang, Yueting Zhuang, Jianke Zhu, Lidong Bing•Dec 31, 2024•412

Reconstrução vs. Geração: Domando o Dilema de Otimização em Modelos de Difusão Latente
Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models

Jingfeng Yao, Xinggang Wang•Jan 2, 2025•362

ProgCo: Programa Auxilia na Autocorreção de Modelos de Linguagem Grandes
ProgCo: Program Helps Self-Correction of Large Language Models

Xiaoshuai Song, Yanan Wu, Weixun Wang, Jiaheng Liu, Wenbo Su, Bo Zheng•Jan 2, 2025•252

MLLM como Juiz para Segurança de Imagens sem Rotulagem Humana
MLLM-as-a-Judge for Image Safety without Human Labeling

Zhenting Wang, Shuming Hu, Shiyu Zhao, Xiaowen Lin, Felix Juefei-Xu, Zhuowei Li, Ligong Han, Harihar Subramanyam, Li Chen, Jianfa Chen, Nan Jiang, Lingjuan Lyu, Shiqing Ma, Dimitris N. Metaxas, Ankit Jain•Dec 31, 2024•242

MapEval: Uma Avaliação Baseada em Mapa do Raciocínio Geo-Espacial em Modelos Fundamentais
MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models

Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez•Dec 31, 2024•222

A3: Arena de Agentes Android para Agentes de Interface Gráfica Móvel
A3: Android Agent Arena for Mobile GUI Agents

Yuxiang Chai, Hanhao Li, Jiayu Zhang, Liang Liu, Guozhi Wang, Shuai Ren, Siyuan Huang, Hongsheng Li•Jan 2, 2025•223

Unificando Codificadores Visuais Especializados para Modelos de Linguagem de Vídeo
Unifying Specialized Visual Encoders for Video Language Models

Jihoon Chung, Tyler Zhu, Max Gonzalez Saez-Diez, Juan Carlos Niebles, Honglu Zhou, Olga Russakovsky•Jan 2, 2025•212

Dimensionamento Dinâmico de Testes Unitários para Modelagem de Recompensa de Código
Dynamic Scaling of Unit Tests for Code Reward Modeling

Zeyao Ma, Xiaokang Zhang, Jing Zhang, Jifan Yu, Sijia Luo, Jie Tang•Jan 2, 2025•172

Atenção Aninhada: Valores de Atenção Conscientes do Semântico para Personalização de Conceitos
Nested Attention: Semantic-aware Attention Values for Concept Personalization

Or Patashnik, Rinon Gal, Daniil Ostashev, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or•Jan 2, 2025•112

SeedVR: Semeando o Infinito no Transformador de Difusão Rumo à Restauração Genérica de Vídeo
SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration

Jianyi Wang, Zhijie Lin, Meng Wei, Yang Zhao, Ceyuan Yang, Chen Change Loy, Lu Jiang•Jan 2, 2025•112

MapQaTor: Um Sistema para Anotação Eficiente de Conjuntos de Dados de Consulta de Mapa
MapQaTor: A System for Efficient Annotation of Map Query Datasets

Mahir Labib Dihan, Mohammed Eunus Ali, Md Rizwan Parvez•Dec 30, 2024•92

Compreensão e Mitigação de Gargalos de Modelos de Espaço de Estados através da Perspectiva de Atualidade e Super-suavização
Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing

Peihao Wang, Ruisi Cai, Yuehao Wang, Jiajun Zhu, Pragya Srivastava, Zhangyang Wang, Pan Li•Dec 31, 2024•72

Difusão Consciente da População para Geração de Séries Temporais
Population Aware Diffusion for Time Series Generation

Yang Li, Han Meng, Zhenyu Bi, Ingolv T. Urnes, Haipeng Chen•Jan 1, 2025•62

Repensando a Abordagem em Modelos de Linguagem através de Codificação Posicional Equivariante Contextualizada
Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding

Jiajun Zhu, Peihao Wang, Ruisi Cai, Jason D. Lee, Pan Li, Zhangyang Wang•Jan 1, 2025•64

SeFAR: Reconhecimento de Ações Detalhadas Semi-supervisionado com Perturbação Temporal e Estabilização de Aprendizado
SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization

Yongle Huang, Haodong Chen, Zhenbang Xu, Zihan Jia, Haozhou Sun, Dian Shao•Jan 2, 2025•52