Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

STAR: Augmentação Espaço-Temporal com Modelos de Texto-para-Vídeo para Super-Resolução de Vídeo no Mundo Real
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

Rui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying Tai•Jan 6, 2025•513

Computação em Tempo de Teste: do Pensamento do Sistema-1 ao Pensamento do Sistema-2
Test-time Computing: from System-1 Thinking to System-2 Thinking

Yixin Ji, Juntao Li, Hai Ye, Kaixin Wu, Jia Xu, Linjian Mo, Min Zhang•Jan 5, 2025•402

BoostStep: Aumentando a capacidade matemática de Modelos de Linguagem Grandes por meio de raciocínio de um passo aprimorado
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

Beichen Zhang, Yuhong Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Haodong Duan, Yuhang Cao, Dahua Lin, Jiaqi Wang•Jan 6, 2025•352

Dispider: Permitindo LLMs de Vídeo com Interação Ativa em Tempo Real via Percepção, Decisão e Reação Desembaraçadas.
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

Rui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang•Jan 6, 2025•333

Recuperação Personalizada Baseada em Gráficos para Modelos de Linguagem de Grande Escala
Personalized Graph-Based Retrieval for Large Language Models

Steven Au, Cameron J. Dimacali, Ojasmitha Pedirappagari, Namyong Park, Franck Dernoncourt, Yu Wang, Nikos Kanakaris, Hanieh Deilamsalehy, Ryan A. Rossi, Nesreen K. Ahmed•Jan 4, 2025•282

Leis de Escalonamento para Treinamento com Quantização de Ponto Flutuante
Scaling Laws for Floating Point Quantization Training

Xingwu Sun, Shuaipeng Li, Ruobing Xie, Weidong Han, Kan Wu, Zhen Yang, Yixing Li, An Wang, Shuai Li, Jinbao Xue, Yu Cheng, Yangyu Tao, Zhanhui Kang, Chengzhong Xu, Di Wang, Jie Jiang•Jan 5, 2025•252

TransPixar: Avançando na Geração de Vídeo a partir de Texto com Transparência
TransPixar: Advancing Text-to-Video Generation with Transparency

Luozhou Wang, Yijun Li, Zhifei Chen, Jui-Hsien Wang, Zhifei Zhang, He Zhang, Zhe Lin, Yingcong Chen•Jan 6, 2025•224

METAGENE-1: Modelo Fundacional Metagenômico para Monitoramento de Pandemias
METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring

Ollie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman, Willie Neiswanger•Jan 3, 2025•212

Através da Máscara: Trajetórias de Movimento Baseadas em Máscara para Geração de Imagem para Vídeo
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation

Guy Yariv, Yuval Kirstain, Amit Zohar, Shelly Sheynin, Yaniv Taigman, Yossi Adi, Sagie Benaim, Adam Polyak•Jan 6, 2025•192

GS-DiT: Avançando na Geração de Vídeo com Campos Gaussianos Pseudo 4D através de Rastreamento Eficiente de Pontos 3D Densos
GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking

Weikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yijin Li, Fu-Yun Wang, Hongsheng Li•Jan 5, 2025•172

Auto-RT: Exploração Automática de Estratégias de Jailbreak para Teste de Penetração em Modelos de Linguagem de Grande Escala
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models

Yanjiang Liu, Shuhen Zhou, Yaojie Lu, Huijia Zhu, Weiqiang Wang, Hongyu Lin, Ben He, Xianpei Han, Le Sun•Jan 3, 2025•172

DepthMaster: Domando Modelos de Difusão para Estimação de Profundidade Monocular
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

Ziyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang•Jan 5, 2025•154

PRMBench: Um Benchmark Detalhado e Desafiador para Modelos de Recompensa ao Nível de Processo
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

Mingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng•Jan 6, 2025•142

ToolHop: Um Benchmark Orientado por Consulta para Avaliar Modelos de Linguagem Grandes no Uso de Ferramentas Multi-Hop
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

Junjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiechao Chen•Jan 5, 2025•103

AutoPresent: Criando Visualizações Estruturadas do Zero
AutoPresent: Designing Structured Visuals from Scratch

Jiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell•Jan 1, 2025•82

Reconhecimento de fala Samba-asr de última geração aproveitando modelos estruturados de espaço de estados.
Samba-asr state-of-the-art speech recognition leveraging structured state-space models

Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi•Jan 6, 2025•83

Ingredientes: Misturando Fotos Personalizadas com Transformadores de Difusão de Vídeo
Ingredients: Blending Custom Photos with Video Diffusion Transformers

Zhengcong Fei, Debang Li, Di Qiu, Changqian Yu, Mingyuan Fan•Jan 3, 2025•82

Geração Automatizada de Perguntas de Múltipla Escolha Desafiadoras para Avaliação de Modelos de Visão e Linguagem
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

Yuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy•Jan 6, 2025•72

ProTracker: Integração Probabilística para Rastreamento Preciso e Robusto de Pontos
ProTracker: Probabilistic Integration for Robust and Accurate Point Tracking

Tingyang Zhang, Chen Wang, Zhiyang Dou, Qingzhe Gao, Jiahui Lei, Baoquan Chen, Lingjie Liu•Jan 6, 2025•42