Apprendimento delle rappresentazioni 3D da programmi 3D procedurali

Learning 3D Representations from Procedural 3D Programs

November 25, 2024
Autori: Xuweiyi Chen, Zezhou Cheng
cs.AI

Abstract

L'apprendimento auto-supervisionato è emerso come un approccio promettente per acquisire rappresentazioni 3D trasferibili da nuvole di punti 3D non etichettate. A differenza delle immagini 2D, ampiamente accessibili, acquisire asset 3D richiede competenze specializzate o attrezzature professionali per la scansione 3D, rendendo difficile la scalabilità e sollevando preoccupazioni legate al copyright. Per affrontare queste sfide, proponiamo di apprendere rappresentazioni 3D da programmi 3D procedurali che generano automaticamente forme 3D utilizzando primitive semplici e aggiunte. Notevolmente, nonostante la mancanza di contenuto semantico, le rappresentazioni 3D apprese da questo dataset sintetizzato si comportano alla pari con le rappresentazioni all'avanguardia apprese da modelli 3D semanticamente riconoscibili (ad esempio, aeroplani) in vari compiti 3D successivi, tra cui classificazione delle forme, segmentazione delle parti e completamento di nuvole di punti mascherati. La nostra analisi suggerisce inoltre che i metodi attuali di apprendimento auto-supervisionato catturano principalmente strutture geometriche piuttosto che semantica di alto livello.
English
Self-supervised learning has emerged as a promising approach for acquiring transferable 3D representations from unlabeled 3D point clouds. Unlike 2D images, which are widely accessible, acquiring 3D assets requires specialized expertise or professional 3D scanning equipment, making it difficult to scale and raising copyright concerns. To address these challenges, we propose learning 3D representations from procedural 3D programs that automatically generate 3D shapes using simple primitives and augmentations. Remarkably, despite lacking semantic content, the 3D representations learned from this synthesized dataset perform on par with state-of-the-art representations learned from semantically recognizable 3D models (e.g., airplanes) across various downstream 3D tasks, including shape classification, part segmentation, and masked point cloud completion. Our analysis further suggests that current self-supervised learning methods primarily capture geometric structures rather than high-level semantics.

Summary

AI-Generated Summary

Panoramica dell'Articolo

Lo studio propone di apprendere rappresentazioni 3D da programmi 3D procedurali per affrontare la scarsità di dati 3D etichettati. I modelli Point-MAE-Zero e Point-MAE-SN superano l'addestramento da zero, dimostrando che Point-MAE-Zero può ricostruire punti mancanti in modelli ShapeNet senza raffinamento.

Contributo Principale

Il principale contributo consiste nell'uso di forme 3D procedurali per l'apprendimento auto-supervisionato, evidenziando che l'apprendimento da dati sintetici può essere efficace anche senza contenuto semantico.

Contesto della Ricerca

L'articolo si colloca nel campo dell'apprendimento auto-supervisionato per rappresentazioni 3D, evidenziando l'importanza della complessità geometrica e delle dimensioni del dataset sintetico per un efficace apprendimento.

Parole Chiave

  • Rappresentazioni 3D
  • Apprendimento Auto-supervisionato
  • Forme 3D Procedurali
  • Modello Point-MAE
  • Dataset ShapeNet

Contesto

Lo studio affronta la carenza di dati 3D etichettati utilizzando forme 3D procedurali per l'apprendimento auto-supervisionato. Si evidenzia l'importanza della complessità geometrica e delle dimensioni del dataset sintetico per l'apprendimento efficace.

Lacuna nella Ricerca

La ricerca si concentra sulla mancanza di dati 3D etichettati, proponendo un'alternativa con dati sintetici procedurali per l'apprendimento.

Sfide Tecniche

Le sfide includono l'apprendimento di rappresentazioni 3D senza dati etichettati e la necessità di catturare sia strutture geometriche che semantiche.

Approcci Precedenti

Gli approcci precedenti si basavano principalmente su dataset 3D curati, mentre questo studio propone l'uso di dati sintetici procedurali per l'apprendimento.

Metodologia

Il metodo si basa sull'autoencoding mascherato con il modello Point-MAE-Zero addestrato su forme 3D procedurali. Viene utilizzata un'architettura di transformer standard per l'apprendimento auto-supervisionato.

Fondazione Teorica

L'autoencoding mascherato e l'uso di forme 3D procedurali costituiscono la base teorica del metodo proposto.

Architettura Tecnica

Il modello Point-MAE-Zero utilizza un'architettura di transformer standard per l'apprendimento auto-supervisionato da forme 3D procedurali.

Dettagli Implementativi

Il modello viene preaddestrato per 300 epoche con ottimizzatore AdamW e decadimento del tasso di apprendimento cosinusoidale, utilizzando tecniche di aumenti dati standard.

Punti di Innovazione

Il modello Point-MAE-Zero si distingue per l'uso di forme 3D procedurali per l'apprendimento auto-supervisionato, catturando principalmente strutture geometriche.

Validazione Sperimentale

L'esperimento valuta le rappresentazioni apprese su varie attività 3D, confrontando le prestazioni con metodi esistenti e modelli addestrati da zero.

Configurazione

Il modello viene valutato su benchmark come ModelNet40 e ScanObjectNN, confrontando le prestazioni con metodi preaddestrati e da zero.

Metriche

Le metriche includono la classificazione degli oggetti, la segmentazione delle parti e il completamento di punti cloud mascherati.

Risultati

I modelli preaddestrati mostrano convergenza più rapida e migliori prestazioni rispetto all'addestramento da zero, evidenziando il beneficio del preaddestramento.

Analisi Comparativa

Le rappresentazioni apprese catturano principalmente caratteristiche geometriche, migliorando con l'aumento della complessità delle forme 3D e delle dimensioni del dataset di preaddestramento.

Impatto e Implicazioni

Lo studio evidenzia che l'apprendimento da dati sintetici può essere efficace per rappresentazioni 3D, con benefici nel trasferimento di apprendimento e miglioramenti nelle prestazioni.

Principali Risultati

I modelli Point-MAE-Zero e Point-MAE-SN mostrano prestazioni simili all'apprendimento da dati sintetici procedurali e da dataset curati.

Limitazioni

Le limitazioni includono risorse computazionali limitate e potenziali bias negli strumenti di visualizzazione e nei benchmark utilizzati.

Futuri Sviluppi

Sono suggerite ulteriori esplorazioni sull'apprendimento auto-supervisionato di rappresentazioni 3D per superare le limitazioni attuali.

Significato Pratico

Il metodo proposto ha implicazioni pratiche nell'uso di dati sintetici per l'apprendimento efficace di rappresentazioni 3D, con potenziali applicazioni in settori come la computer vision e la grafica 3D.

Probing Lineare e Analisi

L'analisi di probing lineare confronta le prestazioni di Point-MAE-SN e Point-MAE-Zero su diversi compiti di classificazione oggetti e segmentazione parti, evidenziando le capacità rappresentative dei modelli.

  • Il probing lineare evidenzia le differenze tra i modelli preaddestrati e quelli addestrati da zero, mostrando il beneficio del preaddestramento.
  • Le visualizzazioni t-SNE delle rappresentazioni 3D confermano miglioramenti visivi con Point-MAE rispetto all'inizializzazione casuale.
  • Le rappresentazioni apprese catturano principalmente strutture locali anziché forme globali, evidenziando la specificità del metodo proposto.

Articoli in Evidenza

DeepSeek-R1: Incentivizzare la capacità di ragionamento nei LLM tramite Apprendimento per Rinforzo
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

DeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen ZhangJan 22, 20253745

Rapporto Tecnico Qwen2.5
Qwen2.5 Technical Report

Qwen, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan QiuDec 19, 202436411

MiniMax-01: Scalare i modelli di base con attenzione lampeggiante
MiniMax-01: Scaling Foundation Models with Lightning Attention

MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia WuJan 14, 20252846

PDF92November 27, 2024