ChatPaper.aiChatPaper

NRGBoost: 에너지 기반 생성 부스트 트리

NRGBoost: Energy-Based Generative Boosted Trees

October 4, 2024
저자: João Bravo
cs.AI

초록

심층 학습이 비구조화된 데이터 영역에서 우위를 차지하고 있음에도 불구하고, 랜덤 포레스트(RF)와 그래디언트 부스팅 결정 트리(GBDT)와 같은 트리 기반 방법은 여전히 표 형식 데이터에서 식별 작업을 처리하는 데 중요한 역할을 하고 있습니다. 우리는 이러한 인기 있는 알고리즘의 생성 확장을 탐구하며, 데이터 밀도(정규화 상수까지)를 명시적으로 모델링함으로써 샘플링 외에도 다른 응용 프로그램을 가능하게 합니다. 주요 기여로서, 우리는 XGBoost와 같은 인기 있는 패키지에서 구현된 2차 부스팅과 유사한 에너지 기반 생성 부스팅 알고리즘을 제안합니다. 우리는 제안한 알고리즘이 임의의 입력 변수에 대한 추론 작업을 처리할 수 있는 생성 모델을 생성함에도 불구하고, 실제 표 형식 데이터셋에서 GBDT와 유사한 식별 성능을 달성할 수 있으며, 대안적인 생성 접근 방식을 능가합니다. 동시에, 우리는 샘플링에 대해 신경망 기반 모델과도 경쟁력이 있다는 것을 보여줍니다.
English
Despite the rise to dominance of deep learning in unstructured data domains, tree-based methods such as Random Forests (RF) and Gradient Boosted Decision Trees (GBDT) are still the workhorses for handling discriminative tasks on tabular data. We explore generative extensions of these popular algorithms with a focus on explicitly modeling the data density (up to a normalization constant), thus enabling other applications besides sampling. As our main contribution we propose an energy-based generative boosting algorithm that is analogous to the second order boosting implemented in popular packages like XGBoost. We show that, despite producing a generative model capable of handling inference tasks over any input variable, our proposed algorithm can achieve similar discriminative performance to GBDT on a number of real world tabular datasets, outperforming alternative generative approaches. At the same time, we show that it is also competitive with neural network based models for sampling.

Summary

AI-Generated Summary

PDF72November 16, 2024