NRGBoost: 에너지 기반 생성 부스트 트리
NRGBoost: Energy-Based Generative Boosted Trees
October 4, 2024
저자: João Bravo
cs.AI
초록
심층 학습이 비구조화된 데이터 영역에서 우위를 차지하고 있음에도 불구하고, 랜덤 포레스트(RF)와 그래디언트 부스팅 결정 트리(GBDT)와 같은 트리 기반 방법은 여전히 표 형식 데이터에서 식별 작업을 처리하는 데 중요한 역할을 하고 있습니다. 우리는 이러한 인기 있는 알고리즘의 생성 확장을 탐구하며, 데이터 밀도(정규화 상수까지)를 명시적으로 모델링함으로써 샘플링 외에도 다른 응용 프로그램을 가능하게 합니다. 주요 기여로서, 우리는 XGBoost와 같은 인기 있는 패키지에서 구현된 2차 부스팅과 유사한 에너지 기반 생성 부스팅 알고리즘을 제안합니다. 우리는 제안한 알고리즘이 임의의 입력 변수에 대한 추론 작업을 처리할 수 있는 생성 모델을 생성함에도 불구하고, 실제 표 형식 데이터셋에서 GBDT와 유사한 식별 성능을 달성할 수 있으며, 대안적인 생성 접근 방식을 능가합니다. 동시에, 우리는 샘플링에 대해 신경망 기반 모델과도 경쟁력이 있다는 것을 보여줍니다.
English
Despite the rise to dominance of deep learning in unstructured data domains,
tree-based methods such as Random Forests (RF) and Gradient Boosted Decision
Trees (GBDT) are still the workhorses for handling discriminative tasks on
tabular data. We explore generative extensions of these popular algorithms with
a focus on explicitly modeling the data density (up to a normalization
constant), thus enabling other applications besides sampling. As our main
contribution we propose an energy-based generative boosting algorithm that is
analogous to the second order boosting implemented in popular packages like
XGBoost. We show that, despite producing a generative model capable of handling
inference tasks over any input variable, our proposed algorithm can achieve
similar discriminative performance to GBDT on a number of real world tabular
datasets, outperforming alternative generative approaches. At the same time, we
show that it is also competitive with neural network based models for sampling.Summary
AI-Generated Summary