양자 그래프 시퀀스 모델의 장점: 하이브리드 그래프 시퀀스 모델의 장점
Best of Both Worlds: Advantages of Hybrid Graph Sequence Models
November 23, 2024
저자: Ali Behrouz, Ali Parviz, Mahdi Karami, Clayton Sanford, Bryan Perozzi, Vahab Mirrokni
cs.AI
초록
현대 시퀀스 모델(예: 트랜스포머, 선형 RNN 등)은 효율성, 표현력, 그리고/또는 장거리 종속성을 포착하는 능력 때문에 최근 딥러닝 프레임워크의 중심적인 백본으로 부상했습니다. 그래프 구조 데이터에 대해 이러한 시퀀스 모델을 채택하는 것은 최근에 메시지 전달 신경망(Message Passing Neural Networks, MPNNs)의 대안으로 인기를 얻고 있습니다. 그러나 양질의 그래프 시퀀스 모델을 구성하는 데 대한 공통적인 기초가 부족하며, 서로 다른 시퀀스 모델을 그래프 학습에 채택할 때의 이점과 단점에 대한 수학적 설명이 부족합니다. 이에 우리는 먼저 Graph Sequence Model (GSM)을 제시합니다. 이는 그래프에 대한 시퀀스 모델을 채택하기 위한 통합 프레임워크로, 세 가지 주요 단계로 구성됩니다: (1) 토큰화, 그래프를 일련의 시퀀스로 변환하는 과정; (2) 지역 부호화, 각 노드 주변의 지역 이웃을 부호화하는 과정; 그리고 (3) 전역 부호화, 시퀀스 내에서 장거리 종속성을 포착하기 위해 확장 가능한 시퀀스 모델을 사용하는 과정입니다. 이 프레임워크를 통해 우리는 그래프 작업에서 다양한 시퀀스 모델 백본의 능력을 이해하고 평가하며 비교할 수 있습니다. 우리는 트랜스포머와 현대 재귀 모델의 표현 능력을 글로벌 및 지역 그래프 작업의 관점에서 이론적으로 평가하고, 두 유형의 모델에 대한 부정적인 면과 긍정적인 면이 모두 존재함을 보여줍니다. 이 관찰을 기반으로 우리는 GSM++을 제시합니다. 이는 그래프를 계층적 시퀀스로 토큰화하는 데 계층적 군집화(Hierarchical Affinity Clustering, HAC) 알고리즘을 사용하고, 이후에는 Transformer의 하이브리드 아키텍처를 사용하여 이러한 시퀀스를 부호화하는 빠른 하이브리드 모델입니다. 이론적 및 실험적 결과는 GSM++의 설계를 지원하며, GSM++이 대부분의 벤치마크 평가에서 베이스라인을 능가한다는 것을 보여줍니다.
English
Modern sequence models (e.g., Transformers, linear RNNs, etc.) emerged as
dominant backbones of recent deep learning frameworks, mainly due to their
efficiency, representational power, and/or ability to capture long-range
dependencies. Adopting these sequence models for graph-structured data has
recently gained popularity as the alternative to Message Passing Neural
Networks (MPNNs). There is, however, a lack of a common foundation about what
constitutes a good graph sequence model, and a mathematical description of the
benefits and deficiencies in adopting different sequence models for learning on
graphs. To this end, we first present Graph Sequence Model (GSM), a unifying
framework for adopting sequence models for graphs, consisting of three main
steps: (1) Tokenization, which translates the graph into a set of sequences;
(2) Local Encoding, which encodes local neighborhoods around each node; and (3)
Global Encoding, which employs a scalable sequence model to capture long-range
dependencies within the sequences. This framework allows us to understand,
evaluate, and compare the power of different sequence model backbones in graph
tasks. Our theoretical evaluations of the representation power of Transformers
and modern recurrent models through the lens of global and local graph tasks
show that there are both negative and positive sides for both types of models.
Building on this observation, we present GSM++, a fast hybrid model that uses
the Hierarchical Affinity Clustering (HAC) algorithm to tokenize the graph into
hierarchical sequences, and then employs a hybrid architecture of Transformer
to encode these sequences. Our theoretical and experimental results support the
design of GSM++, showing that GSM++ outperforms baselines in most benchmark
evaluations.Summary
AI-Generated Summary