Il meglio di entrambi i mondi: Vantaggi dei Modelli Ibridi di Sequenza di Grafi

Abstract

I moderni modelli sequenziali (ad esempio, i Transformers, le RNN lineari, ecc.) sono emersi come colonne portanti predominanti nei recenti framework di apprendimento profondo, principalmente grazie alla loro efficienza, potenza rappresentativa e/o capacità di catturare dipendenze a lungo raggio. L'adozione di questi modelli sequenziali per dati strutturati a grafo ha recentemente guadagnato popolarità come alternativa alle Reti Neurali a Passaggio di Messaggi (MPNNs). Tuttavia, manca una base comune su cosa costituisca un buon modello sequenziale a grafo e una descrizione matematica dei vantaggi e dei difetti nell'adozione di diversi modelli sequenziali per l'apprendimento su grafi. A questo scopo, presentiamo innanzitutto il Modello Sequenziale a Grafo (GSM), un framework unificante per l'adozione di modelli sequenziali per grafi, composto da tre passaggi principali: (1) Tokenizzazione, che traduce il grafo in un insieme di sequenze; (2) Codifica Locale, che codifica i vicini locali attorno a ciascun nodo; e (3) Codifica Globale, che impiega un modello sequenziale scalabile per catturare dipendenze a lungo raggio all'interno delle sequenze. Questo framework ci consente di comprendere, valutare e confrontare la potenza delle diverse colonne portanti dei modelli sequenziali nelle attività sui grafi. Le nostre valutazioni teoriche della potenza di rappresentazione dei Transformers e dei moderni modelli ricorrenti attraverso il prisma delle attività globali e locali sui grafi mostrano che ci sono aspetti negativi e positivi per entrambi i tipi di modelli. Sulla base di questa osservazione, presentiamo GSM++, un modello ibrido veloce che utilizza l'algoritmo di Clustering di Affinità Gerarchica (HAC) per tokenizzare il grafo in sequenze gerarchiche, e poi impiega un'architettura ibrida di Transformer per codificare queste sequenze. I nostri risultati teorici e sperimentali supportano il design di GSM++, mostrando che GSM++ supera i modelli di riferimento nella maggior parte delle valutazioni di benchmark.

English

Modern sequence models (e.g., Transformers, linear RNNs, etc.) emerged as dominant backbones of recent deep learning frameworks, mainly due to their efficiency, representational power, and/or ability to capture long-range dependencies. Adopting these sequence models for graph-structured data has recently gained popularity as the alternative to Message Passing Neural Networks (MPNNs). There is, however, a lack of a common foundation about what constitutes a good graph sequence model, and a mathematical description of the benefits and deficiencies in adopting different sequence models for learning on graphs. To this end, we first present Graph Sequence Model (GSM), a unifying framework for adopting sequence models for graphs, consisting of three main steps: (1) Tokenization, which translates the graph into a set of sequences; (2) Local Encoding, which encodes local neighborhoods around each node; and (3) Global Encoding, which employs a scalable sequence model to capture long-range dependencies within the sequences. This framework allows us to understand, evaluate, and compare the power of different sequence model backbones in graph tasks. Our theoretical evaluations of the representation power of Transformers and modern recurrent models through the lens of global and local graph tasks show that there are both negative and positive sides for both types of models. Building on this observation, we present GSM++, a fast hybrid model that uses the Hierarchical Affinity Clustering (HAC) algorithm to tokenize the graph into hierarchical sequences, and then employs a hybrid architecture of Transformer to encode these sequences. Our theoretical and experimental results support the design of GSM++, showing that GSM++ outperforms baselines in most benchmark evaluations.

Il meglio di entrambi i mondi: Vantaggi dei Modelli Ibridi di Sequenza di Grafi

Best of Both Worlds: Advantages of Hybrid Graph Sequence Models

Abstract

Support