Спекулятивное выполнение ad-hoc запросов

Аннотация

Анализ больших наборов данных требует оперативного выполнения запросов, однако выполнение SQL-запросов на огромных объемах данных может быть медленным. В данной статье исследуется возможность начала выполнения запроса еще до того, как пользователь завершит его ввод, что позволит результатам появляться практически мгновенно. Мы предлагаем систему SpeQL, которая использует большие языковые модели (LLM) для прогнозирования вероятных запросов на основе схемы базы данных, предыдущих запросов пользователя и его незавершенного запроса. Поскольку точное предсказание запроса невозможно, SpeQL спекулирует частичные запросы двумя способами: 1) предсказывает структуру запроса для предварительной компиляции и планирования запросов и 2) предварительно вычисляет временные таблицы меньшего размера, которые значительно меньше исходной базы данных, но, как предполагается, содержат всю необходимую информацию для ответа на окончательный запрос пользователя. Кроме того, SpeQL непрерывно отображает результаты для спекулятивных запросов и подзапросов в реальном времени, что способствует исследовательскому анализу. Проведенное исследование с участием пользователей показало, что SpeQL сокращает время выполнения задач, а участники отметили, что спекулятивное отображение результатов помогло им быстрее выявлять закономерности в данных. В ходе исследования SpeQL сократила задержку выполнения запросов пользователей до 289 раз, сохраняя при этом разумные накладные расходы в размере 4 доллара в час.

English

Analyzing large datasets requires responsive query execution, but executing SQL queries on massive datasets can be slow. This paper explores whether query execution can begin even before the user has finished typing, allowing results to appear almost instantly. We propose SpeQL, a system that leverages Large Language Models (LLMs) to predict likely queries based on the database schema, the user's past queries, and their incomplete query. Since exact query prediction is infeasible, SpeQL speculates on partial queries in two ways: 1) it predicts the query structure to compile and plan queries in advance, and 2) it precomputes smaller temporary tables that are much smaller than the original database, but are still predicted to contain all information necessary to answer the user's final query. Additionally, SpeQL continuously displays results for speculated queries and subqueries in real time, aiding exploratory analysis. A utility/user study showed that SpeQL improved task completion time, and participants reported that its speculative display of results helped them discover patterns in the data more quickly. In the study, SpeQL improves user's query latency by up to 289times and kept the overhead reasonable, at 4$ per hour.

Спекулятивное выполнение ad-hoc запросов

Speculative Ad-hoc Querying

Аннотация

Summary

Support