Hardware- en softwareplatforminferentie
Hardware and Software Platform Inference
November 7, 2024
Auteurs: Cheng Zhang, Hanna Foerster, Robert D. Mullins, Yiren Zhao, Ilia Shumailov
cs.AI
Samenvatting
Het is tegenwoordig een gangbare zakelijke praktijk om toegang te kopen tot grote taalmodellen (LLM) voor inferentie in plaats van zelf te hosten, vanwege aanzienlijke initiële hardware-infrastructuur- en energiekosten. Echter, als koper is er geen mechanisme om de authenticiteit van de geadverteerde service te verifiëren, inclusief het serverhardwareplatform, bijvoorbeeld dat het daadwerkelijk wordt bediend met behulp van een NVIDIA H100. Bovendien zijn er rapporten die suggereren dat modelaanbieders modellen kunnen leveren die licht afwijken van de geadverteerde modellen, vaak om ze te laten werken op minder dure hardware. Op die manier betaalt een klant een premie voor toegang tot een capabel model op duurdere hardware, maar wordt uiteindelijk bediend door een (mogelijk minder capabel) goedkoper model op goedkopere hardware. In dit artikel introduceren we \textbf{hardware- en softwareplatforminferentie (HSPI)} - een methode om de onderliggende architectuur en softwarestack van een (black-box) machine learning model te identificeren uitsluitend op basis van het invoer-uitvoergedrag. Onze methode maakt gebruik van de inherente verschillen tussen verschillende architecturen en compilers om onderscheid te maken tussen verschillende typen en softwarestacks. Door de numerieke patronen in de uitvoer van het model te analyseren, stellen we een classificatiekader voor dat in staat is om nauwkeurig de gebruikte hardware voor modelinferentie en de onderliggende softwareconfiguratie te identificeren. Onze bevindingen tonen de haalbaarheid aan van het afleiden van het type hardware van black-box modellen. We evalueren HSPI tegen modellen die worden bediend op verschillende echte hardware en vinden dat we in een white-box setting onderscheid kunnen maken tussen verschillende typen met een nauwkeurigheid tussen 83,9% en 100%. Zelfs in een black-box setting kunnen we resultaten behalen die tot drie keer hoger zijn dan de nauwkeurigheid van willekeurig raden.
English
It is now a common business practice to buy access to large language model
(LLM) inference rather than self-host, because of significant upfront hardware
infrastructure and energy costs. However, as a buyer, there is no mechanism to
verify the authenticity of the advertised service including the serving
hardware platform, e.g. that it is actually being served using an NVIDIA H100.
Furthermore, there are reports suggesting that model providers may deliver
models that differ slightly from the advertised ones, often to make them run on
less expensive hardware. That way, a client pays premium for a capable model
access on more expensive hardware, yet ends up being served by a (potentially
less capable) cheaper model on cheaper hardware. In this paper we introduce
\textbf{hardware and software platform inference (HSPI)} -- a method
for identifying the underlying architecture and software stack of a
(black-box) machine learning model solely based on its input-output behavior.
Our method leverages the inherent differences of various architectures
and compilers to distinguish between different types and software
stacks. By analyzing the numerical patterns in the model's outputs, we propose
a classification framework capable of accurately identifying the used
for model inference as well as the underlying software configuration. Our
findings demonstrate the feasibility of inferring type from black-box
models. We evaluate HSPI against models served on different real hardware and
find that in a white-box setting we can distinguish between different s
with between 83.9% and 100% accuracy. Even in a black-box setting we are
able to achieve results that are up to three times higher than random guess
accuracy.Summary
AI-Generated Summary