하드웨어 및 소프트웨어 플랫폼 추론

Hardware and Software Platform Inference

November 7, 2024
저자: Cheng Zhang, Hanna Foerster, Robert D. Mullins, Yiren Zhao, Ilia Shumailov
cs.AI

초록

대규모 언어 모델(LLM) 추론에 대한 액세스를 구입하는 것은 상당한 초기 하드웨어 인프라 및 에너지 비용 때문에 자체 호스팅하는 것보다 일반적인 비즈니스 실천으로 자리 잡았습니다. 그러나 구매자로서는 광고된 서비스의 진위 여부를 확인할 수 있는 메커니즘이 없습니다. 예를 들어, NVIDIA H100을 사용하여 실제로 제공되고 있는지 여부와 같은 서빙 하드웨어 플랫폼을 확인할 수 없습니다. 또한, 모델 제공 업체가 광고된 것과 약간 다른 모델을 제공할 수 있다는 보고서가 있습니다. 이는 종종 더 저렴한 하드웨어에서 실행되도록 하기 위함입니다. 이렇게 하면 고객은 더 비싼 하드웨어에서 능력 있는 모델 액세스를 위해 프리미엄을 지불하지만, 실제로는 (잠재적으로 능력이 떨어질 수 있는) 더 저렴한 모델이 더 저렴한 하드웨어에서 제공될 수 있습니다. 본 논문에서는 입력-출력 동작만을 기반으로 (블랙 박스) 기계 학습 모델의 기반이 되는 아키텍처와 소프트웨어 스택을 식별하는 방법인 하드웨어 및 소프트웨어 플랫폼 추론(HSPI)을 소개합니다. 우리의 방법은 다양한 아키텍처와 컴파일러의 고유한 차이를 활용하여 다양한 유형과 소프트웨어 스택을 구별합니다. 모델의 출력에서 숫자 패턴을 분석함으로써, 우리는 사용된 모델 추론 및 기저 소프트웨어 구성을 정확하게 식별할 수 있는 분류 프레임워크를 제안합니다. 우리의 연구 결과는 블랙 박스 모델로부터 유형을 추론하는 것이 가능함을 입증합니다. 우리는 HSPI를 다른 실제 하드웨어에서 제공되는 모델에 대해 평가하고, 화이트 박스 설정에서는 83.9%에서 100%의 정확도로 다른 유형을 구별할 수 있음을 발견했습니다. 심지어 블랙 박스 설정에서도 무작위 추측 정확도보다 최대 세 배 높은 결과를 얻을 수 있었습니다.
English
It is now a common business practice to buy access to large language model (LLM) inference rather than self-host, because of significant upfront hardware infrastructure and energy costs. However, as a buyer, there is no mechanism to verify the authenticity of the advertised service including the serving hardware platform, e.g. that it is actually being served using an NVIDIA H100. Furthermore, there are reports suggesting that model providers may deliver models that differ slightly from the advertised ones, often to make them run on less expensive hardware. That way, a client pays premium for a capable model access on more expensive hardware, yet ends up being served by a (potentially less capable) cheaper model on cheaper hardware. In this paper we introduce \textbf{hardware and software platform inference (HSPI)} -- a method for identifying the underlying architecture and software stack of a (black-box) machine learning model solely based on its input-output behavior. Our method leverages the inherent differences of various architectures and compilers to distinguish between different types and software stacks. By analyzing the numerical patterns in the model's outputs, we propose a classification framework capable of accurately identifying the used for model inference as well as the underlying software configuration. Our findings demonstrate the feasibility of inferring type from black-box models. We evaluate HSPI against models served on different real hardware and find that in a white-box setting we can distinguish between different s with between 83.9% and 100% accuracy. Even in a black-box setting we are able to achieve results that are up to three times higher than random guess accuracy.

Summary

AI-Generated Summary

PDF32November 13, 2024