행렬 핵 노름을 통한 대규모 언어 모델 평가

Large Language Model Evaluation via Matrix Nuclear-Norm

October 14, 2024
저자: Yahan Li, Tingyu Xia, Yi Chang, Yuan Wu
cs.AI

초록

대형 언어 모델(LLM)이 계속 발전함에 따라 효율적인 평가 지표는 정보를 압축하고 중복을 줄이는 능력을 평가하는 데 중요합니다. 행렬 엔트로피와 같은 전통적인 지표는 가치 있는 통찰을 제공하지만 대규모 모델에서 특이값 분해(SVD)를 사용하여 \( O(n^3) \)의 시간 복잡성으로 연산이 많이 필요합니다. 이 문제를 완화하기 위해 행렬 핵 노름을 소개합니다. 이는 LLM의 데이터 압축 능력을 측정하는 지표로서만 아니라 예측 구분력과 다양성을 모두 포착하기 위한 행렬 랭크의 볼록 근사치로 제공됩니다. 핵 노름을 더 근사하기 위해 \( L_{1,2}-norm \)을 사용하여 모델의 정보 압축 능력을 효과적으로 평가할 수 있습니다. 이 접근 방식은 시간 복잡성을 \( O(n^2) \)로 줄이고 SVD 연산이 필요 없게 합니다. 결과적으로 행렬 핵 노름은 CEREBRAS-GPT 모델에서 크기가 111M에서 6.7B로 증가함에 따라 행렬 엔트로피보다 8배에서 24배 빠른 속도를 달성합니다. 이 성능 차이는 Pythia와 같은 다른 모델에서도 확인되며 더 큰 모델일수록 더 두드러집니다. 또한, 벤치마크 및 모델 응답에 대한 평가는 제안된 행렬 핵 노름이 LLM의 성능을 평가하는 믿을 수 있고 확장 가능하며 효율적인 도구임을 확인합니다. 이는 정확성과 계산 효율성 사이의 균형을 이룹니다. 코드는 https://github.com/MLGroupJLU/MatrixNuclearNorm에서 사용할 수 있습니다.
English
As large language models (LLMs) continue to evolve, efficient evaluation metrics are vital for assessing their ability to compress information and reduce redundancy. While traditional metrics like Matrix Entropy offer valuable insights, they are computationally intensive for large-scale models due to their \( O(n^3) \) time complexity with Singular Value Decomposition (SVD). To mitigate this issue, we introduce the Matrix Nuclear-Norm, which not only serves as a metric to quantify the data compression proficiency of LLM but also provides a convex approximation of matrix rank to capture both predictive discriminability and diversity. By employing the \( L_{1,2}-norm \) to further approximate the nuclear norm, we can effectively assess the model's information compression capabilities. This approach reduces the time complexity to \( O(n^2) \) and eliminates the need for SVD computation. Consequently, the Matrix Nuclear-Norm achieves speeds 8 to 24 times faster than Matrix Entropy for the CEREBRAS-GPT model as sizes increase from 111M to 6.7B. This performance gap becomes more pronounced with larger models, as validated in tests with other models like Pythia. Additionally, evaluations on benchmarks and model responses confirm that our proposed Matrix Nuclear-Norm is a reliable, scalable, and efficient tool for assessing LLMs' performance, striking a balance between accuracy and computational efficiency. The code is available at https://github.com/MLGroupJLU/MatrixNuclearNorm.

Summary

AI-Generated Summary

PDF182November 16, 2024