CVE-2026-34760vLLM是一个大语言模型推理引擎。在0.5.5至0.18.0之前的版本中,由于Librosa默认使用numpy.mean进行单声道下混音,未遵循ITU-R BS.775-4标准,导致人类听到的音频与AI模型处理的音频存在不一致。攻击者可能利用此差异导致模型处理结果错误,影响模型输出的完整性和可用性。
该漏洞源于vLLM在处理音频输入时,依赖的Librosa库(版本0.5.5至0.18.0之前)在进行立体声转单声道的下混音(downmixing)操作时,默认使用了算术平均算法(numpy.mean)。然而,根据国际电信联盟ITU-R BS.775-4标准,正确的下混音应采用加权算法。这种算法差异导致了音频数据在经过模型处理前发生了非预期的变换,使得AI模型“听”到的音频内容与人类通过耳机或扬声器听到的内容不一致。攻击者可以构造特定的恶意音频文件,利用这种处理差异欺骗模型,导致模型输出错误的推理结果或绕过基于音频内容的检测机制,从而对系统完整性造成严重影响。