CVE-2026-34760 CVSS 5.9 中危

CVE-2026-34760 vLLM音频下混音处理不一致漏洞

披露日期: 2026-04-02

来源: [email protected]

漏洞信息

漏洞编号

CVE-2026-34760

漏洞类型

逻辑缺陷

CVSS评分

5.9 中危

攻击向量

网络 (AV:N)

认证要求

低权限 (PR:L)

用户交互

无需交互 (UI:N)

影响产品

vLLM

漏洞概述

vLLM是一个大语言模型推理引擎。在0.5.5至0.18.0之前的版本中，由于Librosa默认使用numpy.mean进行单声道下混音，未遵循ITU-R BS.775-4标准，导致人类听到的音频与AI模型处理的音频存在不一致。攻击者可能利用此差异导致模型处理结果错误，影响模型输出的完整性和可用性。

技术细节

该漏洞源于vLLM在处理音频输入时，依赖的Librosa库（版本0.5.5至0.18.0之前）在进行立体声转单声道的下混音（downmixing）操作时，默认使用了算术平均算法（numpy.mean）。然而，根据国际电信联盟ITU-R BS.775-4标准，正确的下混音应采用加权算法。这种算法差异导致了音频数据在经过模型处理前发生了非预期的变换，使得AI模型“听”到的音频内容与人类通过耳机或扬声器听到的内容不一致。攻击者可以构造特定的恶意音频文件，利用这种处理差异欺骗模型，导致模型输出错误的推理结果或绕过基于音频内容的检测机制，从而对系统完整性造成严重影响。

攻击链分析

STEP 1

步骤1: 侦察

攻击者识别目标系统使用了受影响版本（0.5.5 <= v < 0.18.0）的vLLM推理引擎，并确认该引擎处理音频输入。

STEP 2

步骤2: 构造恶意音频

攻击者分析Librosa的算术平均下混音算法与ITU-R标准的差异，构造一段特殊的立体声音频。该音频在经过简单的算术平均后，会保留或增强特定的特征，而在遵循标准的设备上播放时听起来完全不同。

STEP 3

步骤3: 提交载荷

攻击者将构造好的恶意音频文件上传至vLLM服务的接口，请求模型进行处理或推理。

STEP 4

步骤4: 漏洞利用

vLLM调用的Librosa库使用`numpy.mean`将音频转为单声道，导致AI模型接收到的音频特征与人类感知（标准算法）严重偏离。

STEP 5

步骤5: 影响达成

模型基于错误的音频特征进行推理，产生错误的输出结果（完整性影响），甚至可能被诱导绕过安全检测机制。

PoC / 利用代码

⚠️ 仅供安全研究

以下代码仅用于安全研究和授权测试，未经授权使用属于违法行为。

PoC

import numpy as np

# Simulating stereo audio data (2 channels)
# Channel 0: Intended signal
# Channel 1: Noise or secondary signal
stereo_audio = np.array([
    [1.0, 0.0],
    [1.0, 0.0],
    [-1.0, 0.0],
    [-1.0, 0.0]
])

# 1. Vulnerable Downmix (Librosa < 0.18.0 default via numpy.mean)
# This is what the vLLM model processes
vulnerable_result = np.mean(stereo_audio, axis=0)
print(f"Vulnerable (AI Model Input): {vulnerable_result}")

# 2. Standard Downmix (ITU-R BS.775-4 compliant)
# Simplified representation of standard weighted downmix
# (e.g. -3dB or -4.5dB pan law)
standard_result = 0.7079 * (stereo_audio[:, 0] + stereo_audio[:, 1])
print(f"Standard (Human Perception): {standard_result}")

# If results differ significantly, an adversarial attack is possible
if not np.allclose(vulnerable_result, standard_result, atol=0.1):
    print("[+] Discrepancy detected: Model hears something different than humans.")

影响范围

vLLM >= 0.5.5, < 0.18.0

防御指南

临时缓解措施

在无法立即升级vLLM的情况下，建议在应用程序接入vLLM之前，自行实现符合ITU-R BS.775-4标准的音频预处理模块，将立体声音频正确转换为单声道后再输入给模型。

参考链接

快速导航: 前沿安全最新收录域名列表最新威胁情报列表最新网站排名列表最新工具资源列表最新CVE漏洞列表