CVE-2026-44223vLLM是一个用于大型语言模型推理和服务的高性能引擎。在0.20.0版本之前,该软件在推测解码功能中存在严重缺陷。当批处理中的请求使用了采样惩罚参数(如repetition_penalty)时,extract_hidden_states提议器会在首次解码后返回维度错误的张量。这会触发RuntimeError,直接导致EngineCore进程崩溃。攻击者仅需发送一个包含惩罚参数的请求,即可利用此漏洞造成服务器拒绝服务。
该漏洞根源在于vLLM在处理推测解码请求时的张量形状管理逻辑存在缺陷。具体而言,在0.20.0之前的版本中,当批处理请求中包含任何使用了采样惩罚参数(例如repetition_penalty、frequency_penalty或presence_penalty)的请求时,系统内部的extract_hidden_states提议器在完成首次解码步骤后,未能正确计算或维护输出张量的维度。这导致返回的张量形状与下游组件期望的形状不匹配,进而触发了RuntimeError运行时错误。由于缺乏足够的异常捕获机制,该错误直接导致负责模型推理的EngineCore核心进程崩溃终止。攻击者无需高权限,仅需通过网络发送构造好的恶意API请求即可触发该漏洞,造成服务器拒绝服务,严重影响服务的可用性。