CVE-2025-66516Apache Tika是一个流行的开源内容检测和解析库,广泛用于从各种文档格式中提取元数据和文本内容。该漏洞影响Apache Tika的多个核心模块,包括tika-core(1.13至3.2.1版本)、tika-pdf-module(2.0.0至3.2.1版本)以及tika-parsers(1.13至1.28.5版本)。攻击者可以通过在PDF文件中嵌入恶意的XFA(XML Forms Architecture)表单来触发XML外部实体(XXE)注入攻击。由于Apache Tika在处理PDF文档时会解析其中的XML内容,攻击者可以利用这一特性读取服务器上的任意文件或执行拒绝服务攻击。此漏洞是CVE-2025-54988的扩展版本,不仅修复了原有的入口点问题,还扩大了受影响模块的范围。值得注意的是,即使用户之前仅升级了tika-parser-pdf-module而未升级tika-core到3.2.2或更高版本,仍然存在被攻击的风险。
Apache Tika在解析PDF文件时,会处理其中的XFA(XML Forms Architecture)表单数据。XFA是一种基于XML的表单技术,允许在PDF中嵌入复杂的交互式表单。问题出在Tika的XML解析器在处理这些XFA数据时,没有正确禁用外部实体引用功能。攻击者可以在XFA XML数据中定义恶意的外部实体,例如:<!DOCTYPE foo [<!ENTITY xxe SYSTEM "file:///etc/passwd">]><foo>&xxe;</foo>。当Tika解析这个特制的PDF文件时,会尝试加载外部实体,导致敏感文件被读取或触发SSRF攻击。由于CVSS评分为8.4且攻击向量为本地(AV:L),这意味着攻击需要本地访问或通过其他方式(如钓鱼邮件)诱骗用户打开恶意PDF文件。攻击成功后,攻击者可以读取服务器上的配置文件、密钥文件、密码文件等敏感信息,甚至可能通过file://协议或其他支持的网络协议进行进一步攻击。