mitmproxy+Playwright绕过Cloudflare五秒盾实战：原理、配置与自动化

发布时间：2026/6/19 17:27:08

1. 项目概述与核心挑战最近在做一个数据采集项目时遇到了一个非常典型的“硬骨头”目标网站部署了Cloudflare的五秒盾Challenge Platform每次请求都会弹出一个验证页面要求你点击“我不是机器人”或者完成一个旋转拼图。对于传统的requests、Scrapy甚至Selenium来说这几乎是一道无法逾越的屏障。直接请求会被拦截而模拟浏览器虽然能看到页面但验证流程本身会打断自动化脚本导致爬虫无法连续工作。我的需求很明确要能稳定、高效、无感地绕过这个验证直接获取到验证后的页面数据。经过一番折腾和实测我找到了一套在2026年初依然稳定可用的组合方案mitmproxy Playwright。这个方案的核心思路不是去“破解”Cloudflare的验证机制——那几乎是不可能的也是不推荐的。我们的思路是“欺骗”与“接管”先用Playwright这个现代浏览器自动化工具模拟真人完成一次完整的验证流程并在这个过程中通过mitmproxy这个中间人代理截获并保存下验证成功后的关键“通行证”主要是Cookies和请求头。之后我们的爬虫程序就可以携带这些“通行证”像正常用户一样直接请求目标数据接口实现无感爬取。听起来有点复杂别担心我会把整个流程拆解得清清楚楚从原理到每一步的实操包括我踩过的坑和总结的避雷指南都会毫无保留地分享出来。无论你是爬虫新手还是遇到过类似难题的老手这篇实战记录都能给你提供一个清晰、可复现的解决方案。2. 技术选型与工具原理深度解析为什么是mitmproxy加Playwright这个组合不是凭空想出来的而是基于Cloudflare防护机制和现代浏览器自动化特点的针对性选择。我们先来拆解一下这两个核心工具在此场景下的角色。2.1 Playwright模拟真人交互的“演员”Playwright是微软开源的一个浏览器自动化库支持Chromium、Firefox和WebKit。相比于老牌的Selenium它的优势在于更快的执行速度与浏览器引擎的通信协议更高效。更丰富的API原生支持等待网络请求、拦截修改请求/响应、模拟移动设备、地理位置等对于处理复杂页面如验证码非常有用。更好的异步支持对Pythonasyncio的原生支持适合高并发场景。在本方案中Playwright的核心任务就是“表演”。它需要启动一个真实的浏览器实例通常用Chromium加载目标网站等待Cloudflare验证出现然后模拟人类进行点击或拖拽操作完成验证。这个过程是必须的因为Cloudflare的验证如hCaptcha或Turnstile背后有复杂的行为分析和风险评估模型只有通过真实浏览器环境下的真人或高度仿真的交互才能通过。注意单纯用Playwright绕过验证不是长久之计。Cloudflare会检测自动化特征频繁的、规律性的验证操作可能导致IP或会话被标记。因此我们的策略是“一次验证多次使用”这正是需要mitmproxy的原因。2.2 mitmproxy截获并管理通行证的“管家”mitmproxy是一个用Python编写的、功能强大的交互式HTTPS代理。它可以拦截、检查、修改和重放HTTP/HTTPS流量。在本方案中mitmproxy扮演着“中间人”和“凭证保管员”的关键角色。其工作流程如下代理设置我们将Playwright浏览器的网络流量导向mitmproxy。流量镜像当Playwright浏览器完成Cloudflare验证并开始加载验证后的实际页面或发起API请求时所有这些请求和响应都会经过mitmproxy。凭证提取我们编写一个mitmproxy的插件addon专门用于从经过的流量中筛选出指向目标域名的请求然后从中提取关键的认证信息最主要的就是Cookie请求头和可能存在的特定认证头如Authorization、CF-Clearance等。持久化存储将这些提取出来的凭证Cookies等保存到本地文件如JSON或数据库中。这样一来我们的爬虫程序就不再需要每次都启动浏览器进行验证了。它只需要在发起请求前从存储中加载最新的有效凭证将其添加到请求头中就可以直接访问被保护的内容了。mitmproxy在这里完美解决了“浏览器自动化获取凭证”和“程序化请求使用凭证”之间的桥梁问题。2.3 组合优势与潜在风险优势高成功率利用真实浏览器通过验证凭证是真实有效的。低资源消耗浏览器只需在凭证失效时启动一次后续爬取使用轻量的HTTP客户端如aiohttp,httpx效率极高。灵活性强mitmproxy脚本可以定制化提取任何需要的请求信息适应不同网站的防护策略。风险与注意事项证书安装mitmproxy需要安装自己的CA证书到系统或浏览器信任库才能解密HTTPS流量。这是必要步骤但需要用户明确知晓风险。凭证过期Cloudflare颁发的凭证如cf_clearanceCookie有生命周期可能几小时或几天后失效。程序需要具备检测失效和自动触发重新验证即重新运行Playwright流程的能力。IP与行为风控即使有有效凭证如果爬取频率过高、行为模式异常仍然可能触发Cloudflare的二次验证或IP封禁。需要合理设置请求间隔、使用代理IP池等辅助手段。道德与法律边界本技术仅用于学习与研究以及获取公开且允许爬取的数据。务必遵守网站的robots.txt协议尊重数据版权避免对目标网站造成过大负荷。3. 环境搭建与核心配置实战理论讲清楚了我们开始动手。整个环境搭建分为三个部分mitmproxy安装与证书配置、Playwright环境准备、以及编写连接两者的桥梁脚本。3.1 mitmproxy安装与CA证书配置首先我们安装mitmproxy。推荐使用Python的pip包管理器这样可以方便地安装和管理其插件。pip install mitmproxy安装完成后系统会新增三个命令mitmproxy终端交互式、mitmdump命令行式最常用、mitmwebWeb UI式。我们主要使用mitmdump来运行我们的脚本。最关键的一步安装CA证书。这是mitmproxy能够解密HTTPS流量的前提。启动mitmproxy一次它会自动生成证书文件。mitmdump按CtrlC停止。找到证书文件。通常在用户目录下的.mitmproxy文件夹中如~/.mitmproxy/mitmproxy-ca-cert.pem或mitmproxy-ca-cert.cer。将证书安装到系统信任库。这一步因操作系统而异macOS: 双击.cer文件打开钥匙串访问找到该证书双击打开在“信任”设置中将“使用此证书时”设置为“始终信任”。Windows: 双击.cer文件点击“安装证书”选择“本地计算机”下一步选择“将所有的证书都放入下列存储”点击“浏览”选择“受信任的根证书颁发机构”然后完成。Linux: 将.pem证书文件复制到/usr/local/share/ca-certificates/然后执行sudo update-ca-certificates。重要提示如果你需要让Playwright或手机、其他设备的流量走mitmproxy代理那么在该设备上也需要安装并信任此CA证书。对于Playwright我们通常通过启动参数指定代理并忽略证书错误不推荐生产环境或手动导入证书到其浏览器环境。更常见的做法是在脚本中配置ignore_https_errorsTrue但会降低安全性。我们稍后在Playwright配置中会说明。3.2 Playwright环境安装与浏览器初始化接下来安装Playwright的Python库和它所需的浏览器内核。pip install playwright playwright install chromium这里我们选择安装Chromium因为它是最轻量且与Playwright集成最好的。现在我们来编写第一个Playwright脚本用于启动一个被mitmproxy代理的浏览器并访问目标网站。我们创建一个文件cf_challenge_solver.py。import asyncio from playwright.async_api import async_playwright async def solve_cf_challenge(target_url, proxy_server): 使用Playwright通过代理访问目标URL并尝试解决Cloudflare验证。 :param target_url: 目标网站地址 :param proxy_server: mitmproxy代理服务器地址如 http://127.0.0.1:8080 async with async_playwright() as p: # 启动浏览器并配置代理和忽略HTTPS错误因为用了自签名CA browser await p.chromium.launch( headlessFalse, # 设为True可无头运行但调试时建议False proxy{ server: proxy_server, # 如果mitmproxy需要认证可添加username和password }, args[ --ignore-certificate-errors, # 忽略证书错误配合mitmproxy使用 --disable-blink-featuresAutomationControlled, # 隐藏自动化特征 --disable-web-security, # 可选禁用同源策略有时有助于调试 ] ) # 创建上下文可以进一步设置User-Agent、视口等 context await browser.new_context( viewport{width: 1920, height: 1080}, user_agentMozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ... # 设置一个常见的UA ) page await context.new_page() print(f正在访问: {target_url}) # 导航到目标页面设置较长的超时时间以等待验证完成 try: await page.goto(target_url, wait_untilnetworkidle, timeout60000) except Exception as e: print(f页面导航发生错误: {e}) # 这里是一个关键点我们需要等待验证完成。 # Cloudflare验证成功后页面通常会重定向或加载出实际内容。 # 我们可以通过等待某个特定元素出现来判断。 # 例如等待一个验证后才会出现的页面元素或者等待URL发生变化。 # 这里采用一个通用策略等待一段时间并检查页面标题或URL是否不再是验证相关。 await asyncio.sleep(10) # 等待10秒给验证留出时间 final_url page.url print(f当前URL: {final_url}) # 简单判断如果URL不再包含‘challenge’等字样可能验证已通过 if challenge not in final_url.lower(): print(Cloudflare验证可能已通过。) # 此时页面的Cookies已经包含了关键凭证。 # 我们可以获取这些Cookies但更好的方式是通过mitmproxy统一捕获。 cookies await context.cookies() print(f获取到Cookies数量: {len(cookies)}) # 可以将cookies保存下来但注意通过context.cookies()获取的cookies可能不包含HttpOnly的cookie而mitmproxy可以。 else: print(可能仍处于验证页面需要手动干预或调整脚本。) # 可以在这里加入自动识别验证元素并点击的代码如识别“Verify you are human”按钮但这部分不稳定且可能违反服务条款。 # 为了给mitmproxy足够时间捕获所有请求我们再多停留一会儿并模拟一些滚动操作触发更多请求。 await page.evaluate(window.scrollTo(0, document.body.scrollHeight)) await asyncio.sleep(5) # 关闭浏览器 await browser.close() print(浏览器已关闭。) if __name__ __main__: target_url https://target-website.com # 替换为你的目标网站 proxy_server http://127.0.0.1:8080 # mitmproxy默认监听端口 asyncio.run(solve_cf_challenge(target_url, proxy_server))这个脚本做了几件事启动一个配置了代理的浏览器访问目标网站等待并尝试让验证完成最后关闭。它本身并不直接提取凭证而是为mitmproxy创造捕获流量的条件。3.3 编写mitmproxy插件捕获关键凭证这是整个方案的大脑。我们将编写一个mitmproxy的addon来监听所有流量过滤出目标域名的请求并提取其中的Cookie等头部信息。创建一个文件credential_saver.py# credential_saver.py from mitmproxy import http, ctx import json import os from urllib.parse import urlparse class CredentialSaver: def __init__(self, target_domain, output_filecredentials.json): 初始化凭证保存器。 :param target_domain: 需要捕获凭证的目标域名如 target-website.com :param output_file: 保存凭证的JSON文件路径 self.target_domain target_domain self.output_file output_file self.credentials { cookies: {}, headers: {} } ctx.log.info(fCredentialSaver初始化目标域名: {self.target_domain}输出文件: {self.output_file}) def request(self, flow: http.HTTPFlow): 每个请求都会经过此方法这里主要用于记录或修改请求。 pass def response(self, flow: http.HTTPFlow): 每个响应都会经过此方法我们在这里提取凭证。 # 只处理目标域名的响应 if self.target_domain in flow.request.pretty_host: ctx.log.info(f拦截到目标域名响应: {flow.request.url}) # 1. 从响应头中提取Set-Cookie如果服务器设置了新的Cookie if set-cookie in flow.response.headers: cookies flow.response.headers.get_all(set-cookie) for cookie_str in cookies: # 简单解析cookie字符串获取name和value # 注意这是一个简单解析复杂的cookie可能需要更严谨的解析库 cookie_parts cookie_str.split(;)[0].split(, 1) if len(cookie_parts) 2: name, value cookie_parts self.credentials[cookies][name.strip()] value.strip() ctx.log.info(f捕获到Cookie: {name}) # 2. 从请求头中提取Cookie和可能的其他认证头这是更主要的来源 # 因为验证后的请求会携带完整的Cookie cookie_header flow.request.headers.get(cookie) if cookie_header: # 解析Cookie请求头字符串 # 格式通常是 name1value1; name2value2; ... for cookie_pair in cookie_header.split(;): pair cookie_pair.strip().split(, 1) if len(pair) 2: name, value pair self.credentials[cookies][name] value # 3. 提取其他可能重要的认证头例如 Authorization, CF-Clearance等 important_headers [authorization, cf-clearance, x-auth-token] # 根据目标网站调整 for header in important_headers: value flow.request.headers.get(header) if value: self.credentials[headers][header] value ctx.log.info(f捕获到重要头: {header}) # 4. 将凭证实时保存到文件每次捕获都更新 self._save_credentials() def _save_credentials(self): 将当前凭证保存到JSON文件。 try: with open(self.output_file, w, encodingutf-8) as f: json.dump(self.credentials, f, indent2, ensure_asciiFalse) ctx.log.info(f凭证已保存至: {self.output_file}) except Exception as e: ctx.log.error(f保存凭证文件失败: {e}) # 这个函数是mitmproxy加载addon的入口 addons [ CredentialSaver(target_domaintarget-website.com, output_file./cf_credentials.json) ]这个addon会监听所有流量当发现请求的主机名包含我们指定的目标域名时就会从请求和响应中提取Cookie和其他认证头并实时保存到一个JSON文件中。4. 完整工作流串联与自动化脚本现在我们把所有部分串联起来形成一个自动化的工作流。我们需要按顺序做三件事启动mitmproxy加载我们的addon。运行Playwright脚本其流量经过mitmproxy。爬虫程序使用mitmproxy捕获的凭证进行数据爬取。我们可以编写一个主控脚本来管理这个过程。创建一个main_orchestrator.py文件# main_orchestrator.py import subprocess import time import json import asyncio import sys import os from playwright.async_api import async_playwright import aiohttp # 用于后续爬取示例使用aiohttp def start_mitmproxy(): 启动mitmproxy进程。 # 构建命令使用mitmdump加载我们的addon脚本静默运行-q cmd [ sys.executable, -m, mitmdump, -s, credential_saver.py, # 指定addon脚本 -q, # 安静模式减少输出 --set, confdir./.mitmproxy # 可选指定配置目录 ] ctx.log.info(正在启动mitmproxy...) process subprocess.Popen( cmd, stdoutsubprocess.PIPE, stderrsubprocess.PIPE, textTrue ) # 等待几秒确保mitmproxy启动完成 time.sleep(5) return process async def run_playwright_challenge(): 运行Playwright脚本以解决验证。 from cf_challenge_solver import solve_cf_challenge # 导入之前写的函数 target_url https://target-website.com proxy http://127.0.0.1:8080 await solve_cf_challenge(target_url, proxy) async def crawl_with_credentials(): 使用捕获的凭证进行数据爬取。 credential_file ./cf_credentials.json if not os.path.exists(credential_file): print(未找到凭证文件请先运行验证流程。) return with open(credential_file, r, encodingutf-8) as f: creds json.load(f) cookies_dict creds.get(cookies, {}) headers creds.get(headers, {}) # 将cookies字典转换为aiohttp可用的格式 cookies {k: v for k, v in cookies_dict.items()} # 构建请求头合并自定义头和凭证头 request_headers { User-Agent: Mozilla/5.0 ..., Accept: application/json, text/html, */*, Accept-Language: en-US,en;q0.9, # 可以添加其他必要头 } request_headers.update(headers) # 加入从mitmproxy捕获的认证头 # 示例爬取目标网站的一个API接口 api_url https://target-website.com/api/data async with aiohttp.ClientSession(cookiescookies, headersrequest_headers) as session: try: async with session.get(api_url) as response: if response.status 200: data await response.json() # 假设是JSON响应 print(f成功获取数据示例: {data[:100]}...) # 这里进行你的数据处理和存储逻辑 else: print(f请求失败状态码: {response.status}) print(await response.text()) except Exception as e: print(f爬取过程中发生错误: {e}) async def main(): 主流程控制。 # 第1步启动mitmproxy mitm_proc start_mitmproxy() print(mitmproxy已启动。) try: # 第2步运行Playwright获取凭证 print(开始执行Cloudflare验证流程...) await run_playwright_challenge() print(验证流程执行完毕。) # 稍作停顿确保凭证文件已写入 time.sleep(2) # 第3步使用凭证进行爬取 print(开始使用凭证进行数据爬取...) await crawl_with_credentials() finally: # 确保mitmproxy进程被终止 print(正在停止mitmproxy...) mitm_proc.terminate() mitm_proc.wait() if __name__ __main__: asyncio.run(main())这个脚本将三个步骤自动化串联。运行它理论上就能完成从绕过验证到数据爬取的全过程。但在实际运行中你肯定会遇到各种问题下面就是我总结的“避坑指南”。5. 常见问题排查与实战经验总结在实际操作中我遇到了不少坑这里把典型问题和解决方案列出来希望能帮你节省大量时间。5.1 mitmproxy无法捕获Playwright流量现象mitmproxy控制台没有输出或者没有捕获到目标域名的请求。排查检查代理配置确保Playwright启动时指定的代理地址http://127.0.0.1:8080与mitmproxy监听地址一致。mitmproxy默认监听8080端口。检查证书Playwright脚本中设置了--ignore-certificate-errors这是最常见的做法。如果没设置浏览器会因证书不受信任而中断连接。你也可以尝试将mitmproxy的CA证书手动导入到Playwright使用的浏览器中但过程较复杂。检查网络环境确保没有其他全局代理如系统代理、VPN干扰。有时需要关闭它们。查看mitmproxy日志启动mitmproxy时去掉-q参数查看详细日志看是否有连接建立。5.2 Cloudflare验证无法自动通过现象Playwright浏览器卡在验证页面无法自动跳转。分析Cloudflare的Turnstile等验证系统对抗自动化能力很强。完全无人值守通过越来越难。策略增加等待与交互在脚本中增加page.wait_for_selector()等待验证相关元素出现并尝试模拟点击。但注意过于机械的点击可能被识别。使用无头模式有时无头模式headlessTrue更容易被检测。可以尝试headlessFalse甚至使用headlessnewChromium较新的无头模式。模拟更真人行为在等待验证前后随机加入page.mouse.move()模拟鼠标移动page.keyboard.down()等操作。终极方案半自动化。对于难以完全自动化的验证可以将脚本设计为“半自动”当检测到验证页面时暂停脚本弹出浏览器窗口让用户手动完成验证验证完成后脚本再继续执行。这虽然需要人工干预但保证了成功率和账号安全。可以通过监听页面URL或特定元素的变化来判断验证是否完成。5.3 捕获的凭证很快失效现象第一次爬取成功但几分钟或几小时后再次使用同样的Cookie请求返回403或重新跳转验证。原因Cloudflare的cf_clearance等Cookie是与IP地址、浏览器指纹等强绑定的且有较短的有效期。解决方案建立凭证池与刷新机制不要只依赖一份凭证。设计一个凭证管理模块定期如在每次爬取任务开始前检查凭证是否有效例如发一个HEAD请求到受保护页面。如果失效则自动触发main_orchestrator.py中的验证流程获取新凭证。结合代理IP池如果爬取量很大考虑使用代理IP。注意获取凭证时的IPPlaywright运行时和后续爬取使用的IP最好保持一致或者使用相同的代理IP池否则Cookie可能因IP变更而失效。保存完整的浏览器上下文Playwright的browser.new_context()返回的context对象包含了所有Cookies和本地存储。你可以将整个上下文状态序列化保存context.storage_state(pathstate.json)下次直接加载这个状态browser.new_context(storage_statestate.json)来恢复会话。这比只保存Cookie字符串更可靠但需要保持浏览器环境的一致性。5.4 请求频率过高导致被封即使有了有效凭证过于激进的爬取行为也会触发风控。设置合理的延迟在爬虫请求间使用asyncio.sleep(random.uniform(1, 3))加入随机延迟。限制并发数使用asyncio.Semaphore控制同时进行的请求数量。伪装请求头除了User-Agent还要注意Accept,Accept-Language,Referer,Sec-*等头的设置尽量模拟真实浏览器。尊重robots.txt始终检查并遵守目标网站的爬虫协议。5.5 mitmproxy addon脚本不生效检查脚本路径确保mitmdump -s参数指定的addon脚本路径正确。检查语法错误mitmproxy加载addon时如果有语法错误会报错。可以单独运行python -m py_compile credential_saver.py检查。重启mitmproxy修改addon脚本后需要重启mitmproxy才能生效。查看ctx.log在addon中使用ctx.log.info()输出调试信息在mitmproxy控制台查看。这套mitmproxy Playwright的方案其强大之处在于将“浏览器自动化”和“协议级爬取”的优势结合了起来。它不是为了暴力破解而是为了建立一个可持续的、低成本的凭证获取通道。整个系统的稳定运行离不开细致的调试和对目标网站反爬策略的持续观察。建议在正式大规模应用前先用小流量进行长时间测试摸清凭证的有效期和网站的风控阈值从而设计出更健壮的爬取策略。

文章详情

mitmproxy+Playwright绕过Cloudflare五秒盾实战：原理、配置与自动化

相关新闻

最新新闻

日新闻

周新闻

月新闻