当前位置：首页 > news >正文

Selenium性能调优实战：从浏览器配置到等待策略的全面优化指南

news 2026/7/2 23:55:00

1. 项目概述：为什么Selenium需要性能调优？

如果你用过Selenium做自动化测试或者数据抓取，大概率经历过这样的场景：脚本跑得慢吞吞，页面加载等半天，一个简单的流程要好几分钟才能走完。尤其是在处理动态加载、复杂交互或者需要大量数据验证的页面时，那种等待的焦灼感，简直让人想把电脑砸了。这背后，往往不是你的代码逻辑有问题，而是Selenium的默认配置在“偷懒”。

“Selenium性能提升必备配置”这个主题，正是为了解决这个痛点。它不是一个高深莫测的理论研究，而是一套从实战中总结出来的、立竿见影的“组合拳”。核心目标很简单：在保证脚本稳定性和功能正确性的前提下，尽可能地缩短执行时间，提升资源利用效率。这不仅仅是快几秒钟的问题，对于需要高频次执行的回归测试套件、大规模数据采集任务，或者是在CI/CD流水线中集成的自动化测试来说，性能提升意味着更快的反馈周期、更低的服务器成本和更高的工作效率。

适合谁来关注这些配置？无论你是刚入门Selenium、苦于脚本运行太慢的新手，还是已经搭建了自动化框架、希望进一步优化执行效率的资深工程师，这里面的技巧都能给你带来直接的收益。接下来，我不会空谈理论，而是会结合我踩过的无数个坑，带你逐一拆解那些能让Selenium“飞起来”的关键配置项，从浏览器驱动选项到等待策略，从网络模拟到资源管理，让你彻底告别漫长的等待。

2. 核心思路：性能瓶颈分析与优化方向

在动手改配置之前，我们得先搞清楚Selenium脚本到底慢在哪里。盲目优化就像蒙着眼睛跑步，可能方向都错了。根据我的经验，Selenium的性能瓶颈主要集中在这几个方面：

2.1 网络与页面加载延迟这是最直观的慢。每次driver.get(url)，浏览器都需要发起HTTP请求、接收响应、下载HTML、CSS、JavaScript、图片等资源，然后进行解析、渲染。网络波动、服务器响应慢、页面资源过大（尤其是未压缩的图片和脚本）都会导致这里卡住。更头疼的是单页应用（SPA），它们往往依赖Ajax动态加载数据，页面“看起来”加载完了，但你需要的数据可能还在路上。

2.2 浏览器自身的开销与渲染Selenium通过WebDriver协议控制的是一个真实的、完整的浏览器实例（如Chrome、Firefox）。浏览器启动需要时间，每个标签页、扩展程序都会消耗内存和CPU。浏览器的渲染引擎（如Blink、Gecko）在绘制复杂页面时也非常吃资源。默认情况下，浏览器会为了更好的用户体验做很多事，比如预加载、缓存、GPU加速等，但在自动化场景下，有些功能非但无益，反而成了负担。

2.3 脚本逻辑与元素定位效率你的代码本身也可能是瓶颈。低效的元素定位策略（如频繁使用XPath遍历复杂DOM）、不必要的重复操作、缺乏合理的等待机制（滥用time.sleep）都会让脚本无谓地空转。此外，如果脚本结构混乱，没有做好错误处理和重试，一次偶然的元素查找失败就可能导致整个脚本长时间挂起。

2.4 资源竞争与环境限制当你在同一台机器上并行运行多个Selenium实例时，它们会竞争CPU、内存和网络带宽。如果资源不足，每个实例都会变慢。此外，运行脚本的机器性能、操作系统调度策略也会产生影响。

基于以上分析，我们的优化思路就清晰了，主要围绕四个方向展开：

削减冗余：关闭浏览器非必要的功能，阻止不需要的资源加载，让浏览器“轻装上阵”。
加速交互：优化元素定位策略，采用智能等待，减少脚本“发呆”的时间。
改善环境：调整浏览器和WebDriver的启动参数，合理管理资源。
并行与复用：在可能的情况下，利用并行执行或复用浏览器会话来提升整体吞吐量。

接下来的章节，我们将深入每个方向，给出具体的、可操作的配置方案和代码示例。

3. 浏览器启动配置：给浏览器“减肥”

这是性能提升最有效、最直接的一步。我们通过给浏览器启动时传递特定的Options参数，来关闭那些在自动化测试中不需要的功能，从而大幅减少内存占用、加速启动和页面加载。

3.1 基础性能优化选项以最常用的Chrome浏览器为例，我们通过ChromeOptions来配置。以下是一组经过实战检验的“瘦身”配置：

from selenium import webdriver from selenium.webdriver.chrome.options import Options chrome_options = Options() # 1. 无头模式：不显示GUI，极大节省资源（适用于服务器/后台执行） chrome_options.add_argument('--headless') # 2. 禁用GPU加速：在无头模式或某些虚拟环境中，GPU加速可能引发问题且无用 chrome_options.add_argument('--disable-gpu') # 3. 禁用浏览器扩展和自动化提示 chrome_options.add_argument('--disable-extensions') chrome_options.add_argument('--disable-blink-features=AutomationControlled') # 4. 禁用沙箱：在某些Docker或CI环境（如GitLab Runner）中可能需要，但会降低安全性，仅限可信环境使用。 # chrome_options.add_argument('--no-sandbox') # chrome_options.add_argument('--disable-dev-shm-usage') # 解决/dev/shm内存不足问题 # 5. 设置语言和区域，避免因本地化问题导致的意外等待或布局差异 chrome_options.add_argument('--lang=en-US') chrome_options.add_argument('--window-size=1920,1080') # 设置初始窗口大小 driver = webdriver.Chrome(options=chrome_options)

注意：--no-sandbox和--disable-dev-shm-usage是解决Linux环境下常见崩溃问题的方案，但它们降低了浏览器的安全隔离级别。请仅在完全可控的测试环境（如专用的Docker容器）中使用，切勿在生产或个人日常使用的浏览器上开启。

3.2 实验性选项与高级参数Chrome还提供了一些需要通过add_experimental_option来设置的选项，它们能带来更进一步的性能提升。

prefs = { # 1. 禁止加载图片：对于不依赖UI视觉验证的测试，此条效果拔群！ 'profile.managed_default_content_settings.images': 2, # 2. 禁止加载CSS：在某些场景下也可禁用，但可能影响页面布局和JS执行，慎用。 # 'profile.managed_default_content_settings.stylesheets': 2, # 3. 禁止加载Flash：现在基本用不到了。 'profile.managed_default_content_settings.plugins': 2, # 4. 禁止弹窗（如alert, confirm）：避免脚本被阻塞。 'profile.managed_default_content_settings.popups': 2, # 5. 禁用JavaScript：仅在你操作的页面完全不依赖JS时使用！绝大多数现代网页都需要JS。 # 'profile.managed_default_content_settings.javascript': 2, # 6. 开启自动下载，并设置下载路径，避免下载弹窗阻塞。 'download.default_directory': '/tmp/downloads', 'download.prompt_for_download': False, 'download.directory_upgrade': True, 'safebrowsing.enabled': True # 安全浏览，可根据需要关闭 } chrome_options.add_experimental_option('prefs', prefs) # 另一个重要的实验性选项：排除Switches chrome_options.add_experimental_option('excludeSwitches', ['enable-automation', 'enable-logging']) # 'enable-automation' 用于隐藏“正受到自动测试软件控制”的提示，可能绕过一些简单的反爬。 # 'enable-logging' 禁用DevTools日志输出，减少控制台噪音和少量IO开销。

3.3 实战心得与避坑指南

无头模式不是万能的：虽然--headless省资源，但有些网站的JavaScript行为在无头模式下和普通模式不同，可能导致元素找不到或交互失败。如果你的脚本在无头模式下出错，可以先在GUI模式下运行排查。
图片加载的取舍：禁用图片(images:2)是提升速度的利器，尤其对于数据抓取脚本。但对于需要截图对比、验证UI样式的测试，则不能禁用。
关于disable-blink-features=AutomationControlled：这个参数可以隐藏WebDriver的一些特征，对于绕过一些基础的反爬机制有一定效果，但它不是银弹。更复杂的反爬需要结合其他策略（如修改navigator.webdriver属性）。
内存管理：如果你需要长时间运行脚本或并行多个实例，密切关注内存使用情况。除了禁用不必要的功能，定期重启浏览器实例（driver.quit()-> 重新初始化）也是一个简单粗暴但有效的防止内存泄漏的方法。

4. 网络层优化：拦截与模拟

浏览器加载的许多资源（如广告、跟踪器、非核心CSS/JS、大图）对于自动化任务来说是完全无用的。阻止这些资源的加载，能直接减少网络请求数和数据传输量，显著提升页面加载速度。这需要通过DevTools Protocol来实现。

4.1 启用性能日志与网络拦截Selenium可以通过driver.execute_cdp_cmd调用Chrome DevTools Protocol命令。我们主要利用Network域。

from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.webdriver.common.desired_capabilities import DesiredCapabilities # 关键步骤：启用性能日志，才能捕获网络请求事件 caps = DesiredCapabilities.CHROME caps['goog:loggingPrefs'] = {'performance': 'ALL'} chrome_options = Options() # ... 其他配置 ... driver = webdriver.Chrome(desired_capabilities=caps, options=chrome_options) # 启用网络跟踪 driver.execute_cdp_cmd('Network.enable', {}) # 设置请求拦截规则：阻止特定类型资源 patterns = [ {"urlPattern": "*.jpg*", "resourceType": "Image", "interceptionStage": "HeadersReceived"}, {"urlPattern": "*.png*", "resourceType": "Image", "interceptionStage": "HeadersReceived"}, {"urlPattern": "*.gif*", "resourceType": "Image", "interceptionStage": "HeadersReceived"}, {"urlPattern": "*.css*", "resourceType": "Stylesheet", "interceptionStage": "HeadersReceived"}, {"urlPattern": "*ads*", "resourceType": "Other", "interceptionStage": "Request"}, {"urlPattern": "*analytics*", "resourceType": "XHR", "interceptionStage": "Request"}, ] driver.execute_cdp_cmd('Network.setRequestInterception', {'patterns': patterns}) # 定义请求事件监听器（需配合事件循环处理，此处为原理展示） # 实际应用中，你需要在一个循环中处理 driver.get_log('performance') 返回的日志， # 解析出网络请求事件，并根据URL或资源类型决定是继续加载还是阻塞。 # 由于实现较为复杂，通常结合第三方库如 `selenium-wire` 或直接使用 `requests` + `BeautifulSoup` 对简单页面进行静态分析更高效。

4.2 使用selenium-wire进行更便捷的拦截selenium-wire是一个第三方库，它扩展了Selenium，让你能非常方便地访问请求和响应。

pip install selenium-wire

from seleniumwire import webdriver chrome_options = webdriver.ChromeOptions() chrome_options.add_argument('--headless') # 定义请求拦截函数 def interceptor(request): # 阻止所有图片请求 if request.path.endswith(('.png', '.jpg', '.jpeg', '.gif')): request.abort() # 可以修改请求头，例如设置User-Agent # request.headers['User-Agent'] = 'My Custom User Agent' driver = webdriver.Chrome(options=chrome_options) # 设置请求拦截器 driver.request_interceptor = interceptor driver.get('https://example.com') # 此时，页面上的图片将不会被加载 # 你还可以查看所有请求 for request in driver.requests: if request.response: print(request.url, request.response.status_code)

4.3 模拟弱网环境性能优化也包括确保脚本在恶劣网络下的稳定性。我们可以模拟不同的网络条件。

# 继续使用 selenium-wire 的示例 from seleniumwire import webdriver driver = webdriver.Chrome() # 模拟3G快速网络 driver.set_network_conditions( offline=False, latency=150, # 延迟，单位毫秒 download_throughput=750 * 1024, # 下载带宽，单位比特/秒 (750 kbps) upload_throughput=250 * 1024, # 上传带宽，单位比特/秒 (250 kbps) ) driver.get('https://example.com') # 页面加载将受到设定的网络条件限制

实操心得：网络拦截功能强大，但要谨慎使用。粗暴地拦截所有CSS或JS很可能导致页面功能失常或布局错乱。最佳实践是先用浏览器开发者工具的“Network”面板分析目标页面，识别出哪些是核心资源（如主要的app.js、api接口），哪些是可有可无的（如广告脚本、统计代码、装饰性图片），然后有针对性地进行拦截。对于数据抓取，拦截图片和字体通常是安全的；对于Web功能测试，则可能只拦截广告和跟踪器。

5. 等待策略优化：告别傻等，拥抱智能等待

滥用time.sleep()是Selenium脚本性能低下的头号杀手。它让脚本无条件等待固定时间，无论页面是否早已就绪。正确的做法是使用Selenium提供的显式等待（Explicit Wait）和隐式等待（Implicit Wait）。

5.1 显式等待：精准打击显式等待是针对某个特定条件（如元素可见、可点击、元素存在等）进行等待，条件满足则立即继续，超时则抛出异常。这是最推荐的方式。

from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC driver = webdriver.Chrome() driver.get('https://example.com') # 创建一个WebDriverWait对象，设置最大等待时间为10秒，轮询间隔（默认0.5秒） wait = WebDriverWait(driver, 10) try: # 等待id为“myElement”的元素出现在DOM中并可见 element = wait.until(EC.visibility_of_element_located((By.ID, 'myElement'))) # 等待元素可被点击 clickable_element = wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'submit-btn'))) # 等待旧元素从DOM中消失（例如等待加载动画结束） wait.until(EC.invisibility_of_element_located((By.ID, 'loading-spinner'))) # 等待页面标题包含特定文字 wait.until(EC.title_contains('Dashboard')) # 找到元素后进行操作 element.click() clickable_element.send_keys('data') except TimeoutException: print("等待元素超时！") # 这里可以加入截图、日志记录等调试操作 driver.save_screenshot('timeout.png')

5.2 隐式等待：全局守则隐式等待告诉WebDriver在查找任何元素时，如果未能立即找到，可以轮询DOM一段时间。它设置一次，对整个driver生命周期有效。

driver.implicitly_wait(10) # 单位：秒 # 之后所有的 find_element 操作都会最多等待10秒 element = driver.find_element(By.ID, 'someId')

重要警告：不要混合使用显式等待和隐式等待！混合使用会导致不可预知的等待时间（例如，显式等待10秒 + 隐式等待10秒 = 最多等待20秒）。我的建议是：永远只使用显式等待，因为它更精确、意图更清晰。将driver.implicitly_wait(0)来禁用隐式等待。

5.3 自定义等待条件内置的expected_conditions可能不够用，你可以轻松自定义。

from selenium.webdriver.support.ui import WebDriverWait # 自定义条件：等待元素包含特定的文本 def text_to_be_present_in_element(locator, text): def _predicate(driver): try: element_text = driver.find_element(*locator).text return text in element_text except Exception: return False return _predicate # 使用自定义条件 wait = WebDriverWait(driver, 10) locator = (By.CLASS_NAME, 'status') wait.until(text_to_be_present_in_element(locator, '完成')) # 自定义条件：等待某个JavaScript变量被定义或为特定值 def js_variable_equals(variable_name, expected_value): def _predicate(driver): actual_value = driver.execute_script(f'return {variable_name};') return actual_value == expected_value return _predicate wait.until(js_variable_equals('window.pageLoaded', true))

5.4 针对单页应用（SPA）的等待技巧SPA页面内容动态变化，传统的等待页面加载完成（EC.presence_of_element_located）可能不适用。一个更可靠的方法是等待某个标志性的、代表页面“就绪”的元素出现，或者等待网络请求空闲。

# 方法1：等待某个SPA特有的加载完成标识（需要前端配合或观察得出） wait.until(EC.invisibility_of_element_located((By.CSS_SELECTOR, '.global-loading'))) # 方法2：结合 selenium-wire，等待特定API请求完成（更精准） from seleniumwire import webdriver driver = webdriver.Chrome() def wait_for_api_response(api_url_pattern, timeout=30): """等待包含特定模式的URL的请求完成并返回响应""" import time start_time = time.time() while time.time() - start_time < timeout: for request in driver.requests: if api_url_pattern in request.url and request.response: # 可以进一步检查 response.status_code 或 body if request.response.status_code == 200: return request.response time.sleep(0.5) # 短暂轮询 raise TimeoutError(f"等待API {api_url_pattern} 响应超时") driver.get('https://spa-app.com') # 假设点击按钮会触发一个获取用户数据的API driver.find_element(By.ID, 'load-user').click() response = wait_for_api_response('/api/user/profile') # 拿到响应后，再继续后续操作，比如验证页面数据更新

6. 元素定位与操作效率

低效的元素定位是脚本内部的性能瓶颈。DOM操作是相对昂贵的，尤其是在复杂的页面上。

6.1 选择高效的定位器定位器的性能大致排序如下（从最快到最慢）：

ID(By.ID): 浏览器原生支持，速度极快。
Name(By.NAME): 也较快。
CSS Selector(By.CSS_SELECTOR): 现代浏览器优化得很好，速度很快，且非常灵活。
XPath(By.XPATH): 功能最强大，但通常速度最慢，尤其是在复杂的DOM树上。尽量避免使用以//开头的、遍历整个文档的XPath。

优化示例：

# 慢：XPath遍历 slow_element = driver.find_element(By.XPATH, '//div[@class="container"]//ul/li[3]/a') # 快：优先使用ID fast_element1 = driver.find_element(By.ID, 'submit-button') # 快：使用简洁的CSS Selector fast_element2 = driver.find_element(By.CSS_SELECTOR, '.container > ul > li:nth-child(3) > a') # 更快：如果元素有唯一的类名或属性 fast_element3 = driver.find_element(By.CSS_SELECTOR, '[data-testid="user-menu"]')

6.2 批量查找与缓存如果需要操作多个同类元素，使用find_elements（复数）一次获取，避免循环内重复查找。

# 低效：每次循环都查找 for i in range(10): # 假设每次都要重新查找这个列表 items = driver.find_elements(By.CLASS_NAME, 'list-item') # ... 操作 items[i] ... # 高效：一次查找，缓存结果 all_items = driver.find_elements(By.CLASS_NAME, 'list-item') for item in all_items: # ... 操作 item ...

对于在脚本中需要多次使用的元素，可以将其存储到变量中（缓存）。但要注意，如果页面发生了动态更新（如AJAX），缓存的元素引用可能会失效（StaleElementReferenceException）。对于静态部分可以缓存，动态部分则需在每次操作前重新查找或使用显式等待。

6.3 使用相对定位和链式调用有时，相对于一个已找到的稳定元素去定位其子元素，比使用绝对路径更可靠和高效。

# 先找到一个稳定的父容器 sidebar = wait.until(EC.presence_of_element_located((By.ID, 'sidebar'))) # 在父容器范围内查找子元素，缩小搜索范围 menu_item = sidebar.find_element(By.LINK_TEXT, 'Settings') # 或者使用相对XPath（在父元素上使用.） # menu_item = sidebar.find_element(By.XPATH, './/a[text()="Settings"]')

6.4 JavaScript直接执行对于极其复杂的操作或Selenium原生API效率低下的场景，可以考虑直接执行JavaScript。

# 示例1：滚动到元素可见（比Selenium的ActionChains在某些场景下更直接） element = driver.find_element(By.ID, 'target-element') driver.execute_script("arguments[0].scrollIntoView(true);", element) # 示例2：一次性设置多个输入框的值（避免多次send_keys的模拟键盘事件） script = """ document.getElementById('field1').value = 'value1'; document.getElementById('field2').value = 'value2'; document.querySelector('.field3').value = 'value3'; """ driver.execute_script(script) # 示例3：获取大量数据（比通过Selenium逐个获取text属性快） data_script = """ return Array.from(document.querySelectorAll('.data-row')).map(row => ({ name: row.querySelector('.name').innerText, value: row.querySelector('.value').innerText })); """ large_data_set = driver.execute_script(data_script)

注意事项：虽然execute_script很快，但它绕过了WebDriver的常规交互模拟，可能无法触发一些由原生事件（如click,input）监听器绑定的行为。使用后需验证页面状态是否符合预期。通常用于只读操作、滚动或批量初始化数据。

7. 会话管理与并行执行

当测试套件规模变大，或者需要处理大量独立任务时，如何管理浏览器会话就变得至关重要。

7.1 复用浏览器会话（高级技巧）对于需要登录状态保持的系列操作，可以尝试复用浏览器会话，避免每次get都重新登录。但这需要处理cookies和本地存储。

import pickle import os def save_cookies(driver, path): with open(path, 'wb') as file: pickle.dump(driver.get_cookies(), file) def load_cookies(driver, path, url): driver.get(url) # 先访问域名，才能设置该域名的cookie with open(path, 'rb') as file: cookies = pickle.load(file) for cookie in cookies: # 有些cookie可能有‘expiry’字段，需要是整数 if 'expiry' in cookie: # 处理可能的浮点数类型 cookie['expiry'] = int(cookie['expiry']) try: driver.add_cookie(cookie) except Exception as e: print(f"添加cookie失败: {cookie.get('name')}, 错误: {e}") driver.refresh() # 刷新页面使cookie生效 # 使用示例 driver = webdriver.Chrome() login_url = 'https://example.com/login' driver.get(login_url) # ... 执行登录操作 ... save_cookies(driver, './cookies.pkl') driver.quit() # 下次启动，直接加载cookies访问受保护页面 driver2 = webdriver.Chrome() target_url = 'https://example.com/dashboard' load_cookies(driver2, './cookies.pkl', target_url) # 此时应该已处于登录状态

7.2 使用webdriver-manager管理驱动手动下载和匹配浏览器与WebDriver版本很麻烦。webdriver-manager可以自动处理。

pip install webdriver-manager

from selenium import webdriver from selenium.webdriver.chrome.service import Service from webdriver_manager.chrome import ChromeDriverManager from webdriver_manager.firefox import GeckoDriverManager # Chrome 示例 service = Service(ChromeDriverManager().install()) driver = webdriver.Chrome(service=service) # Firefox 示例 # service = Service(GeckoDriverManager().install()) # driver = webdriver.Firefox(service=service)

7.3 并行执行与资源池对于完全独立的测试用例或抓取任务，并行化是提升整体效率的根本方法。可以使用concurrent.futures或多进程库。

from concurrent.futures import ThreadPoolExecutor, as_completed from selenium import webdriver from selenium.webdriver.chrome.options import Options def run_test(url): """一个独立的任务函数""" chrome_options = Options() chrome_options.add_argument('--headless') # ... 其他配置 ... driver = webdriver.Chrome(options=chrome_options) try: driver.get(url) # ... 执行具体的测试或抓取逻辑 ... result = f"Success: {url}" except Exception as e: result = f"Failed: {url}, Error: {e}" finally: driver.quit() return result urls = ['https://site1.com', 'https://site2.com', 'https://site3.com'] # 使用线程池（注意：WebDriver不是线程安全的，每个线程必须有自己的driver实例） max_workers = 3 # 根据你的CPU核心数和内存合理设置 with ThreadPoolExecutor(max_workers=max_workers) as executor: future_to_url = {executor.submit(run_test, url): url for url in urls} for future in as_completed(future_to_url): url = future_to_url[future] try: data = future.result() print(data) except Exception as exc: print(f'{url} generated an exception: {exc}')

并行执行的坑：
资源竞争：并行数过多会耗尽内存/CPU，导致所有任务都变慢甚至崩溃。需要根据机器性能仔细调整max_workers。
线程安全：Selenium WebDriver实例不能在线程间共享。必须确保每个线程创建自己独立的driver实例。
端口冲突：如果并行启动大量Chrome实例，可能会遇到端口耗尽的错误。可以通过--remote-debugging-port指定不同端口，但管理起来复杂。更常见的做法是使用Selenium Grid或Docker容器来隔离环境。

8. 实战问题排查与性能监控

即使配置得当，脚本仍可能遇到性能问题。掌握排查方法至关重要。

8.1 性能瓶颈定位工具

浏览器开发者工具 - Performance面板：录制脚本执行过程，分析加载、脚本执行、渲染等各阶段耗时。
浏览器开发者工具 - Network面板：查看每个请求的耗时、排队时间，找出慢请求。
自定义计时：在代码关键节点插入时间戳。

import time from contextlib import contextmanager @contextmanager def timer(description): start = time.perf_counter() yield elapsed = time.perf_counter() - start print(f"{description} took {elapsed:.2f} seconds") with timer("打开首页"): driver.get('https://example.com') with timer("查找并点击登录按钮"): login_btn = wait.until(EC.element_to_be_clickable((By.ID, 'login'))) login_btn.click()

8.2 常见性能问题速查表

问题现象	可能原因	排查与解决思路
页面加载极慢	网络差、页面资源过多、有阻塞渲染的JS/CSS	1. 使用Network面板分析请求瀑布图。 2. 启用网络拦截，阻止非核心资源（如图片、广告、分析脚本）。 3. 检查是否有同步的、外部的JS/CSS文件阻塞。
`find_element`超时	元素定位器效率低、页面未加载完成、元素在iframe内	1. 优化定位器，优先用ID、CSS Selector。 2. 在操作前添加合适的显式等待（如`visibility_of_element_located`）。 3. 检查元素是否在`iframe`里，需要先`driver.switch_to.frame`。
脚本执行慢，但网络正常	循环内重复查找DOM、使用了慢速XPath、`time.sleep`滥用	1. 缓存重复使用的元素。 2. 将`find_elements`移出循环。 3. 将所有`time.sleep`替换为显式等待。 4. 对批量操作考虑使用`execute_script`。
内存使用持续增长	浏览器内存泄漏、未正确关闭driver、打开了过多标签页	1. 确保每个测试用例或任务结束后调用`driver.quit()`，而不是`close()`。 2. 限制并行实例数量。 3. 定期（如每运行100个用例）重启测试运行器。
并行时整体变慢	资源（CPU、内存、网络带宽）竞争	1. 降低并行工作线程数(`max_workers`)。 2. 监控系统资源使用情况（如用`htop`,`nvidia-smi`）。 3. 考虑使用分布式执行（如Selenium Grid）。
无头模式下元素找不到	页面JS在无头模式下行为不同、视口大小影响布局	1. 尝试在GUI模式下运行看是否成功。 2. 为无头模式设置明确的窗口大小`--window-size`。 3. 添加`--user-agent`模拟真实浏览器。

8.3 日志与截图辅助排查当脚本失败时，保存详细的日志和页面截图能极大帮助定位问题。

import logging from datetime import datetime # 配置日志 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s', handlers=[logging.FileHandler('selenium_perf.log'), logging.StreamHandler()]) logger = logging.getLogger(__name__) def take_screenshot_and_log(driver, context=''): """在关键步骤或失败时截图并记录""" timestamp = datetime.now().strftime('%Y%m%d_%H%M%S') filename = f"screenshot_{context}_{timestamp}.png" try: driver.save_screenshot(filename) logger.info(f"截图已保存: {filename}") # 也可以记录页面源代码（谨慎，可能很大） # with open(f'page_source_{timestamp}.html', 'w', encoding='utf-8') as f: # f.write(driver.page_source) except Exception as e: logger.error(f"截图失败: {e}") # 在可能出错的地方调用 try: element.click() except Exception as e: logger.error(f"点击元素失败: {e}") take_screenshot_and_log(driver, 'click_failed') raise

性能调优是一个持续的过程，没有一劳永逸的“最佳配置”。最有效的方法是结合监控、 profiling 和迭代实验，针对你的特定应用场景找到最适合的配置组合。从关闭图片加载和启用无头模式开始，你通常能立即看到显著的提升，然后再逐步深入更精细的等待策略、网络拦截和并行化优化。记住，任何优化都要在保证功能正确性和脚本稳定性的前提下进行，否则再快的脚本也是无用的。

查看全文

http://www.cnnetsun.cn/news/3110658.html