当前位置：首页 > news >正文

Python Selenium问卷星自动化填写与反检测实战指南

news 2026/7/4 18:12:18

1. 项目概述

最近帮朋友处理一个问卷数据收集的活儿，对方需要短时间内收集大量问卷样本，手动操作显然不现实。这让我想起了几年前用Python和Selenium搞过的一个问卷星自动化项目，当时纯粹是为了“整活”，但其中涉及的反检测策略和自动化技巧，其实在很多正经的RPA（机器人流程自动化）和数据采集场景里都用得上。今天就来系统拆解一下，如何用Python实现问卷星的自动化填写，并重点聊聊如何绕过平台的各种检测机制，让你的脚本跑得更稳、更像真人操作。无论你是想批量测试自家产品的用户调研问卷，还是需要自动化处理一些重复性的表单填写任务，这篇从实战中踩坑总结出来的经验，应该能给你不少启发。

2. 核心思路与技术选型

2.1 为什么选择Selenium而非直接请求接口？

很多人第一个想到的可能是直接分析问卷星的网络请求，找到提交接口然后构造POST请求。这听起来很高效，但实际操作起来门槛不低。问卷星的前端代码经过了混淆和动态加载，表单字段名、验证令牌（Token）等关键参数都是动态生成的，而且提交逻辑里往往嵌套了复杂的JavaScript验证。对于非前端高手来说，逆向这些逻辑耗时耗力，且一旦问卷结构或平台反爬策略更新，脚本很容易失效。

相比之下，Selenium模拟真实浏览器操作，是“所见即所得”的策略。它不需要你去理解背后复杂的JS逻辑，只需要告诉浏览器：“找到这个按钮，点击它；找到那个输入框，填入文字”。这种方式虽然执行速度比直接发请求慢，但胜在稳定、通用，且更接近真实用户行为，本身就是一种“反反爬”策略——因为平台检测到的是一个完整的浏览器环境在操作。

2.2 自动化流程的整体架构

一个健壮的自动化脚本，其核心流程远不止“打开网页-填答案-点提交”这么简单。我们需要构建一个能够应对各种意外情况、并尽可能模拟真人行为的系统。完整的流程架构应该包含以下几个核心模块：

浏览器环境初始化模块：负责配置和启动浏览器，注入反检测参数，设置代理、User-Agent、窗口尺寸等。
问卷解析与策略模块：打开问卷链接，分析题目类型（单选、多选、填空）、数量，并制定相应的答题策略（如随机选择、从题库抽取答案等）。
自动化交互执行模块：使用Selenium定位页面元素，执行点击、输入、拖拽等操作，完成问卷填写。
验证码与滑块处理模块：检测并处理提交前后可能出现的智能验证码、滑块验证等障碍。
数据与代理管理模块：管理用于随机化的答案库，以及动态更换IP地址所需的代理IP池。
任务调度与容错模块：实现多线程/进程并发填写，并处理网络超时、元素未找到等异常，确保脚本长时间稳定运行。

这个架构确保了脚本的鲁棒性和扩展性。例如，当问卷星更新了验证方式，我们通常只需要在“验证码处理模块”进行适配；当需要更换答题策略时，也只需修改“策略模块”，而不会影响其他部分。

3. 环境准备与核心工具详解

3.1 Python与Selenium环境搭建

首先，确保你安装了Python（3.6及以上版本均可）。接下来通过pip安装核心库：

pip install selenium

Selenium只是一个控制浏览器的“遥控器”，它本身不能打开网页。我们还需要一个“浏览器”和对应的“驱动程序（Driver）”。这里推荐使用Chrome浏览器和ChromeDriver。

安装Chrome浏览器：确保系统已安装Chrome。
下载ChromeDriver：访问ChromeDriver官网，下载与你的Chrome浏览器版本号完全匹配的驱动。这是最常见的问题来源，版本不匹配会导致脚本无法启动。
配置Driver路径：将下载的chromedriver可执行文件放在系统PATH路径下（如/usr/local/binon Mac/Linux，或与你的Python脚本同目录），或在代码中指定其路径。

一个基础的启动代码如下：

from selenium import webdriver from selenium.webdriver.chrome.service import Service # 指定chromedriver路径（如果不在PATH中） service = Service(executable_path='/path/to/your/chromedriver') driver = webdriver.Chrome(service=service) driver.get('https://www.wjx.cn/vm/YourQuestionnaireCode.aspx')

3.2 关键浏览器选项配置

为了让自动化浏览器更隐蔽、更稳定，我们需要在启动时添加一系列选项（Options）。这些配置是反检测的基石。

from selenium.webdriver.chrome.options import Options chrome_options = Options() # 1. 基础反检测设置（至关重要） # 移除“正在被自动化软件控制”的提示 chrome_options.add_experimental_option('excludeSwitches', ['enable-automation']) # 禁用Blink引擎的自动化控制特征 chrome_options.add_argument('--disable-blink-features=AutomationControlled') # 2. 无头模式设置（用于服务器后台运行） # chrome_options.add_argument('--headless') # 注释掉则在本地显示浏览器窗口 # 无头模式下的必要参数，防止内存不足等问题 chrome_options.add_argument('--no-sandbox') chrome_options.add_argument('--disable-dev-shm-usage') chrome_options.add_argument('--disable-gpu') # 某些Linux服务器需要 # 3. 模拟真实用户环境 chrome_options.add_argument('--window-size=1920,1080') # 设置窗口大小 chrome_options.add_argument('user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36') # 设置UA # 使用配置启动浏览器 driver = webdriver.Chrome(options=chrome_options)

注意：无头模式（--headless）虽然方便在服务器运行，但有些网站会检测无头浏览器。在本地调试时，建议先关闭无头模式，观察浏览器实际运行情况。

3.3 注入JavaScript以隐藏WebDriver特征

即使做了上述配置，一些高级的检测手段仍然可以通过navigator.webdriver属性来识别Selenium。我们需要在页面加载前，通过CDP（Chrome DevTools Protocol）命令将这个属性覆盖掉。

driver.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument', { 'source': ''' Object.defineProperty(navigator, 'webdriver', { get: () => undefined }); // 可以继续添加其他需要覆盖的属性，如plugins, languages等 Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5] }); ''' })

这段代码会在每个新页面加载前执行，将关键的自动化标识“抹去”。这是目前应对常规WebDriver检测最有效的方法之一。

4. 问卷解析与自动化交互实战

4.1 定位页面元素：XPath与CSS Selector

Selenium操作页面的第一步是找到元素。最常用的定位器是XPath和CSS Selector。对于问卷星这种结构相对固定的表单，XPath通常更直观。

如何获取XPath？

在Chrome浏览器中打开问卷页面。
按F12打开开发者工具。
点击左上角的箭头图标（或按Ctrl+Shift+C），然后点击页面上你想操作的元素（如一个单选按钮）。
在开发者工具的Elements面板中，右键点击高亮显示的HTML代码，选择Copy->Copy full XPath。

例如，一个单选题的第一个选项的XPath可能长这样：//*[@id="divQuestion1"]/div[2]/div[1]。这个路径表示：寻找id为divQuestion1的元素下的第二个div子元素下的第一个div子元素。

编写健壮的定位代码：直接使用浏览器复制的XPath可能很脆弱，一旦页面结构微调就会失效。更好的方法是寻找更稳定的属性，比如题目和选项本身可能有的>from selenium.webdriver.common.by import By from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC # 不推荐：过于依赖固定结构 radio_button = driver.find_element(By.XPATH, '//*[@id="div1"]/div[2]/div[1]') # 稍好：尝试寻找选项的通用特征（假设每个选项都有一个共同的class‘ui-radio’） # 等待元素出现，增加脚本稳定性 wait = WebDriverWait(driver, 10) first_question_options = wait.until(EC.presence_of_all_elements_located((By.CLASS_NAME, 'ui-radio'))) # 然后点击第一个选项 first_question_options[0].click()

4.2 实现自动化答题逻辑

我们需要根据题型执行不同的操作。假设我们已经通过分析，知道了问卷有18题，并记录了每题的选项数（-1代表简答）和是否多选。

import random # 模拟的问卷结构数据 option_nums = [2, 4, 6, 2, -1, 3, 2, 3, 3, -1, 2, 2, 2, 2, 3, -1, 3, -1] # 共18题 multiple_choice = [0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] # 1代表多选 # 简答题答案库 short_answer_db = { 5: ["答案A", "答案B", "答案C"], 10: ["回复1", "回复2"], 16: ["建议1", "建议2", "无"], 18: ["补充说明1", "补充说明2"] } def random_single_select(num_options): """单选题随机选择""" return random.randint(1, num_options) def random_multi_select(num_options): """多选题随机选择（至少选一个）""" # 随机决定选几个选项（1到num_options之间） how_many_to_select = random.randint(1, num_options) # 生成选项列表 [1, 2, 3, ..., num_options] all_options = list(range(1, num_options + 1)) # 随机打乱顺序 random.shuffle(all_options) # 取前 how_many_to_select 个 return all_options[:how_many_to_select] def get_short_answer(question_num): """从答案库中随机获取简答题答案""" answers = short_answer_db.get(question_num, ["暂无预设答案"]) return random.choice(answers)

有了这些基础函数，主循环就清晰了：

for i in range(len(option_nums)): question_index = i + 1 # 题目序号从1开始 num = option_nums[i] if num == -1: # 简答题 answer_text = get_short_answer(question_index) # 定位简答题输入框。这里需要根据实际页面结构调整XPath # 常见定位方式：通过题目的div id找到其下的textarea或input try: input_element = driver.find_element(By.CSS_SELECTOR, f'#q{question_index} textarea') input_element.clear() # 模拟真人输入速度，每个字符间略有延迟 for char in answer_text: input_element.send_keys(char) time.sleep(random.uniform(0.05, 0.1)) except: # 可能不是textarea，而是contenteditable的div input_element = driver.find_element(By.CSS_SELECTOR, f'#q{question_index} div[contenteditable="true"]') input_element.clear() driver.execute_script(f"arguments[0].innerText = '{answer_text}';", input_element) elif multiple_choice[i] == 0: # 单选题 selected = random_single_select(num) # 构建XPath定位特定选项。例如：//*[@id="divQuestion1"]//li[1]/label # 更通用的方式是先找到题目容器，再根据选项索引找子元素 option_xpath = f'//*[@id="div{question_index}"]//li[{selected}]/label' option_element = driver.find_element(By.XPATH, option_xpath) option_element.click() time.sleep(random.uniform(0.1, 0.3)) # 点击后随机等待，模拟思考 else: # 多选题 selected_list = random_multi_select(num) for selected in selected_list: option_xpath = f'//*[@id="div{question_index}"]//li[{selected}]/label' option_element = driver.find_element(By.XPATH, option_xpath) option_element.click() time.sleep(random.uniform(0.1, 0.2)) # 每个选项点击间隔

实操心得：直接使用send_keys一次性输入长文本，或者连续高速点击选项，行为模式非常机器化。加入time.sleep(random.uniform(a, b))来模拟人类不规律的操作间隔，是提升脚本隐蔽性的低成本高收益技巧。对于关键动作（如提交按钮），等待时间可以稍长。

5. 核心反检测策略深度解析

问卷星等平台的反自动化检测是层层递进的。我们需要建立一个防御体系来应对。

5.1 基础特征隐藏

我们在环境准备章节已经做了大部分工作，这里再系统总结一下必须配置的几点：

excludeSwitches：移除浏览器日志中“自动化控制”的标志。
disable-blink-features：禁用Blink引擎中暴露自动化的特征。
CDP脚本注入：覆盖navigator.webdriver等属性。
设置常规User-Agent：避免使用Selenium默认的、过于简单的UA。
禁用密码管理器提示和通知：chrome_options.add_argument('--disable-password-manager-referrals')和chrome_options.add_argument('--disable-notifications')。

5.2 行为模式模拟

这是绕过智能验证的关键。机器和人的操作在微观上有显著差异。

鼠标移动轨迹：人类的鼠标移动是曲线，且有随机抖动。Selenium的ActionChains可以模拟，但移动是直线。更高级的做法是使用像PyAutoGUI这样的库生成贝塞尔曲线路径，但复杂度激增。一个折中方案是：在关键操作前，让鼠标在页面随机位置轻微移动一下。

from selenium.webdriver.common.action_chains import ActionChains import random def random_mouse_move(driver): """在浏览器可视区域内随机移动鼠标""" width = driver.execute_script("return window.innerWidth") height = driver.execute_script("return window.innerHeight") target_x = random.randint(0, width) target_y = random.randint(0, height) # 注意：此方法移动的是浏览器内的鼠标，而非系统鼠标。某些检测可能不关注这个。 actions = ActionChains(driver) actions.move_by_offset(target_x, target_y).perform() time.sleep(0.5)

输入节奏：如前所述，用循环加随机延迟模拟打字。

滚动页面：在填写过程中随机滚动页面，模拟阅读行为。

driver.execute_script(f"window.scrollBy(0, {random.randint(200, 500)})") time.sleep(random.uniform(0.5, 1.5))

5.3 验证码与滑块处理实战

当提交频率过高时，问卷星会触发验证。常见的有“智能验证”（点一下按钮）和“滑块验证”。

智能验证处理：这种验证通常出现在提交后弹出一个对话框。处理思路是：提交后等待短暂时间，然后定位并点击确认按钮。

# 点击提交按钮 submit_btn = driver.find_element(By.ID, 'ctlNext') submit_btn.click() time.sleep(random.uniform(0.5, 1.5)) # 等待弹窗加载 try: # 尝试定位智能验证的确认按钮，XPath需根据实际页面调整 confirm_btn = driver.find_element(By.XPATH, '//div[@class="alert_box"]//button[contains(text(), "确认")]') confirm_btn.click() print("已处理智能验证") except: print("未出现智能验证或定位失败")

滑块验证处理：滑块验证是更常见的障碍。网上很多教程用复杂的物理公式模拟加速滑动，但实测在问卷星场景下，Selenium自带的drag_and_drop_by_offset方法简单有效。

from selenium.webdriver.common.action_chains import ActionChains def handle_slider(driver): try: # 定位滑块轨道和滑块本身。问卷星的滑块元素ID经常变化，需要观察。 # 常见情况：滑块是一个可拖动的span，放在一个div里。 slider_track = driver.find_element(By.ID, 'nc_1__scale_text') slider_btn = driver.find_element(By.XPATH, '//span[contains(@class, "btn_slide")]') # 获取滑块轨道的宽度 track_width = slider_track.size['width'] # 使用ActionChains进行拖拽 actions = ActionChains(driver) actions.click_and_hold(slider_btn).pause(random.uniform(0.2, 0.5)) # 直接拖拽整个轨道宽度。有时需要稍微多拖一点。 actions.move_by_offset(track_width + 10, 0).pause(random.uniform(0.1, 0.3)) actions.release().perform() print("已尝试处理滑块验证") time.sleep(2) # 等待验证结果 # 检查是否成功，可能通过页面元素变化判断 success_text = driver.find_elements(By.XPATH, '//div[contains(text(), "验证成功")]') if success_text: return True else: return False except Exception as e: print(f"滑块处理出现异常或未找到滑块: {e}") return False # 没找到滑块或处理失败，可能不需要验证

踩坑记录：早期尝试用精确计算加速度的方式拖动滑块，失败率很高。后来发现，问卷星的滑块验证逻辑可能更侧重于“是否完成了拖拽动作”而非“拖拽轨迹是否拟人”。直接用drag_and_drop_by_offset快速完成操作，成功率反而更高。这提醒我们，反检测策略需要针对具体平台进行测试和调整，没有放之四海而皆准的方案。

5.4 IP与地理位置伪装

问卷星后台会记录提交IP和大致地理位置。如果同一IP在短时间内提交大量问卷，极易被识别并封禁。

使用代理IP池：这是解决IP问题最根本的方法。你需要一个可靠的代理IP来源（付费服务更稳定）。代码层面需要动态更换浏览器的代理设置。

def get_random_proxy(): """从你的代理IP池中随机获取一个代理""" # 这里假设你有一个代理列表 proxy_list，格式如 ['http://123.123.123.123:8080', ...] proxy_list = fetch_proxies_from_your_source() # 实现你自己的获取函数 return random.choice(proxy_list) def create_driver_with_proxy(proxy): chrome_options = Options() # ... 其他配置 ... # 设置代理 chrome_options.add_argument(f'--proxy-server={proxy}') # 注意：某些代理需要认证，这里处理的是无需认证的HTTP/HTTPS/SOCKS代理。 # 如果需要认证，情况更复杂，可能需要使用插件或中间件。 driver = webdriver.Chrome(options=chrome_options) return driver # 在主循环中，可以定期（如每提交N次）更换一次Driver实例（即更换IP）

修改浏览器地理位置：虽然问卷星的位置信息主要来自IP，但修改浏览器地理定位API返回的值可以增加一层伪装。

def set_geolocation(driver, longitude, latitude): """通过CDP命令覆盖浏览器地理定位""" driver.execute_cdp_cmd("Emulation.setGeolocationOverride", { "latitude": latitude, "longitude": longitude, "accuracy": 95 # 精度，单位米 }) # 使用示例：设置为北京市中心的随机偏移 lat = 39.9042 + random.uniform(-0.05, 0.05) lon = 116.4074 + random.uniform(-0.05, 0.05) set_geolocation(driver, lon, lat)

6. 部署、优化与大规模运行

6.1 本地运行与服务器部署

在本地开发调试完成后，为了7x24小时不间断运行，最好将脚本部署到云服务器（如阿里云ECS、腾讯云CVM）。

服务器环境准备：

安装无图形界面的浏览器：sudo apt-get install chromium-browser（Ubuntu）。
下载对应版本的ChromeDriver（Headless Chrome同样需要）。
安装Python及依赖：pip install selenium。

修改代码以适应无头环境：确保在服务器上运行时，启用了无头模式和相关参数（见3.2节）。同时，因为服务器没有图形界面，所有time.sleep和可视化相关的操作都要确保无误。

使用进程管理工具：不要直接用python script.py &在后台运行，这样终端关闭后进程可能终止。推荐使用：

tmux/screen：简单的终端复用器，可以保持会话。

tmux new -s wjx python3 main.py # 按 Ctrl+B, 再按 D 分离会话。想恢复时：tmux attach -t wjx

systemd(Linux)：更专业的服务管理，可以设置开机自启、崩溃重启。

# /etc/systemd/system/wjx.service [Unit] Description=WJX Auto Filler Service After=network.target [Service] Type=simple User=ubuntu WorkingDirectory=/path/to/your/script ExecStart=/usr/bin/python3 /path/to/your/script/main.py Restart=on-failure RestartSec=10 [Install] WantedBy=multi-user.target

然后使用sudo systemctl start wjx启动，sudo systemctl enable wjx设置开机启动。

6.2 性能优化与并发控制

单线程填写效率有限。我们可以使用多线程或异步IO来并发执行。

使用concurrent.futures实现线程池：这是Python标准库中相对简单易用的并发方案。

from concurrent.futures import ThreadPoolExecutor, as_completed import threading # 定义一个全局锁，用于安全地访问共享资源（如代理IP列表、计数器） counter_lock = threading.Lock() submit_counter = 0 def fill_one_survey(proxy=None): """填写一份问卷的完整任务函数""" global submit_counter try: driver = create_driver_with_proxy(proxy) if proxy else create_driver() # ... 执行填写逻辑 ... driver.quit() with counter_lock: submit_counter += 1 print(f"[{threading.current_thread().name}] 成功提交第 {submit_counter} 份问卷") return True except Exception as e: print(f"[{threading.current_thread().name}] 任务失败: {e}") return False finally: if 'driver' in locals(): driver.quit() # 确保每个线程结束时都关闭driver，防止内存泄漏 def main(): proxy_list = load_proxies() # 加载代理列表 max_workers = 3 # 并发线程数，不宜过多，避免给目标服务器造成过大压力或被封 total_tasks = 1000 # 计划提交的总数 with ThreadPoolExecutor(max_workers=max_workers) as executor: futures = [] for i in range(total_tasks): # 可以为每个任务分配一个代理，如果代理不够用可以循环使用或随机取 proxy = proxy_list[i % len(proxy_list)] if proxy_list else None future = executor.submit(fill_one_survey, proxy) futures.append(future) # 控制任务提交速度，避免一瞬间发起大量连接 time.sleep(random.uniform(0.5, 2)) # 等待所有任务完成（可选） for future in as_completed(futures): result = future.result() # 可以在这里处理结果或异常

重要警告：并发数（max_workers）绝不是越大越好。过高的并发会导致：
本地或服务器资源（CPU、内存、网络连接数）耗尽。
对问卷星服务器造成明显的DDoS攻击特征，极易触发风控，导致IP或整个IP段被封。
代理IP消耗过快。建议从2-3个线程开始，根据运行情况和代理质量缓慢增加。

6.3 日志记录与错误监控

一个长时间运行的自动化脚本必须有完善的日志系统，以便排查问题。

import logging from logging.handlers import RotatingFileHandler def setup_logger(): logger = logging.getLogger('wjx_auto') logger.setLevel(logging.INFO) # 控制台输出 ch = logging.StreamHandler() ch.setLevel(logging.INFO) # 文件输出，按大小轮转 fh = RotatingFileHandler('wjx_auto.log', maxBytes=10*1024*1024, backupCount=5) fh.setLevel(logging.INFO) formatter = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - [Thread:%(threadName)s] - %(message)s') ch.setFormatter(formatter) fh.setFormatter(formatter) logger.addHandler(ch) logger.addHandler(fh) return logger logger = setup_logger() # 在代码中记录信息 logger.info(f"开始处理第{i}份问卷，使用代理: {proxy}") logger.warning(f"滑块验证处理失败，尝试重试...") logger.error(f"提交失败，异常信息: {e}", exc_info=True)

7. 常见问题排查与进阶技巧

7.1 典型问题速查表

问题现象	可能原因	排查与解决思路
`WebDriverException: Message: unknown error: cannot find Chrome binary`	Chrome浏览器未安装或路径不对。	在服务器上使用`which google-chrome-stable`或`which chromium-browser`查找路径，并在`ChromeOptions`中通过`binary_location`参数指定。
`SessionNotCreatedException: This version of ChromeDriver only supports Chrome version XX`	ChromeDriver与Chrome浏览器版本不匹配。	检查两者版本，务必完全匹配。可使用`chromedriver --version`和`google-chrome --version`查看。
`NoSuchElementException`	页面元素未加载完成或XPath/CSS选择器错误。	1. 使用`WebDriverWait`显式等待元素出现。 2. 检查页面结构是否已更新，重新获取元素定位器。 3. 尝试更宽松的定位方式（如用`contains`匹配部分属性）。
脚本运行几次后突然无法定位元素	触发了反爬，页面结构可能动态变化或跳转到验证页面。	1. 在关键步骤后添加`screenshot`保存页面快照，分析当前页面状态。 2. 加强反检测配置（见第5章）。 3. 大幅降低提交频率，增加随机延迟。
出现“验证失败”或频繁弹出验证码	IP或行为模式被识别为机器人。	1.立即更换代理IP。 2.增加每个任务之间的随机等待时间（如30秒到5分钟）。 3.优化行为模拟，加入鼠标移动、滚动等操作。 4. 考虑使用更高质量的住宅代理IP。
在无头模式下脚本运行正常，但无法提交	无头模式可能被检测。	1. 尝试添加`--disable-blink-features=AutomationControlled`。 2. 尝试使用`undetected-chromedriver`库（一个针对反检测优化的Selenium包装器）。 3. 在本地非无头模式下测试，确认是否是模式问题。
多线程运行时出现浏览器未关闭，内存飙升	线程任务异常退出，未执行`driver.quit()`。	将`driver.quit()`放在`finally`块中确保执行。使用`with`语句管理WebDriver生命周期（如果库支持）。

7.2 进阶技巧：使用undetected-chromedriver

undetected-chromedriver是一个第三方库，它修补了标准Selenium WebDriver许多容易被检测的漏洞，对于绕过Cloudflare等高级防护有奇效。在问卷星这类场景下，如果基础反检测策略失效，可以尝试它。

import undetected_chromedriver as uc options = uc.ChromeOptions() options.add_argument('--headless') # 如果需要无头 # 无需再添加大量的反检测参数，uc已经处理了 driver = uc.Chrome(options=options, version_main=114) # 指定大版本号