Uncategorized
Selenium 代理设置完全指南:如何配置代理
Selenium 是最流行的浏览器自动化工具之一,广泛用于网页测试和爬取。但当你在爬取网站时,不使用代理几乎等同于自爆——你的真实 IP 会在短时间内被封锁。本指南将教你如何在 Selenium 中正确配置代理。
为什么 Selenium 爬取需要代理?
- 隐藏真实 IP 地址,防止被封锁
- 突破网站的地理限制
- 分散请求,避免触发频率限制
- 模拟不同地区的用户行为
- 进行广告验证和本地化测试
Selenium 代理设置方法
方法一:通过 Chrome Options 设置代理
最简单的方式是通过 --proxy-server 参数:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument('--proxy-server=http://proxy_ip:port')
driver = webdriver.Chrome(options=chrome_options)
方法二:带认证信息的代理
如果需要用户名密码认证,可以使用 Chrome 扩展或第三方库如 selenium-wire 在请求层面拦截并添加认证信息。
方法三:使用 Firefox / GeckoDriver
Firefox 同样支持通过 Profile 和 Preferences 设置代理。
Selenium 代理最佳实践
- 使用住宅代理而非数据中心代理(更难被检测)
- 配合 IP 轮换,不要长期使用同一个 IP
- 结合 User-Agent 伪装,让请求更自然
- 设置合理的页面加载等待时间
- 处理代理连接失败的异常重试
参考:HTTP Headers 完全指南、IP 轮换完全指南
推荐的代理提供商
- 住宅代理:Bright Data、Smartproxy、IPRoyal
- 数据中心代理:Proxy-Seller、MyPrivateProxy
总结
Selenium 本身不提供代理管理功能,但通过正确的配置方式,你可以将任何代理集成进去。关键是选对代理类型(住宅优于数据中心)、做好 IP 轮换、伪装好浏览器指纹。对于一个可靠的 Selenium 爬虫来说,代理不是可选项,而是必选项。