UserAgent 就是用户代理,又叫报头,是一串字符串,相当于浏览器的身份证号,在利用爬虫爬取网站数据时,频繁更换它可以避免触发相应的反爬机制
之前的文章介绍过第三方模块库 fake-useragent,之前的文章:Python爬虫常用的小技巧-伪造随机的User-Agent
安装
pip install fake-useragent
用法
引入,生成实例:
from fake_useragent import UserAgent
ua = UserAgent()
这篇是解决一下我在使用直接写的 python 文件时,模块库报错了
报错信息如下:
fake_useragent.errors.FakeUserAgentError: Maximum amount of retries reached
解决方法如下:
如果不希望缓存数据库或不需要可写文件系统:
ua = UserAgent(cache=False)
如果不想使用宿主缓存服务器,可以禁用服务器缓存:
ua = UserAgent(use_cache_server=False)
如果以上方法均报错,执行:
ua = UserAgent(verify_ssl=False)
由于 fake-useragent 库维护的 user-agent 列表存放在在线网页上
过低版本依赖的列表网页可能就会报 403
绝对的干货,很有用 +10086
@西枫里博客 阿西吧
绝对的干货,很有用