USpider~一只超级污的司机蜘蛛

这绝对是一篇正经的文章 🙄 

之前就看到了狂放小朋友的PHP版本的污言爬虫,然后我就征求了一下小朋友的意见,就改成了Python版本的爬虫,也算是当做练手了

污言

许多博客网站都在用一言这个API,这个污言是什么呢?

你好污啊是Roogle搞的一个网站,污言就是爬取这个网站所得

爬取方式

用Python爬这个简直是简单的不要不要的,用requests去发起请求,xpath和lxml库去处理数据

import requests
from lxml import etree

res = requests.get('https://www.nihaowua.com/')
res.encoding = 'utf-8'
selector = etree.HTML(res.text)
xpath_reg = "//p/text()"
results = selector.xpath(xpath_reg)
content = results[0]
print(content)

就这几行代码,我们就能拿到数据了,但是这样并不是我们所要的,一次做到位,将这些污言保存下来,然后为了防止反扒,加上随机代理和随机UA等功能 😎 手动滑稽

使用方法

使用前请确定你有没有以下的模块,如果没有的话使用pip安装一下:

requests
random
lxml
bs4
fake-useragent

安装成功以后,直接在代码目录执行python spider.py就行了

我将代码放在了Github上,可以进行下载

注意

  • 我的代码中使用了西刺的代理IP,请在使用前加上延时,或者使用自建IP池,否则短时间内多次请求西刺可能会block你的IP
  • 作者自己说他是一枚计算机门外汉,只是写来玩玩而已。而且服务器是小水管,我们还是少爬些吧,作者舍弃了Ajax,就是怕爬虫。所以我们爬的时候不要太猛,烧钱的…

9 条评论

发表评论

*