这绝对是一篇正经的文章 🙄
之前就看到了狂放小朋友的PHP版本的污言爬虫,然后我就征求了一下小朋友的意见,就改成了Python版本的爬虫,也算是当做练手了
污言
许多博客网站都在用一言这个API,这个污言是什么呢?
你好污啊是Roogle搞的一个网站,污言就是爬取这个网站所得
爬取方式
用Python爬这个简直是简单的不要不要的,用requests去发起请求,xpath和lxml库去处理数据
import requests
from lxml import etree
res = requests.get('https://www.nihaowua.com/')
res.encoding = 'utf-8'
selector = etree.HTML(res.text)
xpath_reg = "//p/text()"
results = selector.xpath(xpath_reg)
content = results[0]
print(content)
就这几行代码,我们就能拿到数据了,但是这样并不是我们所要的,一次做到位,将这些污言保存下来,然后为了防止反扒,加上随机代理和随机UA等功能 😎 手动滑稽
使用方法
使用前请确定你有没有以下的模块,如果没有的话使用pip安装一下:
requests
random
lxml
bs4
fake-useragent
安装成功以后,直接在代码目录执行python spider.py
就行了
我将代码放在了Github上,可以进行下载
更新
修改了一下采集规则,通配版,然后发现了你好污下面还有一个心灵毒鸡汤,也就顺手更新了一下
注意
- 我的代码中使用了西刺的代理IP,请在使用前加上延时,或者使用自建IP池,否则短时间内多次请求西刺可能会block你的IP
- 作者自己说他是一枚计算机门外汉,只是写来玩玩而已。而且服务器是小水管,我们还是少爬些吧,作者舍弃了Ajax,就是怕爬虫。所以我们爬的时候不要太猛,烧钱的…
遇到这种段子式的文章我还是换掉表情吧!
看到标题我就毫不犹乎的点击进来的,我知道这个污蜘蛛爬的肯定是我
@Roogle 你居然还有一个站点 😳
确实是门外汉,这不从adsense栏目调转过来的,看到你申请adsense还遇到问题了,不过爬虫公布归公布,最好能在爬虫文章里留个链接,不过还是请各位手下留情啊 😥
@Roogle 晚点加上跳转,哈哈。写了以后也没爬多少,就写的时候爬了十几条。可能我站点发布的都是技术类,ad老是不给我过
666666666666666666666666厉害
搞事情,给狂放小朋友红包发一个~
@西枫里博客 小朋友拿我域名当cdn加速去了!
然后呢?能不能像一言那样简单调用?
@橘子书 爬出来保存为文本,当然是可以调用的~