USpider～一只超级污的司机蜘蛛

这绝对是一篇正经的文章 🙄

之前就看到了狂放小朋友的PHP版本的污言爬虫，然后我就征求了一下小朋友的意见，就改成了Python版本的爬虫，也算是当做练手了

污言

许多博客网站都在用一言这个API，这个污言是什么呢？

你好污啊是Roogle搞的一个网站，污言就是爬取这个网站所得

爬取方式

用Python爬这个简直是简单的不要不要的，用requests去发起请求，xpath和lxml库去处理数据

import requests
from lxml import etree

res = requests.get('https://www.nihaowua.com/')
res.encoding = 'utf-8'
selector = etree.HTML(res.text)
xpath_reg = "//p/text()"
results = selector.xpath(xpath_reg)
content = results[0]
print(content)

就这几行代码，我们就能拿到数据了，但是这样并不是我们所要的，一次做到位，将这些污言保存下来，然后为了防止反扒，加上随机代理和随机UA等功能 😎 手动滑稽

使用方法

使用前请确定你有没有以下的模块，如果没有的话使用pip安装一下：

requests
random
lxml
bs4
fake-useragent

安装成功以后，直接在代码目录执行python spider.py就行了

我将代码放在了Github上，可以进行下载

更新

修改了一下采集规则，通配版，然后发现了你好污下面还有一个心灵毒鸡汤，也就顺手更新了一下

注意

我的代码中使用了西刺的代理IP，请在使用前加上延时，或者使用自建IP池，否则短时间内多次请求西刺可能会block你的IP
作者自己说他是一枚计算机门外汉，只是写来玩玩而已。而且服务器是小水管，我们还是少爬些吧，作者舍弃了Ajax，就是怕爬虫。所以我们爬的时候不要太猛，烧钱的…

任何个人或团体，未经允许禁止转载本文：《USpider～一只超级污的司机蜘蛛》，谢谢合作！

10 条评论

发表评论取消回复

遇到这种段子式的文章我还是换掉表情吧！

看到标题我就毫不犹乎的点击进来的，我知道这个污蜘蛛爬的肯定是我

沈唁

2018年6月12日 · 天津天津市电信

@Roogle 你居然还有一个站点 😳

回复

确实是门外汉，这不从adsense栏目调转过来的，看到你申请adsense还遇到问题了，不过爬虫公布归公布，最好能在爬虫文章里留个链接，不过还是请各位手下留情啊 😥

沈唁

2018年6月12日 · 天津天津市电信

@Roogle 晚点加上跳转，哈哈。写了以后也没爬多少，就写的时候爬了十几条。可能我站点发布的都是技术类，ad老是不给我过

回复

666666666666666666666666厉害

搞事情，给狂放小朋友红包发一个~

沈唁

2018年6月10日 · 上海上海市电信

@西枫里博客小朋友拿我域名当cdn加速去了！

回复

然后呢？能不能像一言那样简单调用？

沈唁

2018年6月10日 · 上海上海市电信

@橘子书爬出来保存为文本，当然是可以调用的~

回复

污言

爬取方式

使用方法

更新

注意

你可能感兴趣

10 条评论

发表评论 取消回复

微信扫码关注

发表评论取消回复