Python界的新一届毒瘤教你如何用中文写爬虫，目标:美图录-中国美女【教程】

阿杰大大 · 发表于 2017-10-31 15:16:57

首先，环境环境:3.6.3

目标站点：https://www.meitulu.com/guochan/

详情地址:https://www.meitulu.com/item/12215.html

第一图片地址: http://mtl.ttsqgs.com/images/img/12215/1.jpg

第二图片地址: http://mtl.ttsqgs.com/images/img/12215/2.jpg

可以看出，12215是详情地址的地址数，图片地址就是他的详情地址的数字加上第几张图片

OK，那么剩下就简单了，在首页把标题和张数还有详情地址的数字取出来就可以了，写正则

.*?数量： (.*?) 张.*?[\S\s]*?<a target="_blank">(.*?)</a>

格式:张数地址数标题

然后这里是https://www.meitulu.com/guochan/2.想html 主页第二页的地址

通过这个可以看到最后一页，那么页数递增就可以了，取出全部页数

写正则

..<ahref=".*?">(.*?)</a> <a href=".*?"class=".*?">下一页</a>

我的正则不太好，讲究这种，我只会.*？

现在基本条件已经可以了，那么开始写代码。首先先写全部页的循环，然后把每页的地址，标题，张数取出来，有问题的话在修复。

代码如下:已经跑完，没有BUG。

创建文件夹代码：标题处理是为了防止他的标题里有不允许存在的字符。

然后把创建目录调用上

然后再根据多少张去循环下载。

总体大合照:

源码下载:

美图录-中国美女爬虫.rar (1.2 KB, 下载次数: 227)

风间琉璃 · 发表于 2017-10-31 15:24:08

切输入法累么?

纯情小黄牛 · 发表于 2017-10-31 15:24:22

有易语言的？

阿杰大大 · 发表于 2017-10-31 15:24:32

风间琉璃发表于 2017-10-31 15:24
切输入法累么?

不累不累，很快的

阿杰大大 · 发表于 2017-10-31 15:24:59

纯情小黄牛发表于 2017-10-31 15:24
有易语言的？

爬虫就是网页访问+正则，然后下载而已，写出文件

镇坛道德标杆 · 发表于 2017-10-31 15:25:24

py 代码不格式化吗建议 pycharm

阿杰大大 · 发表于 2017-10-31 15:26:30

镇坛道德标杆发表于 2017-10-31 15:25
py 代码不格式化吗建议 pycharm

排插我下载了，但是找不到中文版，而且这个IDE还有人教我用，我就用这个了，我也不知道为啥今天他不格式化了。哎。

超级星 · 发表于 2017-10-31 15:35:28

楼主这是色魔

御风软件 · 发表于 2017-10-31 15:47:08

Py

交易成功

阿杰大大 · 发表于 2017-10-31 15:50:14

御风软件发表于 2017-10-31 15:47
Py交易成功

别闹，你的精币丢我点呗。

		自动登录	找回密码
密码			注册

[图文教程] Python界的新一届毒瘤教你如何用中文写爬虫，目标:美图录-中国美女【教程】