精易论坛

标题: Python界的新一届毒瘤 教你如何用中文写爬虫,目标:美图录-中国美女【教程】 [打印本页]

作者: 阿杰大大    时间: 2017-10-31 15:16
标题: Python界的新一届毒瘤 教你如何用中文写爬虫,目标:美图录-中国美女【教程】
首先,环境环境:3.6.3

目标站点:https://www.meitulu.com/guochan/





详情地址:https://www.meitulu.com/item/12215.html
第一图片地址: http://mtl.ttsqgs.com/images/img/12215/1.jpg
第二图片地址: http://mtl.ttsqgs.com/images/img/12215/2.jpg
可以看出,12215是详情地址的地址数,图片地址就是他的详情地址的数字加上第几张图片


OK,那么剩下就简单了,在首页把标题和张数还有详情地址的数字取出来就可以了,写正则
<p><span>.*?</span>数量: (.*?) 张.*?</p>[\S\s]*?<p class=p_title><a target="_blank">(.*?)</a></p>
格式:张数    地址数     标题
然后这里是https://www.meitulu.com/guochan/2.想html   主页第二页的地址
通过这个可以看到最后一页,那么页数递增就可以了,取出全部页数
写正则


..<ahref=".*?">(.*?)</a> <a href=".*?"class=".*?">下一页</a>


我的正则不太好,讲究这种,我只会.*?
现在基本条件已经可以了,那么开始写代码。首先先写全部页的循环,然后把每页的地址,标题,张数取出来,有问题的话在修复。

代码如下:已经跑完,没有BUG。

创建文件夹代码:标题处理是为了防止他的标题里有不允许存在的字符。



然后把创建目录调用上




然后再根据多少张去循环下载。




总体大合照:




源码下载: 美图录-中国美女爬虫.rar (1.2 KB, 下载次数: 227)


9.png (9.78 KB, 下载次数: 5)

9.png

作者: 风间琉璃    时间: 2017-10-31 15:24
提示: 作者被禁止或删除 内容自动屏蔽
作者: 纯情小黄牛    时间: 2017-10-31 15:24
有易语言的?
作者: 阿杰大大    时间: 2017-10-31 15:24
风间琉璃 发表于 2017-10-31 15:24
切输入法累么?

不累不累,很快的
作者: 阿杰大大    时间: 2017-10-31 15:24
纯情小黄牛 发表于 2017-10-31 15:24
有易语言的?

爬虫就是网页访问+正则,然后下载而已,写出文件
作者: 镇坛道德标杆    时间: 2017-10-31 15:25
py 代码不格式化吗    建议 pycharm  
作者: 阿杰大大    时间: 2017-10-31 15:26
镇坛道德标杆 发表于 2017-10-31 15:25
py 代码不格式化吗    建议 pycharm

排插我下载了,但是找不到中文版,而且这个IDE还有人教我用,我就用这个了,我也不知道为啥今天他不格式化了。哎。
作者: 超级星    时间: 2017-10-31 15:35
楼主这是色魔
作者: 御风软件    时间: 2017-10-31 15:47
Py交易成功
作者: 阿杰大大    时间: 2017-10-31 15:50
御风软件 发表于 2017-10-31 15:47
Py交易成功

别闹,你的精币丢我点呗。
作者: a深浅    时间: 2017-10-31 17:24
删前留名   
作者: 汉族    时间: 2017-10-31 18:01
python不擅长界面UI   
作者: 鱼腥草    时间: 2017-11-22 10:54
学习啦!!!正在学习正则
作者: alanzhuang    时间: 2017-12-22 14:00
爬虫怎么都是从美女图片入手
作者: oycs429    时间: 2017-12-25 22:58
好东西,可以学习
作者: 天生表演家    时间: 2018-2-11 16:34
python 用的是什么编辑器??
作者: superlu    时间: 2018-2-17 15:18
搜索才发现,阿杰大大居然用中文搞Python
作者: 学易新    时间: 2018-2-22 08:18
只是把变量和自定义函数用中文而已,标题把我骗进来

作者: zeng20160808    时间: 2018-2-28 10:29
感谢分享./学习了
作者: snyg    时间: 2018-3-5 13:51
学习了            
作者: popgogo    时间: 2018-3-25 11:15
中文python 顶一个。。厉害啊哈哈

作者: 巴托0    时间: 2018-3-26 15:34
不论不类的。。。。
作者: csc123    时间: 2018-4-9 14:10
有没有易版的
作者: 菜鸟菜鸡秋水    时间: 2018-5-12 12:16
大佬啊,你用什么ide啊  ?  我发现有的同志的ide很漂亮啊

作者: ning2018    时间: 2018-6-26 20:02
厉害了666
作者: 夏无道    时间: 2018-8-13 21:29
把Python当成易语言写。。。全是中文变量。。。
作者: 虎鲸    时间: 2018-8-14 11:19
不是易语言啊,不会py
作者: haixin    时间: 2018-9-26 11:09
厉害啊,大神
作者: jex0000    时间: 2019-1-11 18:07
感谢分享!
作者: lwgame    时间: 2019-1-25 09:18
厉害呀大神
作者: 7855535    时间: 2019-3-23 20:36
神人神人神人神人神人神人
作者: 178826559    时间: 2019-9-15 09:27
你是神~~~~ 代码逻辑清楚,给我拟入Python的人提供了很强大的学习实例。谢谢。
作者: 晚放    时间: 2022-5-24 08:43
学习------------
作者: hujiuyi    时间: 2022-9-27 10:47
{:3_49:}{:3_49:}{:3_49:}{:3_49:}{:3_49:}{:3_49:}{:3_49:}




欢迎光临 精易论坛 (https://125.confly.eu.org/) Powered by Discuz! X3.4