精易论坛
标题: Python界的新一届毒瘤 教你如何用中文写爬虫,目标:美图录-中国美女【教程】 [打印本页]
作者: 阿杰大大 时间: 2017-10-31 15:16
标题: Python界的新一届毒瘤 教你如何用中文写爬虫,目标:美图录-中国美女【教程】
首先,环境环境:3.6.3
目标站点:https://www.meitulu.com/guochan/
详情地址:https://www.meitulu.com/item/12215.html
第一图片地址: http://mtl.ttsqgs.com/images/img/12215/1.jpg
第二图片地址: http://mtl.ttsqgs.com/images/img/12215/2.jpg
可以看出,12215是详情地址的地址数,图片地址就是他的详情地址的数字加上第几张图片
OK,那么剩下就简单了,在首页把标题和张数还有详情地址的数字取出来就可以了,写正则
<p><span>.*?</span>数量: (.*?) 张.*?</p>[\S\s]*?<p class=p_title><a target="_blank">(.*?)</a></p>
格式:张数 地址数 标题
然后这里是https://www.meitulu.com/guochan/2.想html 主页第二页的地址
通过这个可以看到最后一页,那么页数递增就可以了,取出全部页数
写正则
..<ahref=".*?">(.*?)</a> <a href=".*?"class=".*?">下一页</a>
我的正则不太好,讲究这种,我只会.*?
现在基本条件已经可以了,那么开始写代码。首先先写全部页的循环,然后把每页的地址,标题,张数取出来,有问题的话在修复。
代码如下:已经跑完,没有BUG。
创建文件夹代码:标题处理是为了防止他的标题里有不允许存在的字符。
然后把创建目录调用上
然后再根据多少张去循环下载。
总体大合照:
源码下载:
美图录-中国美女爬虫.rar
(1.2 KB, 下载次数: 227)
-
9.png
(9.78 KB, 下载次数: 5)
作者: 风间琉璃 时间: 2017-10-31 15:24
提示: 作者被禁止或删除 内容自动屏蔽
作者: 纯情小黄牛 时间: 2017-10-31 15:24
有易语言的?
作者: 阿杰大大 时间: 2017-10-31 15:24
不累不累,很快的
作者: 阿杰大大 时间: 2017-10-31 15:24
爬虫就是网页访问+正则,然后下载而已,写出文件
作者: 镇坛道德标杆 时间: 2017-10-31 15:25
py 代码不格式化吗 建议 pycharm
作者: 阿杰大大 时间: 2017-10-31 15:26
排插我下载了,但是找不到中文版,而且这个IDE还有人教我用,我就用这个了,我也不知道为啥今天他不格式化了。哎。
作者: 超级星 时间: 2017-10-31 15:35
楼主这是色魔
作者: 御风软件 时间: 2017-10-31 15:47
Py
交易成功
作者: 阿杰大大 时间: 2017-10-31 15:50
别闹,你的精币丢我点呗。
作者: a深浅 时间: 2017-10-31 17:24
删前留名
作者: 汉族 时间: 2017-10-31 18:01
python不擅长界面UI
作者: 鱼腥草 时间: 2017-11-22 10:54
学习啦!!!正在学习正则
作者: alanzhuang 时间: 2017-12-22 14:00
爬虫怎么都是从美女图片入手
作者: oycs429 时间: 2017-12-25 22:58
好东西,可以学习
作者: 天生表演家 时间: 2018-2-11 16:34
python 用的是什么编辑器??
作者: superlu 时间: 2018-2-17 15:18
搜索才发现,阿杰大大居然用中文搞Python
作者: 学易新 时间: 2018-2-22 08:18
只是把变量和自定义函数用中文而已,标题把我骗进来
作者: zeng20160808 时间: 2018-2-28 10:29
感谢分享./学习了
作者: snyg 时间: 2018-3-5 13:51
学习了
作者: popgogo 时间: 2018-3-25 11:15
中文python 顶一个。。厉害啊哈哈
作者: 巴托0 时间: 2018-3-26 15:34
不论不类的。。。。
作者: csc123 时间: 2018-4-9 14:10
有没有易版的
作者: 菜鸟菜鸡秋水 时间: 2018-5-12 12:16
大佬啊,你用什么ide啊 ? 我发现有的同志的ide很漂亮啊
作者: ning2018 时间: 2018-6-26 20:02
厉害了666
作者: 夏无道 时间: 2018-8-13 21:29
把Python当成易语言写。。。全是中文变量。。。
作者: 虎鲸 时间: 2018-8-14 11:19
不是易语言啊,不会py
作者: haixin 时间: 2018-9-26 11:09
厉害啊,大神
作者: jex0000 时间: 2019-1-11 18:07
感谢分享!
作者: lwgame 时间: 2019-1-25 09:18
厉害呀大神
作者: 7855535 时间: 2019-3-23 20:36
神人神人神人神人神人神人
作者: 178826559 时间: 2019-9-15 09:27
你是神~~~~ 代码逻辑清楚,给我拟入Python的人提供了很强大的学习实例。谢谢。
作者: 晚放 时间: 2022-5-24 08:43
学习------------
作者: hujiuyi 时间: 2022-9-27 10:47
{:3_49:}{:3_49:}{:3_49:}{:3_49:}{:3_49:}{:3_49:}{:3_49:}
欢迎光临 精易论坛 (https://125.confly.eu.org/) |
Powered by Discuz! X3.4 |