首先,环境环境:3.6.3
目标站点:https://www.meitulu.com/guochan/
详情地址:https://www.meitulu.com/item/12215.html 第一图片地址: http://mtl.ttsqgs.com/images/img/12215/1.jpg 第二图片地址: http://mtl.ttsqgs.com/images/img/12215/2.jpg 可以看出,12215是详情地址的地址数,图片地址就是他的详情地址的数字加上第几张图片
OK,那么剩下就简单了,在首页把标题和张数还有详情地址的数字取出来就可以了,写正则 <p><span>.*?</span>数量: (.*?) 张.*?</p>[\S\s]*?<p class=p_title><a target="_blank">(.*?)</a></p> 格式:张数 地址数 标题 然后这里是https://www.meitulu.com/guochan/2.想html 主页第二页的地址 通过这个可以看到最后一页,那么页数递增就可以了,取出全部页数 写正则
..<ahref=".*?">(.*?)</a> <a href=".*?"class=".*?">下一页</a>
我的正则不太好,讲究这种,我只会.*? 现在基本条件已经可以了,那么开始写代码。首先先写全部页的循环,然后把每页的地址,标题,张数取出来,有问题的话在修复。
代码如下:已经跑完,没有BUG。
创建文件夹代码:标题处理是为了防止他的标题里有不允许存在的字符。
然后把创建目录调用上
然后再根据多少张去循环下载。
总体大合照:
源码下载:
美图录-中国美女爬虫.rar
(1.2 KB, 下载次数: 227)
|