精易论坛

标题: Python爬取壁纸网站源码,修整版 [打印本页]

作者: 尛龍科技    时间: 2023-4-16 22:02
标题: Python爬取壁纸网站源码,修整版
[Python] 纯文本查看 复制代码
import requests
import re
import os

url = 'https://www.bizhi88.com/3840x2160/'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
response.encoding = 'utf8'
html_info = re.findall('<a href="(.*?)" title="(.*?)" target="_blank" class="img" style="(.*?)"', response.text)

num = 0
for link, title, style in html_info:
    num = num + 1
    if num == 1:
        continue
    link_url = 'https://www.bizhi88.com' + link
    response2 = requests.get(url=link_url, headers=headers)
    response2.encoding = "utf8"
    img_url = re.findall('<img src="(.*?)" alt="(.*?)"', response2.text)[0]
    directory = 'Wallpapers'
    if not os.path.exists(directory):
        os.makedirs(directory)
    file_name = f'{directory}/{img_url[1]}.jpg'
    with open(file_name, 'wb') as f:
        response3 = requests.get(img_url[0], stream=True)
        for chunk in response3.iter_content(chunk_size=1024):
            if chunk:
                f.write(chunk)
        print(f'{file_name} downloaded!')

根据刚才一个易友分享的例子增加了一个下载保存的功能 其中Wallpapers文件夹是创建的下载的图片也在里面

作者: FanLi    时间: 2023-4-16 22:27
拿走了,这就去下个pycharm
作者: 哎哟哟123    时间: 2023-6-9 10:29
好厉害 好厉害
作者: 果心豆腐酱    时间: 2023-10-6 02:33
# 导入 requests 模块
import requests
# 导入正则表达式模块
import re
# 导入 os 模块
import os

# 目标网站 URL
url = 'https://www.bizhi88.com/3840x2160/'
# 请求头信息
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 发送 GET 请求,并获取响应
response = requests.get(url=url, headers=headers)
# 设置响应编码为 UTF-8
response.encoding = 'utf8'
# 使用正则表达式从 HTML 中提取需要的信息
html_info = re.findall('<a href="(.*?)" title="(.*?)" target="_blank" class="img" style="(.*?)"', response.text)

num = 0
# 遍历提取出来的信息
for link, title, style in html_info:
    # 自增编号计数器
    num = num + 1
    # 略过第一个信息,因为第一个是广告
    if num == 1:
        continue
    # 拼接完整的图片详情页链接
    link_url = 'https://www.bizhi88.com' + link
    # 发送 GET 请求,并获取响应
    response2 = requests.get(url=link_url, headers=headers)
    # 设置响应编码为 UTF-8
    response2.encoding = "utf8"
    # 使用正则表达式从 HTML 中提取图片链接和标题
    img_url = re.findall('<img src="(.*?)" alt="(.*?)"', response2.text)[0]
    # 设置保存图片的目录
    directory = 'Wallpapers'
    # 如果目录不存在,则创建目录
    if not os.path.exists(directory):
        os.makedirs(directory)
    # 拼接保存图片的文件名
    file_name = f'{directory}/{img_url[1]}.jpg'
    # 以二进制模式打开文件,并将图片内容写入文件中
    with open(file_name, 'wb') as f:
        # 发送 GET 请求,以流的方式获取图片内容
        response3 = requests.get(img_url[0], stream=True)
        # 逐块写入文件
        for chunk in response3.iter_content(chunk_size=1024):
            if chunk:
                f.write(chunk)
        # 输出下载完成的信息
        print(f'{file_name} downloaded!')
这段代码实现了从指定网站下载4k壁纸的功能,主要步骤如下:

使用 requests 模块向指定 URL 发送 GET 请求,获取网页源码;
使用正则表达式从网页源码中提取出所有目标图片的详情页链接;
对于每一个详情页,再次发送 GET 请求,获取详情页源码;
使用正则表达式从详情页源码中提取出目标图片的 URL 和标题;
创建本地文件夹,如果不存在的话;
将图片写入本地文件,并根据图片标题重命名。
其中,有一些注意点:

代码中的计数器 num,是用来跳过第一个广告图片的。因为这个网站的第一个壁纸链接总是广告页的链接。
因为下载的是图片文件,所以要使用二进制模式打开文件。
因为图片可能很大,所以采用逐块写入的方式。
作者: 良人旧柯梦    时间: 2023-10-10 14:25
果心豆腐酱 发表于 2023-10-6 02:33
# 导入 requests 模块
import requests
# 导入正则表达式模块

课代表是吧




欢迎光临 精易论坛 (https://125.confly.eu.org/) Powered by Discuz! X3.4