精易论坛

标题: Python爬取壁纸网站源码，修整版 [打印本页]

作者: 尛龍科技 时间: 2023-4-16 22:02
标题: Python爬取壁纸网站源码，修整版

[Python] 纯文本查看 复制代码

import requests

import re

import os



url = 'https://www.bizhi88.com/3840x2160/'

headers = {

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'

}

response = requests.get(url=url, headers=headers)

response.encoding = 'utf8'

html_info = re.findall('<a href="(.*?)" title="(.*?)" target="_blank" class="img" style="(.*?)"', response.text)



num = 0

for link, title, style in html_info:

    num = num + 1

    if num == 1:

        continue

    link_url = 'https://www.bizhi88.com' + link

    response2 = requests.get(url=link_url, headers=headers)

    response2.encoding = "utf8"

    img_url = re.findall('<img src="(.*?)" alt="(.*?)"', response2.text)[0]

    directory = 'Wallpapers'

    if not os.path.exists(directory):

        os.makedirs(directory)

    file_name = f'{directory}/{img_url[1]}.jpg'

    with open(file_name, 'wb') as f:

        response3 = requests.get(img_url[0], stream=True)

        for chunk in response3.iter_content(chunk_size=1024):

            if chunk:

                f.write(chunk)

        print(f'{file_name} downloaded!')

根据刚才一个易友分享的例子增加了一个下载保存的功能其中Wallpapers文件夹是创建的下载的图片也在里面

作者: FanLi 时间: 2023-4-16 22:27
拿走了，这就去下个pycharm

作者: 哎哟哟123 时间: 2023-6-9 10:29

好厉害好厉害

作者: 果心豆腐酱 时间: 2023-10-6 02:33
# 导入 requests 模块
import requests
# 导入正则表达式模块
import re
# 导入 os 模块
import os

# 目标网站 URL
url = 'https://www.bizhi88.com/3840x2160/'
# 请求头信息
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
# 发送 GET 请求，并获取响应
response = requests.get(url=url, headers=headers)
# 设置响应编码为 UTF-8
response.encoding = 'utf8'
# 使用正则表达式从 HTML 中提取需要的信息
html_info = re.findall('<a href="(.*?)" title="(.*?)" target="_blank" class="img" style="(.*?)"', response.text)

num = 0
# 遍历提取出来的信息
for link, title, style in html_info:
# 自增编号计数器
num = num + 1
# 略过第一个信息，因为第一个是广告
if num == 1:
      continue
# 拼接完整的图片详情页链接
link_url = 'https://www.bizhi88.com' + link
# 发送 GET 请求，并获取响应
response2 = requests.get(url=link_url, headers=headers)
# 设置响应编码为 UTF-8
response2.encoding = "utf8"
# 使用正则表达式从 HTML 中提取图片链接和标题
img_url = re.findall('<img src="(.*?)" alt="(.*?)"', response2.text)[0]
# 设置保存图片的目录
directory = 'Wallpapers'
# 如果目录不存在，则创建目录
if not os.path.exists(directory):
      os.makedirs(directory)
# 拼接保存图片的文件名
file_name = f'{directory}/{img_url[1]}.jpg'
# 以二进制模式打开文件，并将图片内容写入文件中
with open(file_name, 'wb') as f:
      # 发送 GET 请求，以流的方式获取图片内容
      response3 = requests.get(img_url[0], stream=True)
      # 逐块写入文件
      for chunk in response3.iter_content(chunk_size=1024):
         if chunk:
            f.write(chunk)
      # 输出下载完成的信息
      print(f'{file_name} downloaded!')
这段代码实现了从指定网站下载4k壁纸的功能，主要步骤如下：

使用 requests 模块向指定 URL 发送 GET 请求，获取网页源码；
使用正则表达式从网页源码中提取出所有目标图片的详情页链接；
对于每一个详情页，再次发送 GET 请求，获取详情页源码；
使用正则表达式从详情页源码中提取出目标图片的 URL 和标题；
创建本地文件夹，如果不存在的话；
将图片写入本地文件，并根据图片标题重命名。
其中，有一些注意点：

代码中的计数器 num，是用来跳过第一个广告图片的。因为这个网站的第一个壁纸链接总是广告页的链接。
因为下载的是图片文件，所以要使用二进制模式打开文件。
因为图片可能很大，所以采用逐块写入的方式。

作者: 良人旧柯梦 时间: 2023-10-10 14:25

果心豆腐酱发表于 2023-10-6 02:33
# 导入 requests 模块
import requests
# 导入正则表达式模块

课代表是吧

欢迎光临精易论坛 (https://125.confly.eu.org/)

Powered by Discuz! X3.4