开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 473|回复: 19
打印 上一主题 下一主题
收起左侧

[已解决] python爬取网站信息

 关闭 [复制链接]
结帖率:85% (23/27)
跳转到指定楼层
楼主
发表于 2025-3-20 22:11:57 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式   浙江省杭州市
10精币
网站:https://cacizt-pc.eastfair.com/actorList
大佬指导下如何爬取网页上公司的名称、展位号以及查看详情对应的网址。

VX图片_20250320221115.png (342.27 KB, 下载次数: 0)

VX图片_20250320221115.png

最佳答案

查看完整内容

虽然简单,但是只有10个精币。。。 [e=3]import requests import json # 创建一个 Session 对象 session = requests.Session() # 设置请求头 headers = { "authority": "cacizt-pc.eastfair.com", "accept": "application/json, text/plain, */*", "accept-language": "zh-CN,zh;q=0.9", "authorization": "PBB+hfqyCn5u/Asp+KqEaro7AhH4z/+bW0+9qxZHTV3GqTTtK0xlBOZ/bJUKrMMzpQGrxvbaa1O+XC9IM1Esf ...

回答提醒:如果本帖被关闭无法回复,您有更好的答案帮助楼主解决,请发表至 源码区 可获得加分喔。
友情提醒:本版被采纳的主题可在 申请荣誉值 页面申请荣誉值,获得 1点 荣誉值,荣誉值可兑换荣誉会员、终身vip用户组。
快捷通道:申请荣誉值无答案申请取消悬赏投诉有答案未采纳为最佳
结帖率:93% (253/272)
沙发
发表于 2025-3-20 22:11:58 | 只看该作者   广西壮族自治区崇左市

虽然简单,但是只有10个精币。。。


  
import requests
import json
# 创建一个 Session 对象
session = requests.Session ()
# 设置请求头
headers = {
"authority": "cacizt-pc.eastfair.com",
"accept": "application/json, text/plain, */*",
"accept-language": "zh-CN,zh;q=0.9",
"authorization": "PBB+hfqyCn5u/Asp+KqEaro7AhH4z/+bW0+9qxZHTV3GqTTtK0xlBOZ/bJUKrMMzpQGrxvbaa1O+XC9IM1Esf+sq+GwKEVbFVC5oHf4ckhDvF0COJwODWI/otfPxmvDr8/lzo80KxYaPNqn7kEkK/5d3CRmNDUlQBGo9iBXFyJm9IcXhTs3UJ3PSx/3pyao67h18E1SncYIPukUmWlVAsHzhxLGBP9tOeJdS6oZ4RYKXIeoSHtEZefeF/0Ne5PpFdZjPGeTCeSLhi0QVNZ+70jSDR0ZiOfQJ5NTNtnT9EOJMGGPZkoevYDS/Wd1LcvI5xPT8hle8hE3TgEdYGc2Z+P4TQ3pEta1RRke+boQK/qNYu1LJkzJtNYIDRsf1bshJFAf5AxjrLvNiDx1pKcwNfgT1w5M/Dvv5yMKwTbI5yGQ=",
"content-type": "application/json;charset=UTF-8",
"cookie": "CAC-huikan-Token=PBB+hfqyCn5u/Asp+KqEaro7AhH4z/+bW0+9qxZHTV3GqTTtK0xlBOZ/bJUKrMMzpQGrxvbaa1O+XC9IM1Esf+sq+GwKEVbFVC5oHf4ckhDvF0COJwODWI/otfPxmvDr8/lzo80KxYaPNqn7kEkK/5d3CRmNDUlQBGo9iBXFyJm9IcXhTs3UJ3PSx/3pyao67h18E1SncYIPukUmWlVAsHzhxLGBP9tOeJdS6oZ4RYKXIeoSHtEZefeF/0Ne5PpFdZjPGeTCeSLhi0QVNZ+70jSDR0ZiOfQJ5NTNtnT9EOJMGGPZkoevYDS/Wd1LcvI5xPT8hle8hE3TgEdYGc2Z+P4TQ3pEta1RRke+boQK/qNYu1LJkzJtNYIDRsf1bshJFAf5AxjrLvNiDx1pKcwNfgT1w5M/Dvv5yMKwTbI5yGQ=",
"origin": "https://cacizt-pc.eastfair.com",
"referer": "https://cacizt-pc.eastfair.com/actorList",
"sec-fetch-dest": "empty",
"sec-fetch-mode": "cors",
"sec-fetch-site": "same-origin",
"user-agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1"
}
# 封装请求的函数
def fetch_exhibitors_data (page_num):
# 请求数据
data = {
"pageNum": page_num,
"pageRows": 10,
"total": 2194,
"searchKeywords": "",
"pages": 220,
"tagIds": "",
"questionList": [],
"initial": "",
"showType": "ACTOR_LIST",
"exhibitorSort": "recommend_custom_letter_asc",
"languageType": "cn",
"exhibitionId": "b33d8960b7a245cb97146670283ac360",
"appId": "7e46f33c139246069a3c17c9f4847a25",
"terminal": "web",
"subjectType": "VISITOR"
}

# 发送POST请求
response = session.post (
"https://cacizt-pc.eastfair.com/visitor/v2/exhibitor/browse/all/list",
headers=headers,
json=data
)

return response
# 遍历请求,获取数据并存储
def get_all_exhibitors ():
exhibitors = []  # 用于存储所有展商的数据
total_pages = 220  # 总页数,可以根据实际的响应调整

for page_num in range (1, total_pages + 1):  # 遍历每一页
print (f"正在请求第 {page_num} 页的数据...")

response = fetch_exhibitors_data (page_num)

if response.status_code == 200:
try:
# 解析JSON响应
response_json = response.json ()
exhibitor_list = response_json[ ' data']['list']

# 遍历列表获取每个展商的信息
for item in exhibitor_list:
exhibition_booth_number = item[ ' exhibitionBoothNumber']
company_name = item[ ' name']
exhibitor_id = item[ ' id']

exhibitors.append ({
"exhibitionBoothNumber": exhibition_booth_number,
"companyName": company_name,
"id": exhibitor_id,
"url":f"https://cacizt-pc.eastfair.com/actorDetail/{exhibitor_id}"
})
except Exception as e:
print ("解析响应时出错:", e)
else:
print (f"请求失败,第 {page_num} 页,状态码: {response.status_code}")

return exhibitors
# 调用函数获取所有展商数据
exhibitors_data = get_all_exhibitors ()
# 输出所有展商的展位号和公司名
for exhibitor in exhibitors_data:
print (f"展位号: {exhibitor[ ' exhibitionBoothNumber']}, 公司名: {exhibitor['companyName']}, URL: {exhibitor['url']}")

回复

使用道具 举报

结帖率:17% (1/6)
板凳
发表于 2025-3-20 22:18:43 | 只看该作者   广东省佛山市
要爬哪些内容 ?
回复

使用道具 举报

结帖率:85% (23/27)

签到天数: 1 天

地板
 楼主| 发表于 2025-3-20 22:19:30 | 只看该作者   浙江省杭州市
hujie789 发表于 2025-3-20 22:18
要爬哪些内容 ?

爬取网页上公司的名称、展位号以及查看详情对应的网址
回复

使用道具 举报

结帖率:99% (67/68)

签到天数: 8 天

地下
发表于 2025-3-20 22:23:45 | 只看该作者   河南省郑州市
易语言不香?
回复

使用道具 举报

结帖率:17% (1/6)
6
发表于 2025-3-20 22:24:42 | 只看该作者   广东省佛山市
jmao1234 发表于 2025-3-20 22:19
爬取网页上公司的名称、展位号以及查看详情对应的网址

默认的展位信息 还是 自定义搜索的呢
回复

使用道具 举报

结帖率:85% (23/27)

签到天数: 1 天

7
 楼主| 发表于 2025-3-20 22:26:34 | 只看该作者   浙江省杭州市
hujie789 发表于 2025-3-20 22:24
默认的展位信息 还是 自定义搜索的呢

默认的展位信息,不需要搜索
回复

使用道具 举报

结帖率:85% (23/27)

签到天数: 1 天

8
 楼主| 发表于 2025-3-20 22:27:05 | 只看该作者   浙江省杭州市

易语言怎么实现了? 问题也不会
回复

使用道具 举报

头像被屏蔽
9
发表于 2025-3-20 22:34:38 | 只看该作者   广东省广州市
要是网页上的先看看网页源码有没有数据,有就正则取出来好了,没有就看是不是有接口获取这些数据,抓接口就行了

回复

使用道具 举报

结帖率:85% (23/27)

签到天数: 1 天

10
 楼主| 发表于 2025-3-20 22:36:20 | 只看该作者   浙江省杭州市
易有易用 发表于 2025-3-20 22:34
要是网页上的先看看网页源码有没有数据,有就正则取出来好了,没有就看是不是有接口获取这些数据,抓接口就 ...

关键就是获取不到这些数据
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报电话0663-3422125,QQ: 793400750,邮箱:[email protected]
网站简介:精易论坛成立于2009年,是一个程序设计学习交流技术论坛,隶属于揭阳市揭东区精易科技有限公司所有。
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表