开启辅助访问

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

百度风云榜实时热点数据爬虫

查看数: 5005 | 评论数: 13 | 收藏 11
关灯 | 提示:支持键盘翻页 & lt;-左 右 ->
    组图打开中,请稍候......
发布时间: 2019-7-26 13:57

正文摘要:

原理很简单,就是正则匹配,可以作为一个练手例子。

回复

小小侠   广东省阳江市 发表于 2020-7-26 21:36:00
作者的数组出现问题了,建议作者修改数组的bug
jgq0901   江苏省南京市 发表于 2020-5-17 09:14:52
初学爬虫!!!!!!!!!!!!!!!
水深与云起   海南省五指山市 发表于 2020-3-29 22:33:01
虽然有问题 但是能用 能学习 十分感谢!!!!
mcyjt123   北京市北京市 发表于 2020-1-23 22:53:10
小bug挺多的,建议楼主完善(图中这个“囧”字没被判断为汉字?)
mcyjt123   北京市北京市 发表于 2020-1-23 22:41:11

なす随风ぬね   广东省广州市 发表于 2019-11-20 11:58:58
感谢大神佳作
厦门期货人   福建省厦门市 发表于 2019-9-14 13:30:45
感谢大神佳作
mrbz   广东省江门市 发表于 2019-7-30 14:23:04
感谢分享~!
xuehang00126   黑龙江省鸡西市 发表于 2019-7-29 22:48:08
本帖最后由 xuehang00126 于 2019-7-29 22:49 编辑

刚好前几天我也写了个一样的...
#代码名称:爬取百度实时热点
#代码编号:0005
#代码时间:2019年7月21日17:24:53
#-----------------------------------------------------------
import requests,re
url="http://top.baidu.com/buzz?b=1&c=513&fr=topbuzz_b341_c513"
html=requests.get(url)
html.encoding=html.apparent_encoding
def rs_title(text):
    re_ls=re.findall("list-title(.*?)</a>",text)
    ls=[]
    for i in re_ls:
        title=i.split(">")[1]
        ls.append(title)
    return ls
def rs_index(text):
    re_ls = re.findall("<span class=\"icon-(.*?)</span>",text)
    ls = []
    for i in re_ls:
        title = i.split(">")[1]
        ls.append(title)
    return ls
title=rs_title(html.text)
index=rs_index(html.text)
for i in range(len(title)):
    print("热搜排名-{}-关键词:{}----搜索指数--{}".format(i+1,title[i],index[i]))
发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报QQ: 793400750,邮箱:[email protected]
网站简介:精易论坛成立于2009年,是一个程序设计学习交流技术论坛,隶属于揭阳市揭东区精易科技有限公司所有。
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表