百度风云榜实时热点数据爬虫

查看数: 5005 | 评论数: 13 | 收藏 11

关灯 | 提示：支持键盘翻页 & lt;-左右 ->

帖子模式

末影人

发布时间: 2019-7-26 13:57

正文摘要:

原理很简单，就是正则匹配，可以作为一个练手例子。

小小侠广东省阳江市 发表于 2020-7-26 21:36:00

作者的数组出现问题了，建议作者修改数组的bug

jgq0901 江苏省南京市 发表于 2020-5-17 09:14:52

初学爬虫！！！！！！！！！！！！！！！

水深与云起海南省五指山市 发表于 2020-3-29 22:33:01

虽然有问题但是能用能学习十分感谢！！！！

mcyjt123 北京市北京市 发表于 2020-1-23 22:53:10

小bug挺多的，建议楼主完善(图中这个“囧”字没被判断为汉字？)

mcyjt123 北京市北京市 发表于 2020-1-23 22:41:11

なす随风ぬね广东省广州市 发表于 2019-11-20 11:58:58

感谢大神佳作

厦门期货人福建省厦门市 发表于 2019-9-14 13:30:45

感谢大神佳作

mrbz 广东省江门市 发表于 2019-7-30 14:23:04

感谢分享~！

xuehang00126 黑龙江省鸡西市 发表于 2019-7-29 22:48:08

本帖最后由 xuehang00126 于 2019-7-29 22:49 编辑

刚好前几天我也写了个一样的...

#代码名称:爬取百度实时热点
#代码编号:0005
#代码时间:2019年7月21日17:24:53
#-----------------------------------------------------------
import requests,re
url="http://top.baidu.com/buzz?b=1&c=513&fr=topbuzz_b341_c513"
html=requests.get(url)
html.encoding=html.apparent_encoding
def rs_title(text):
    re_ls=re.findall("list-title(.*?)</a>",text)
    ls=[]
    for i in re_ls:
        title=i.split(">")[1]
        ls.append(title)
    return ls
def rs_index(text):
    re_ls = re.findall("<span class=\"icon-(.*?)</span>",text)
    ls = []
    for i in re_ls:
        title = i.split(">")[1]
        ls.append(title)
    return ls
title=rs_title(html.text)
index=rs_index(html.text)
for i in range(len(title)):
    print("热搜排名-{}-关键词:{}----搜索指数--{}".format(i+1,title[i],index[i]))

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论，本站内容均为会员发表，并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的，严禁用于非法目的，否则造成一切后果自负！如帖子内容侵害到你的权益，请联系我们！
防范网络诈骗，远离网络犯罪违法和不良信息举报QQ： 793400750，邮箱：[email protected]
网站简介：精易论坛成立于2009年，是一个程序设计学习交流技术论坛，隶属于揭阳市揭东区精易科技有限公司所有。
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125　增值电信业务经营许可证粤B2-20192173

		自动登录	找回密码
密码			注册

百度风云榜实时热点数据爬虫

正文摘要:

回复