精易论坛

标题: 百度风云榜实时热点数据爬虫 [打印本页]

作者: 末影人 时间: 2019-7-26 13:57
标题: 百度风云榜实时热点数据爬虫
原理很简单，就是正则匹配，可以作为一个练手例子。

QQ截图20190726135628.png (58.21 KB, 下载次数: 2)

百度风云榜实时热点数据爬虫.e

676.98 KB, 下载次数: 77, 下载积分: 精币 -2 枚

作者: xiaoniu1230 时间: 2019-7-26 14:27
谢谢分享，。

作者: 南风窗 时间: 2019-7-27 00:56

感谢大神佳作。

作者: 外星星人 时间: 2019-7-27 12:09
感谢大神佳作。

作者: sampo 时间: 2019-7-27 19:55
感谢楼主分享

作者: xuehang00126 时间: 2019-7-29 22:48
本帖最后由 xuehang00126 于 2019-7-29 22:49 编辑

刚好前几天我也写了个一样的...

#代码名称:爬取百度实时热点

#代码编号:0005

#代码时间:2019年7月21日17:24:53

#-----------------------------------------------------------

import requests,re

url="http://top.baidu.com/buzz?b=1&c=513&fr=topbuzz_b341_c513"

html=requests.get(url)

html.encoding=html.apparent_encoding

def rs_title(text):

    re_ls=re.findall("list-title(.*?)</a>",text)

    ls=[]

    for i in re_ls:

        title=i.split(">")[zxsq-anti-bbcode-1]

        ls.append(title)

    return ls

def rs_index(text):

    re_ls = re.findall("<span class=\"icon-(.*?)</span>",text)

    ls = []

    for i in re_ls:

        title = i.split(">")[zxsq-anti-bbcode-1]

        ls.append(title)

    return ls

title=rs_title(html.text)

index=rs_index(html.text)

for i in range(len(title)):

    print("热搜排名-{}-关键词:{}----搜索指数--{}".format(i+1,title[zxsq-anti-bbcode-i],index[zxsq-anti-bbcode-i]))

作者: mrbz 时间: 2019-7-30 14:23
感谢分享~！

作者: 厦门期货人 时间: 2019-9-14 13:30
感谢大神佳作

作者: なす随风ぬね 时间: 2019-11-20 11:58
感谢大神佳作

作者: mcyjt123 时间: 2020-1-23 22:41

作者: mcyjt123 时间: 2020-1-23 22:53

小bug挺多的，建议楼主完善(图中这个“囧”字没被判断为汉字？)

作者: 水深与云起 时间: 2020-3-29 22:33
虽然有问题但是能用能学习十分感谢！！！！

作者: jgq0901 时间: 2020-5-17 09:14
初学爬虫！！！！！！！！！！！！！！！

作者: 小小侠 时间: 2020-7-26 21:36
作者的数组出现问题了，建议作者修改数组的bug

欢迎光临精易论坛 (https://125.confly.eu.org/)