精易论坛

标题: 百度风云榜实时热点数据爬虫 [打印本页]

作者: 末影人    时间: 2019-7-26 13:57
标题: 百度风云榜实时热点数据爬虫
原理很简单,就是正则匹配,可以作为一个练手例子。

QQ截图20190726135628.png (58.21 KB, 下载次数: 2)

QQ截图20190726135628.png

百度风云榜实时热点数据爬虫.e

676.98 KB, 下载次数: 77, 下载积分: 精币 -2 枚


作者: xiaoniu1230    时间: 2019-7-26 14:27
谢谢分享,。
作者: 南风窗    时间: 2019-7-27 00:56
感谢大神佳作。
作者: 外星星人    时间: 2019-7-27 12:09
感谢大神佳作。
作者: sampo    时间: 2019-7-27 19:55
感谢楼主分享
作者: xuehang00126    时间: 2019-7-29 22:48
本帖最后由 xuehang00126 于 2019-7-29 22:49 编辑

刚好前几天我也写了个一样的...
#代码名称:爬取百度实时热点
#代码编号:0005
#代码时间:2019年7月21日17:24:53
#-----------------------------------------------------------
import requests,re
url="http://top.baidu.com/buzz?b=1&c=513&fr=topbuzz_b341_c513"
html=requests.get(url)
html.encoding=html.apparent_encoding
def rs_title(text):
    re_ls=re.findall("list-title(.*?)</a>",text)
    ls=[]
    for i in re_ls:
        title=i.split(">")[zxsq-anti-bbcode-1]
        ls.append(title)
    return ls
def rs_index(text):
    re_ls = re.findall("<span class=\"icon-(.*?)</span>",text)
    ls = []
    for i in re_ls:
        title = i.split(">")[zxsq-anti-bbcode-1]
        ls.append(title)
    return ls
title=rs_title(html.text)
index=rs_index(html.text)
for i in range(len(title)):
    print("热搜排名-{}-关键词:{}----搜索指数--{}".format(i+1,title[zxsq-anti-bbcode-i],index[zxsq-anti-bbcode-i]))


作者: mrbz    时间: 2019-7-30 14:23
感谢分享~!
作者: 厦门期货人    时间: 2019-9-14 13:30
感谢大神佳作
作者: なす随风ぬね    时间: 2019-11-20 11:58
感谢大神佳作
作者: mcyjt123    时间: 2020-1-23 22:41


作者: mcyjt123    时间: 2020-1-23 22:53
小bug挺多的,建议楼主完善(图中这个“囧”字没被判断为汉字?)

作者: 水深与云起    时间: 2020-3-29 22:33
虽然有问题 但是能用 能学习 十分感谢!!!!

作者: jgq0901    时间: 2020-5-17 09:14
初学爬虫!!!!!!!!!!!!!!!
作者: 小小侠    时间: 2020-7-26 21:36
作者的数组出现问题了,建议作者修改数组的bug




欢迎光临 精易论坛 (https://125.confly.eu.org/) Powered by Discuz! X3.4