精易论坛
标题:
HTML网页解析类1.1
[打印本页]
作者:
z617884838
时间:
2017-10-25 14:51
标题:
HTML网页解析类1.1
本帖最后由 z617884838 于 2017-10-25 14:53 编辑
介绍:
通过正则表达式Deelx来分析网页源码,然后进行解析。这个第一个版本,效率应该也不是很高,当然可能也存在一定BUG。
JSON、XML解析器网上都有,唯独缺少HTML的,我就先开发一个低效率版吧,等大神来开发效率版的HTML解析器。
正则表达式不一定非常的完善!如果有兴趣共同研究和完善,加群:389952803
1.1升级内容:
1.增加在解析前清空以前数组。
2.增加正则表达式递归语法,避免在同一元素名内反复嵌套取出错误的BUG。
3.增加提取一些不规范值的内容。如没有包围#引号、转义符等不规范的。
4.增加过滤注释的元素,如:<!--元素-->
5.修复取网页顶层父对象的HTML的BUG。
6.顶层元素对象,初始索引为:1。
7.修复取网页所有文本,可能会将SCRIPT和STYLE内代码取出。
※ 该版本可以匹配任何复杂元素:无限嵌套、不规则元素、理论上应该是可以匹配到任何元素的;当然不排除会有BUG。
下载:
HTML网页解析类1.1.rar
(16.27 KB, 下载次数: 610)
2017-10-25 14:47 上传
点击文件名下载附件
下载积分: 精币 -2 枚
作者:
峰生水起之林
时间:
2017-10-25 15:18
感谢开源~~
作者:
onefish
时间:
2017-10-25 15:47
#在这里快速回复# 感谢开源
作者:
louyu
时间:
2017-10-25 16:12
支持开源,感谢分享!
作者:
镇坛道德标杆
时间:
2017-10-25 20:37
支持一下。
我最近在试着把谷歌的 gumbo 封装为动态库然后调用(完成度60/100吧),一个比较新的纯C的 html5 解析库。
Snipaste_2017-10-25_20-34-25.png
(392.94 KB, 下载次数: 0)
下载附件
2017-10-25 20:34 上传
作者:
hsbk1937
时间:
2017-10-25 21:42
该版本可以匹配任何复杂元素:无限嵌套、不规则元素、理论上应该是可以匹配到任何元素的;当然不排除会有BUG。
作者:
xhei
时间:
2017-10-25 23:43
#在这里快速回复# 感谢开源
作者:
唯美主义
时间:
2017-10-26 00:25
效率太低!作用不大!
建议:采用按需求匹配方式!而不是全部一次匹配!可以看看网上的HTML解析库源码例程!
支持楼主继续优化开发!
作者:
huxian
时间:
2017-10-26 02:52
互换可以不呵呵
作者:
pzhccy
时间:
2017-10-26 21:38
坚持每天多点发帖、多写代码、多学习......
作者:
2034456
时间:
2017-10-30 19:00
学习学习学习
作者:
a251357
时间:
2017-11-2 12:52
学习学习咯
作者:
huxian
时间:
2017-11-2 14:53
呵呵呵,2个都下载了
作者:
huxian
时间:
2017-11-2 14:53
可以下载用的哦
作者:
yulei464
时间:
2017-12-7 23:34
多学习,多练习
作者:
oycs429
时间:
2017-12-13 22:33
可以学习一下,,,,
作者:
筷子易
时间:
2017-12-20 11:21
好东西,学习有例子了。谢谢楼主
作者:
创造天地
时间:
2018-1-15 00:18
表示已经收藏
作者:
夏无道
时间:
2018-2-9 11:13
谢谢分享,很需要
作者:
13892998537
时间:
2018-10-2 23:50
谢谢分享,很需要
作者:
lskdcl
时间:
2018-10-23 09:32
可以学习一下,,,,
作者:
99308520
时间:
2018-12-15 02:28
挖 谢谢
作者:
killhop1986
时间:
2018-12-20 19:01
支持。。。。。。
作者:
wjclyaa
时间:
2019-1-18 21:20
谢谢分享,支持,正好需要html解析,试试看这个
作者:
xy1002
时间:
2019-1-25 23:50
谢谢楼主
作者:
momo635241
时间:
2019-2-12 14:49
正好需要你
作者:
cjhfire
时间:
2019-2-25 14:07
学习学习学习
作者:
羊羊
时间:
2019-3-1 14:17
好像很厉害
作者:
文武双全1149
时间:
2019-3-26 13:30
正好需要你
作者:
光头强来偷树
时间:
2019-3-29 14:58
下载来试试看
作者:
fengzhizxw
时间:
2019-4-28 19:10
好像很厉害的样子
作者:
Rayme
时间:
2019-5-11 12:22
支持分享!
作者:
charlie072
时间:
2019-5-18 01:25
不错 收这个了
作者:
江湖人称小强
时间:
2019-6-10 18:44
支持,收藏!
作者:
wang2596308
时间:
2019-6-11 21:48
收下了,感谢
作者:
a287400871
时间:
2019-6-18 16:08
收下了,感谢 收下了,感谢
作者:
禁之零零
时间:
2019-6-21 11:20
感谢楼主的分享
作者:
文武双全1149
时间:
2019-7-6 11:57
感谢楼主的分享
作者:
xy1002
时间:
2019-7-23 20:49
下载来试试看
作者:
怕个屁啊
时间:
2019-8-23 13:40
先回复 再拿货
作者:
qyzz007
时间:
2019-8-23 22:40
十分感谢,有了这个取网页文本就方便多了
作者:
忘记方位
时间:
2019-10-10 12:17
提示:
作者被禁止或删除 内容自动屏蔽
作者:
星辰月神
时间:
2019-11-21 23:12
BUG有点大 调试解析的时候吃内存吃到内存不足.
作者:
moxiangkelei
时间:
2019-12-11 15:30
感谢分享,看看能不能实现我要的功能
作者:
122020
时间:
2019-12-19 14:23
分析整个网页,局部元素几百个情况下,会卡死,能不能优化下,比如,我分析了Tao宝的html
作者:
htm8888
时间:
2020-2-22 17:26
感谢分享感谢分享感谢分享感谢分享感谢分享感谢分享
作者:
1143910315
时间:
2020-7-31 20:04
加油加油,支持楼主继续完善
作者:
805850337
时间:
2020-10-12 19:52
没用阿,源码测试直接卡死
作者:
2467201838dark
时间:
2021-9-20 18:07
666666666666666666666666
作者:
非常猥锁
时间:
2023-6-6 18:56
解释非常吃内存,超容易卡死
作者:
crossdiy
时间:
2023-6-8 16:16
感谢分享
欢迎光临 精易论坛 (https://125.confly.eu.org/)
Powered by Discuz! X3.4