精易论坛

标题: HTML网页解析类1.1 [打印本页]

作者: z617884838    时间: 2017-10-25 14:51
标题: HTML网页解析类1.1
本帖最后由 z617884838 于 2017-10-25 14:53 编辑

介绍:

      通过正则表达式Deelx来分析网页源码,然后进行解析。这个第一个版本,效率应该也不是很高,当然可能也存在一定BUG。
      JSON、XML解析器网上都有,唯独缺少HTML的,我就先开发一个低效率版吧,等大神来开发效率版的HTML解析器。
      正则表达式不一定非常的完善!如果有兴趣共同研究和完善,加群:389952803

1.1升级内容:
    1.增加在解析前清空以前数组。
    2.增加正则表达式递归语法,避免在同一元素名内反复嵌套取出错误的BUG。
    3.增加提取一些不规范值的内容。如没有包围#引号、转义符等不规范的。
    4.增加过滤注释的元素,如:<!--元素-->
    5.修复取网页顶层父对象的HTML的BUG。
    6.顶层元素对象,初始索引为:1。
    7.修复取网页所有文本,可能会将SCRIPT和STYLE内代码取出。

     ※ 该版本可以匹配任何复杂元素:无限嵌套、不规则元素、理论上应该是可以匹配到任何元素的;当然不排除会有BUG。

下载:
HTML网页解析类1.1.rar (16.27 KB, 下载次数: 610)

作者: 峰生水起之林    时间: 2017-10-25 15:18
感谢开源~~
作者: onefish    时间: 2017-10-25 15:47
#在这里快速回复# 感谢开源
作者: louyu    时间: 2017-10-25 16:12
支持开源,感谢分享!
作者: 镇坛道德标杆    时间: 2017-10-25 20:37
支持一下。
我最近在试着把谷歌的 gumbo 封装为动态库然后调用(完成度60/100吧),一个比较新的纯C的 html5 解析库。







作者: hsbk1937    时间: 2017-10-25 21:42
该版本可以匹配任何复杂元素:无限嵌套、不规则元素、理论上应该是可以匹配到任何元素的;当然不排除会有BUG。
作者: xhei    时间: 2017-10-25 23:43
#在这里快速回复# 感谢开源

作者: 唯美主义    时间: 2017-10-26 00:25
效率太低!作用不大!
建议:采用按需求匹配方式!而不是全部一次匹配!可以看看网上的HTML解析库源码例程!
支持楼主继续优化开发!
作者: huxian    时间: 2017-10-26 02:52
互换可以不呵呵
作者: pzhccy    时间: 2017-10-26 21:38
坚持每天多点发帖、多写代码、多学习......
作者: 2034456    时间: 2017-10-30 19:00
学习学习学习
作者: a251357    时间: 2017-11-2 12:52
学习学习咯
作者: huxian    时间: 2017-11-2 14:53
呵呵呵,2个都下载了
作者: huxian    时间: 2017-11-2 14:53
可以下载用的哦
作者: yulei464    时间: 2017-12-7 23:34
多学习,多练习
作者: oycs429    时间: 2017-12-13 22:33
可以学习一下,,,,
作者: 筷子易    时间: 2017-12-20 11:21
好东西,学习有例子了。谢谢楼主
作者: 创造天地    时间: 2018-1-15 00:18
表示已经收藏
作者: 夏无道    时间: 2018-2-9 11:13
谢谢分享,很需要
作者: 13892998537    时间: 2018-10-2 23:50
谢谢分享,很需要
作者: lskdcl    时间: 2018-10-23 09:32
可以学习一下,,,,
作者: 99308520    时间: 2018-12-15 02:28
挖 谢谢
作者: killhop1986    时间: 2018-12-20 19:01
支持。。。。。。
作者: wjclyaa    时间: 2019-1-18 21:20
谢谢分享,支持,正好需要html解析,试试看这个
作者: xy1002    时间: 2019-1-25 23:50
谢谢楼主                        
作者: momo635241    时间: 2019-2-12 14:49
正好需要你
作者: cjhfire    时间: 2019-2-25 14:07
学习学习学习
作者: 羊羊    时间: 2019-3-1 14:17
好像很厉害

作者: 文武双全1149    时间: 2019-3-26 13:30
正好需要你
作者: 光头强来偷树    时间: 2019-3-29 14:58
下载来试试看
作者: fengzhizxw    时间: 2019-4-28 19:10
好像很厉害的样子
作者: Rayme    时间: 2019-5-11 12:22
支持分享!
作者: charlie072    时间: 2019-5-18 01:25
不错 收这个了
作者: 江湖人称小强    时间: 2019-6-10 18:44
支持,收藏!
作者: wang2596308    时间: 2019-6-11 21:48
收下了,感谢
作者: a287400871    时间: 2019-6-18 16:08
收下了,感谢 收下了,感谢
作者: 禁之零零    时间: 2019-6-21 11:20
感谢楼主的分享
作者: 文武双全1149    时间: 2019-7-6 11:57

感谢楼主的分享
作者: xy1002    时间: 2019-7-23 20:49
下载来试试看
作者: 怕个屁啊    时间: 2019-8-23 13:40
先回复 再拿货
作者: qyzz007    时间: 2019-8-23 22:40
十分感谢,有了这个取网页文本就方便多了
作者: 忘记方位    时间: 2019-10-10 12:17
提示: 作者被禁止或删除 内容自动屏蔽
作者: 星辰月神    时间: 2019-11-21 23:12
BUG有点大  调试解析的时候吃内存吃到内存不足.
作者: moxiangkelei    时间: 2019-12-11 15:30
感谢分享,看看能不能实现我要的功能
作者: 122020    时间: 2019-12-19 14:23
分析整个网页,局部元素几百个情况下,会卡死,能不能优化下,比如,我分析了Tao宝的html
作者: htm8888    时间: 2020-2-22 17:26
感谢分享感谢分享感谢分享感谢分享感谢分享感谢分享
作者: 1143910315    时间: 2020-7-31 20:04
加油加油,支持楼主继续完善
作者: 805850337    时间: 2020-10-12 19:52
没用阿,源码测试直接卡死
作者: 2467201838dark    时间: 2021-9-20 18:07
666666666666666666666666
作者: 非常猥锁    时间: 2023-6-6 18:56
解释非常吃内存,超容易卡死

作者: crossdiy    时间: 2023-6-8 16:16
感谢分享




欢迎光临 精易论坛 (https://125.confly.eu.org/) Powered by Discuz! X3.4