|

分享例程
界面截图: |
|
备注说明: |
- |
本帖最后由 hzk0404 于 2023-1-3 04:46 编辑
模块功能:
用类似xpath表达式的方式进行html解析
这是一个更新帖,具体内容请查看原帖
传送门
V3.6版本模块下载
HZKpath模块3.6.zip
(62.11 KB, 下载次数: 833)
说明书下载
HZKpath使用语法说明书V3.6.zip
(2.54 MB, 下载次数: 329)
调试工具大更新,增加了全新的功能,包括快速定位网页某文本位置结构等:https://125.confly.eu.org/forum.php?mod=viewthread&tid=14759681
模块官网、在线手册
http://hzkpath.e.houzhenkun.com/
qq群获取最新版本模块、教程、说明书、调试工具:181789014
群内有群友写的调试工具,还有例程
模块更新地址:
更新记录:20230102 V3.6- 更新了全新的调试工具
- 添加特殊属性@@name,为标签自身的名字比如<DIV>
- 添加特殊属性@@namein,为标签内部的名字比如DIV
- 添加特殊属性@@htmlstart,为带属性的标签头部代码,如<SPAN style="FONT-SIZE: 15px; FONT-FAMILY: Optima-Regular, PingFangTC-light; LETTER-SPACING: 1px">
- 添加特殊属性@@htmlend,为标签尾部的html代码,如<\SPAN>,如果标签为<IMG>等只有一个开头的标签则结尾为空文本
- 添加特殊属性@@sub,为第一个子级标签的名字比如<DIV>
- 添加特殊属性@@subnum,取子标签的数量
- 添加特殊属性@@subin,为第一个子级标签内部的名字比如DIV
- 添加特殊属性@@suball,为全部子级标签的名字比如<P><P><P><IMG>
- 添加特殊属性@@subany为全部子级及孙级所有标签的名字比如<P><SPAN><STRONG><P><A><P><IMG><IMG>
- 添加特殊属性@@subanynum,为全部子级及孙级所有标签的数量
- hzkpath类的命令参数增加了返回提示参数,用于输出调试
- hzkpath模块增加了新的程序集用于html代码分析使用,以下为增加程序集程序
- hzkpath_树型框解析网页结构(html文本,树型框),可以将html文本解析到某个树型框内
- hzkpath_树型框点击事件(树型框,编辑框,返回输出内容),放在树型框被点击的事件内,用于展开树型框,输出当前节点html文本到某个编辑框,或者返回这个节点的html文本
- hzkpath_树型框搜索内容(树型框,搜索内容),搜索某个树型框中指定的html文本内容并且选择到,搜索到的节点,搜索从树型框当前选择项开始向下查找,可以将此程序放于某按钮点击事件内部
- hzkpath_网页编码判断(html文本),返回该网页文本的编码,如UTF-8
- hzkpath_网页文本格式转换(html文本),直接将html文本自动识别格式并转换为易语言能读取的ANSI文本
- 添加属性表达式%clear[标签名,标签名]clear%,将指定标签名的多余属性删除,(仅第一级标签)
- 添加属性表达式%clearany[标签名,标签名]clearany%,将所有指定标签名的多余属性删除,(所有级标签)
- 添加属性表达式%textonly%,仅保留该标签内的文本,
- 添加属性表达式%thname[被替换标签名1,被替换标签名2,被替换标签名3,……,预替换标签名]thname%,可以替换指定标签的名字到某个标签名,最后一个属性是要替换为某个标签名,前面数量可以任意写,如:%thname[SPAN,STRONG,H1,……,P]thname%,意为将标签名为SPAN、STRONG、H1的都替换城P
- 添加属性表达式%thnameall[被替换标签名1,被替换标签名2,被替换标签名3,……,预替换标签名]thnameall%,效果同上,包含所有子级标签
- 添加属性表达式%clearimg[属性1,属性2,……]clearimg%,功能是格式化所有图片标签,属性是这个标签可能的图片链接属性,按照顺序先后级寻找图片链接,如:%clearimg[data-src,src]clearimg%,意为首先寻找IMG标签的data-src属性,如果取不出则寻找src属性。
- 修复了当标签内部没有子标签时仍然能取出空结果的BUG,比如<SPAN>123</SPAN>,是用公式//body/span/*仍然能取出结果的BUG
- 修复了当条件为整数并且作为最后一个and()条件时,取出多个结果的BUG
- 增加条件num(),功能是用于多个条件,取出前面条件筛选出的整数个结果,如://div[@class<>"text"\num(3)],含义为先找到所有class属性包含text的div标签,然后在筛选结果里面取出第三个,如果写为//div[@class<>"text"\3]的含义是:先找到所有class属性包含text的div标签,并且是所有标签中的第3个标签
补充内容 (2023-1-11 17:59):
模块V3.6版本内包含EXUI支持库,请到群内下载最新V3.6.1,版本删除了这个支持库,或者等待下次大版本更新会发帖
补充内容 (2023-11-15 02:35):
统一回复一下:V3.6版本不小心输出的时候开启了EXUI支持库,请前往QQ群文件下载应急的V3.6.1版本,新版V4.0模块正在开发路上,模块将支持XML、JSON、HTML |
评分
-
查看全部评分
|