精易论坛

标题: [精易模块]网页_取文本_reg 增加遗漏标签 增加可读性 [打印本页]

作者: 码路    时间: 2023-11-20 21:50
标题: [精易模块]网页_取文本_reg 增加遗漏标签 增加可读性
  
子程序名返回值类型公开备 注
网页_取文本_reg文本型 去掉网页源码中的HTML标签,保留纯文本(正则方式) 注:增加了注释html语句的删除,增加了2个选项用于提高文本可读性
参数名类 型参考可空数组备 注
网页源码文本型网页源码如果含中文且乱码的,请先解码
是否删除空白字符逻辑型默认为假
是否删除多余换行符逻辑型默认为假
变量名类 型静态数组备 注
正则正则表达式类 
局_源码文本型 
局_源码 = 网页源码
正则.创建 (选择 (是否删除空白字符, “[\f\t\v]|”, “”)“<!--[\s\S]*?-->|<script[\s\S]*?</script>|<style[\s\S]*?</style>|<[^>]+>|&.{1,8};”, 局_源码)
局_源码 = 正则.替换 ()
如果真 (是否删除多余换行符)
循环判断首 ()
局_源码 = 子文本替换 (局_源码, #换行符#换行符#换行符, #换行符, , , )
循环判断尾 (寻找文本 (局_源码, #换行符#换行符#换行符, , ) ≠ -1)

返回 (局_源码)
增加了对HTML注释标签的处理。(原版没替换注释<!-- 注释 -->)
增加了两个选项参数,允许用户选择是否删除空白字符和是否删除多余换行符,用于提高可读性。
和之前代码兼容 默认不提供参数 只是增加了注释处理



作者: 小鱼2013    时间: 2023-11-30 15:35
QQ截图问题




欢迎光临 精易论坛 (https://125.confly.eu.org/) Powered by Discuz! X3.4