精易论坛

标题: 分享一个 判断网页源码乱码的方法 不是很准确 [打印本页]

作者: WarX    时间: 2019-4-19 13:51
标题: 分享一个 判断网页源码乱码的方法 不是很准确
用了 精艺模块哈 自己加入

今天看到一个问题说有些网站明明写的charset=gbk取出来的还是utf-8

然后想了一个这笨办法 这个测试了一些网站还是可以的 想不到其他方法了  或者大佬有啥方法可以分享出来试试

然后这个是有BUG的,在注释处有说明哈


(出现取源码慢的问题 可以自己改网页访问或者线程啥的方式取源码)




  
子程序名返回值类型公开备 注
判断网页是不是乱码逻辑型 是乱码返回真 非取编码 是比较复杂的一个方法 有小概率判断错误 如网页有?/xxx>的文本 或者取回来是没有什么文本的网页 笑哭表情
参数名类 型参考可空数组备 注
网站文本型网站地址
返回源码文本型如果是乱码 会解码后在 传参返回源码
变量名类 型静态数组备 注
txt文本型 
TXT2文本型 
z正则表达式类 
txt = 网页_取网页源码 (网站)
TXT2 = 网页_取文本_dom (txt)
置剪辑板文本 (TXT2)
z.创建 (“\?\/.*?>”, TXT2, , , , )
如果 (z.取匹配数量 () = 0)
返回源码 = txt
返回 ()


返回源码 = 编码_utf8到gb2312 (txt)
返回 ()



作者: 易小妞    时间: 2019-4-19 14:14
前面有人问了
作者: 你来我深情不拥    时间: 2019-4-19 17:31
感谢分享、、、、、
作者: jj595969837    时间: 2019-4-19 18:12
支持下哈辛苦了。。。。。
作者: sampo2017    时间: 2019-4-20 13:06
感谢楼主分享经验
作者: uxdxdg    时间: 2019-4-23 20:01
ooooooooooooooooooooooooo
作者: 懒人定制软件    时间: 2019-5-31 23:30
抢个沙发,楼主来杯茶可好?




欢迎光临 精易论坛 (https://125.confly.eu.org/) Powered by Discuz! X3.4