精易论坛

标题: 分享一个判断网页源码乱码的方法不是很准确 [打印本页]

作者: WarX 时间: 2019-4-19 13:51
标题: 分享一个判断网页源码乱码的方法不是很准确
用了精艺模块哈自己加入

今天看到一个问题说有些网站明明写的charset=gbk取出来的还是utf-8

然后想了一个这笨办法这个测试了一些网站还是可以的想不到其他方法了或者大佬有啥方法可以分享出来试试

然后这个是有BUG的，在注释处有说明哈

（出现取源码慢的问题可以自己改网页访问或者线程啥的方式取源码）

子程序名	返回值类型	公开	备注
判断网页是不是乱码	逻辑型		是乱码返回真非取编码是比较复杂的一个方法有小概率判断错误如网页有?/xxx>的文本或者取回来是没有什么文本的网页笑哭表情
参数名	类型	参考	可空	数组	备注
网站	文本型				网站地址
返回源码	文本型				如果是乱码会解码后在传参返回源码

变量名	类型	静态	数组	备注
txt	文本型
TXT2	文本型
z	正则表达式类

txt ＝网页_取网页源码 (网站)
TXT2 ＝网页_取文本_dom (txt)
置剪辑板文本 (TXT2)
z.创建 (“\?\/.*?>”, TXT2, , , , )

如果 (z.取匹配数量 () ＝ 0)

返回源码＝ txt

返回 (假)

返回源码＝编码_utf8到gb2312 (txt)

返回 (真)

作者: 易小妞 时间: 2019-4-19 14:14

前面有人问了

作者: 你来我深情不拥 时间: 2019-4-19 17:31
感谢分享、、、、、

作者: jj595969837 时间: 2019-4-19 18:12
支持下哈辛苦了。。。。。

作者: sampo2017 时间: 2019-4-20 13:06
感谢楼主分享经验

作者: uxdxdg 时间: 2019-4-23 20:01
ooooooooooooooooooooooooo

作者: 懒人定制软件 时间: 2019-5-31 23:30
抢个沙发，楼主来杯茶可好？

欢迎光临精易论坛 (https://125.confly.eu.org/)

Powered by Discuz! X3.4