精易论坛
标题:
易语言怎么实现wget下载压缩包不解压直接读取
[打印本页]
作者:
Workaholic
时间:
2024-3-17 18:30
标题:
易语言怎么实现wget下载压缩包不解压直接读取
易语言怎么实现wget下载压缩包不解压直接读取
首选读取 tasksrc.txt 200万网址下载地址
组合网址前缀
https://w.com/
wget下载压缩包不解压直接读取文件操作提取文件特定内容替换去重保存
开始下载30个压缩包,下载的处理完毕后,在开始新的30个地址下载
首先直接读取压缩包.gz里面的文件
然后提取 ,WARC-Target-URI: http
再次提取,<a href=”http
然后开始处理 WARC-Target-URI 提取的文件
替换 为空, WARC-Target-URI:
替换 为空 , 【http://】
替换 为空 , 【https://】
替换 为空 , 【www.】
正则替换网址后缀尾巴, 【/.
】 替换 为空,替换完成,去重复
然后开始处理 <a href= 提取的文件
正则替换 【.
<a href="http://】 替换 为空 正则替换 【.*<a href="https://】 替换 为空 替换 为空 , 【www.】 正则替换网址后缀尾巴, 【/ .*】 替换 为空 正则替换网址后缀尾巴,【" .*】 替换 为空 正则替换网址后缀尾巴,【">.
】 替换 为空
正则替换网址后缀尾巴,【#.
】 替换 为空
正则替换网址前缀为本,【.
<a href=”http:】 替换 为空
正则替换网址后缀尾巴,【?.
】 替换 为空
正则替换网址前缀为本, 【.
@】 替换 为空
正则替换网址前缀为本, 【<div .
】 替换 为空
WARC-Target-URI和<a href=”两个文件合并去重保存,再删除处理提取完毕的压缩包.gz
开始处理下一个压缩包,循环操作,提取,替换,去重,保存
删除处理提取完毕的压缩包.gz,开始处理下一个压缩包
测试文件在这里
Download.zip
(2.65 MB, 下载次数: 6)
2024-3-17 18:29 上传
点击文件名下载附件
作者:
今时以至遂渐开
时间:
2024-4-29 11:04
666,学习一下
作者:
yuzhong
时间:
2024-9-21 00:43
11111111111111111111111111111111111111111
欢迎光临 精易论坛 (https://125.confly.eu.org/)
Powered by Discuz! X3.4