开启辅助访问 切换到宽版

精易论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

用微信号发送消息登录论坛

新人指南 邀请好友注册 - 我关注人的新帖 教你赚取精币 - 每日签到


求职/招聘- 论坛接单- 开发者大厅

论坛版规 总版规 - 建议/投诉 - 应聘版主 - 精华帖总集 积分说明 - 禁言标准 - 有奖举报

查看: 499|回复: 2
打印 上一主题 下一主题
收起左侧

[易语言] 易语言怎么实现wget下载压缩包不解压直接读取

[复制链接]
结帖率:83% (15/18)
跳转到指定楼层
楼主
发表于 2024-3-17 18:30:02 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式   福建省莆田市
60精币
易语言怎么实现wget下载压缩包不解压直接读取首选读取 tasksrc.txt 200万网址下载地址
组合网址前缀 https://w.com/
wget下载压缩包不解压直接读取文件操作提取文件特定内容替换去重保存
开始下载30个压缩包,下载的处理完毕后,在开始新的30个地址下载
首先直接读取压缩包.gz里面的文件
然后提取 ,WARC-Target-URI: http
再次提取,<a href=”http
然后开始处理 WARC-Target-URI 提取的文件
替换 为空, WARC-Target-URI:
替换 为空 , 【http://】
替换 为空 , 【https://】
替换 为空 , 【www.】
正则替换网址后缀尾巴, 【/.】 替换 为空,替换完成,去重复
然后开始处理 <a href= 提取的文件
正则替换 【.
<a href="http://】 替换 为空 正则替换 【.*<a href="https://】 替换 为空 替换 为空 , 【www.】 正则替换网址后缀尾巴, 【/ .*】 替换 为空 正则替换网址后缀尾巴,【" .*】 替换 为空 正则替换网址后缀尾巴,【">.】 替换 为空
正则替换网址后缀尾巴,【#.
】 替换 为空
正则替换网址前缀为本,【.<a href=”http:】 替换 为空
正则替换网址后缀尾巴,【?.
】 替换 为空
正则替换网址前缀为本, 【.@】 替换 为空
正则替换网址前缀为本, 【<div .
】 替换 为空
WARC-Target-URI和<a href=”两个文件合并去重保存,再删除处理提取完毕的压缩包.gz
开始处理下一个压缩包,循环操作,提取,替换,去重,保存
删除处理提取完毕的压缩包.gz,开始处理下一个压缩包
测试文件在这里
Download.zip (2.65 MB, 下载次数: 6)









回答提醒:如果本帖被关闭无法回复,您有更好的答案帮助楼主解决,请发表至 源码区 可获得加分喔。
友情提醒:本版被采纳的主题可在 申请荣誉值 页面申请荣誉值,获得 1点 荣誉值,荣誉值可兑换荣誉会员、终身vip用户组。
快捷通道:申请荣誉值无答案申请取消悬赏投诉有答案未采纳为最佳

签到天数: 4 天

沙发
发表于 2024-4-29 11:04:16 | 只看该作者   广东省潮州市
666,学习一下
回复

使用道具 举报

签到天数: 11 天

板凳
发表于 2024-9-21 00:43:58 | 只看该作者   浙江省台州市
11111111111111111111111111111111111111111
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则 致发广告者

发布主题 收藏帖子 返回列表

sitemap| 易语言源码| 易语言教程| 易语言论坛| 易语言模块| 手机版| 广告投放| 精易论坛
拒绝任何人以任何形式在本论坛发表与中华人民共和国法律相抵触的言论,本站内容均为会员发表,并不代表精易立场!
论坛帖子内容仅用于技术交流学习和研究的目的,严禁用于非法目的,否则造成一切后果自负!如帖子内容侵害到你的权益,请联系我们!
防范网络诈骗,远离网络犯罪 违法和不良信息举报QQ: 793400750,邮箱:[email protected]
网站简介:精易论坛成立于2009年,是一个程序设计学习交流技术论坛,隶属于揭阳市揭东区精易科技有限公司所有。
Powered by Discuz! X3.4 揭阳市揭东区精易科技有限公司 ( 粤ICP备12094385号-1) 粤公网安备 44522102000125 增值电信业务经营许可证 粤B2-20192173

快速回复 返回顶部 返回列表