精易论坛

标题: 比对文本后写入 [打印本页]

作者: 程咬金    时间: 2025-2-27 11:13
标题: 比对文本后写入
现在txt文本里面才2000条内容  我现在每次需要写入大概200条左右 但是现在这200条写入时间需要耗费1个多小时 逻辑是每次写入的每一条都要和txt文本里的内容比对  内容不一样才写入 内容一样 就不用写入  现在用的是 写出文本 (文件号, 写入信息 + #换行符) 但我猜测应该是 比对 浪费时间   有大佬指导一下嘛

作者: aipca    时间: 2025-2-27 11:28
直接把要写入的文本和原文本合并同一个数组,数组去重复 然后一起写进去。
作者: 是可可吖    时间: 2025-2-27 11:32
每次200条跟txt内容合并,然后去重复,然后写出
作者: samll88    时间: 2025-2-27 11:37
  
子程序名返回值类型公开备 注
_按钮1_被单击  
变量名类 型静态数组备 注
文本文本型0
n整数型 
分割文本型0
文本2文本型 
节点节点 
编辑框1.内容=编辑框1.内容+编辑框1.内容
文本 = 分割文本 (编辑框1.内容, #换行符, )
计次循环首 (取数组成员数 (文本), n)
分割 = 分割文本 (文本 [n], “----”, )
如果真 (节点.加入属性 (分割 [1], 0))
文本2 = 文本2 + 文本 [n]#换行符

计次循环尾 ()编辑框1.内容=""
编辑框1.内容=文本2


i支持库列表   支持库注释   
EDataStructure数据结构支持库
spec特殊功能支持库



先把编辑框1.内容加入2000条,再加入200条,去掉重复,输回编辑框1.内容
编辑框1.内容可以用TXT代替


补充内容 (2025-2-27 11:40):
数组写法,不用分割可以去掉,分割 = 分割文本 (文本 [n], “----”, )

作者: 程咬金    时间: 2025-2-27 11:42
是可可吖 发表于 2025-2-27 11:32
每次200条跟txt内容合并,然后去重复,然后写出

可以写一下嘛 大佬
作者: frankiy    时间: 2025-2-27 11:44
1,把对比操作放在内存中进行,对比完毕后,最终只需要写入。
2,如果一段文本比较长,建议取特征码或者MD5来对比

作者: 程咬金    时间: 2025-2-27 11:47
samll88 发表于 2025-2-27 11:37
[e=0].版本 2
.支持库 EDataStructure
.支持库 spec

这里面有去掉重复这个命令嘛  有点看不懂
作者: samll88    时间: 2025-2-27 11:55
程咬金 发表于 2025-2-27 11:47
这里面有去掉重复这个命令嘛  有点看不懂
  
文本 = 分割文本 (编辑框1.内容, #换行符, )
计次循环首 (取数组成员数 (文本), n)
如果真 (节点.加入属性 (文本, 0))
文本2 = 文本2 + 文本 + #换行符

计次循环尾 ()
编辑框1.内容 = “”
编辑框1.内容 = 文本2
编辑框加入2200条,去掉重复
编辑框可以用TXT代替


i支持库列表   支持库注释   
EDataStructure数据结构支持库




作者: frankiy    时间: 2025-2-27 12:37
还是建议你把数据放上来。
作者: 禁回忆    时间: 2025-2-27 13:04
原有4975条

一次性对比新增到6612条,算1600条吧

耗时94ms


六楼已经给你发思路了,其他的都是什么妖魔鬼怪,占用了更高的内存,效率更低下,还给足了硬盘压力
1212.e (974.42 KB, 下载次数: 7)
作者: 算法艺术家    时间: 2025-2-27 14:15
还有一个方法,用哈希表给已写入数据做实时的映射,每次来新数据,就跟哈希表对比 看看是否存在,存在就跳过忽略,不存在就把新数据分别添加到文本和哈希表
作者: 算法艺术家    时间: 2025-2-27 15:44
  
窗口程序集名保 留  保 留备 注
文本拒重录入, , 公开   
变量名类 型数组备 注
文件号Z整数型  
哈希表Z哈希表_ASM  
是否拒绝空行Z逻辑型  

子程序名返回值类型公开备 注
_初始化 当基于本类的对象被创建后,此方法会被自动调用

子程序名返回值类型公开备 注
_销毁 当基于本类的对象被销毁前,此方法会被自动调用
哈希表Z.清空 ()
关闭文件 (文件号Z)
子程序名返回值类型公开备 注
销毁 
哈希表Z.清空 ()
关闭文件 (文件号Z)
子程序名返回值类型公开备 注
初始化参数逻辑型 
参数名类 型参考可空数组备 注
文件路径文本型
是否拒绝空行逻辑型默认假 可以写入空行
变量名类 型静态数组备 注
文本文本型 
文本组文本型0
i整数型 
文件号Z = 打开文件 (文件路径, , )
如果真 (文件号Z = 0)
返回 ()
是否拒绝空行Z = 是否拒绝空行
哈希表Z.创建 ( #文本型, #整数型, 16)  ' 容量 2的16次方除以1024  64KB
文本 = 读入文本 (文件号Z, )
文本组 = 分割文本 (文本, #换行符, )
计次循环首 (取数组成员数 (文本组), i)
哈希表Z.添加 (文本组 [i], 0)
计次循环尾 ()
返回 ()
子程序名返回值类型公开备 注
添加数据 
参数名类 型参考可空数组备 注
文本数据文本型
变量名类 型静态数组备 注
i整数型 
文本组文本型0
文本组 = 分割文本 (文本数据, #换行符, )
计次循环首 (取数组成员数 (文本组), i)
如果真 (是否拒绝空行Z = )
如果真 (文本组 [i]“”)
到循环尾 ()


如果真 (哈希表Z.cha询 (文本组 [i]))
哈希表Z.添加 (文本组 [i], i)
写出文本 (文件号Z, #换行符 + 文本组 [i])

计次循环尾 ()



补充内容 (2025-2-27 15:46):
写成了类,用的大佬的哈希表ASM模块 论坛里开源的

补充内容 (2025-2-27 16:01):
把销毁() 的方法名 改成 关闭文件 , 然后下边 只留一个 关闭文件 (文件号Z)  更合理一点

补充内容 (2025-2-27 16:03):
不用改了 还是之前那样就挺好
作者: 熬夜    时间: 2025-2-27 16:44
你每次写都排重 不如直接写入到常量叠加起来先 排重一次或者两次后覆盖进去
作者: 1425113841    时间: 2025-2-27 19:37
禁回忆 发表于 2025-2-27 13:04
原有4975条

一次性对比新增到6612条,算1600条吧

写的一般, 遍历太多. 我认为应该哈希去重. 你在我眼里属于妖魔鬼怪
作者: zhining    时间: 2025-2-27 20:05
?????
作者: 禁回忆    时间: 2025-2-28 08:34
1425113841 发表于 2025-2-27 19:37
写的一般, 遍历太多. 我认为应该哈希去重. 你在我眼里属于妖魔鬼怪

这确实是一般的写法,算是排序算法里的冒泡排序,您这种所说的哈希也顶多是根据散列值分组判断hash表中存不存在,进一步的用空间去换时间,然而不管哪一种方式,都比他读旧数据写进数组里,再把新数据写进数组里,再用数组_去重去保证唯一(而精易模块里的数组_去重写法和我的一样,你哪里来的遍历太多),最后再覆写来的好。但是如果您说的哈希去重是把数据都存到数据表里边去重之后再覆写,那您也是妖魔鬼怪。不管是用空间换时间还是时间换空间都可以,按自己的需求来,但是像这种浪费空间、浪费时间、又浪费硬盘读写的,他不是妖魔鬼怪是什么?纯属基础都没学好就出来误人子弟




欢迎光临 精易论坛 (https://125.confly.eu.org/) Powered by Discuz! X3.4