精易论坛

标题: 大数据去重复 bitmap [打印本页]

作者: 勾栏听曲    时间: 2019-6-19 16:25
标题: 大数据去重复 bitmap
本帖最后由 独舞青春 于 2019-6-20 14:27 编辑




网上看到bitmap算法,在数据量超级大的时候有很大优势,用易语言表达了一下,用了逻辑变量代替位(这里违背了bitmap节省空间的优势,不算是真正的bitmap算法,主要是不知道易语言怎样直接读写位),作为抛砖引玉发出来,看看有没有哪个大佬写个真正的bitmap算法,思想最重要



模拟bitmap.zip (256.03 KB, 下载次数: 283)

相关资料:https://blog.csdn.net/tick_tock97/article/details/78688159



作者: 杂艺人    时间: 2019-6-19 16:29
做沙发第一人
作者: 网络注册络员    时间: 2019-6-19 17:21
强大必须顶你
作者: 全村最帅    时间: 2019-6-19 19:53
看看速度怎么样
作者: 日勿日勿    时间: 2019-6-19 20:19
Bitmap的长处非常令人愉悦:空间不随集合内元素个数的增加而增加。但是不足之处也同样明显:空间随集合内最大元素的增大而增大。
作者: kyo9766    时间: 2019-6-20 09:05
学习一下怎么去重,感谢分享
作者: hellohexiang    时间: 2019-6-20 10:45
谁测试了千万行需要几秒?
作者: shinid8210    时间: 2019-6-20 11:29
下载学习一下看看
作者: 勾栏听曲    时间: 2019-6-20 14:16
hellohexiang 发表于 2019-6-20 10:45
谁测试了千万行需要几秒?

不到一秒,可以自己测试
作者: sampo    时间: 2019-6-20 22:48
支持开源,感谢楼主分享经验
作者: hellohexiang    时间: 2019-6-20 23:25
你试试 将一个外部千万行的文本文件导入进去去重复看看多久
作者: 懒人定制软件    时间: 2019-6-22 06:00
欢迎常来帮助新人,谢谢~
作者: OrdnAry    时间: 2020-3-9 00:38
支持开源,感谢分享
作者: 养乐多ii    时间: 2020-5-23 23:25

作者: Shanks    时间: 2020-6-1 08:34
超过800M就有问题了
作者: hitlerfrank    时间: 2022-6-28 08:28
学习使人进步




欢迎光临 精易论坛 (https://125.confly.eu.org/) Powered by Discuz! X3.4