精易论坛

标题: 记——我是如何把2.2MB的黑白位图压成93KB的? [打印本页]

作者: 试说心雨    时间: 2024-10-3 19:52
标题: 记——我是如何把2.2MB的黑白位图压成93KB的?
前言:(相较于源码分享,本贴更倾向于一个思考过程,代码是次要,想法是主要)
(同时,这篇帖子是面向新手的,本身并没有我写的那么牛B,可以说是文胜质的经典例子,史不史我也不知道

前天,我写了一个手写数字的识别工具
众所周知,这种识别都需要大量的数据来做参照,否则识别正确率低的吓人

但问题来了,仅仅748张的,32*32的bmp图片就达到了足足2.22mb



而想要达到理想的识别正确率,样本少说需要几万甚至几十万张
毫无疑问,这种存储方法是极为愚笨的,因为我拿能存储RGB颜色的,不限制图片大小bmp图片文件去存储大小固定为32*32的黑白照片因此,我对它做了一个小优化。

可能有人想到,只有黑白两色,那是否可以用二进制文本去储存?
不,效率太低了(而且这会显得你没有计算机理论基础(该不会只有我这样想过吧?)

众所周知,在易语言中,一个整数型(int)占用4bytes空间,即32bits,而bit作为二进制的信息单位
1bit可以对应0,1两种情况
而0,1两种情况恰好可以与黑白相对应

也就是说一张32*32的黑白图片理论上仅需32*4bytes即可储存,也就是128字节
同时,由于图片大小的固定,我不再需要bmp格式繁琐重复且占用空间的头文件信息,只需要一个配置文件记录一下各图片的张数以及它对应的数字是几就行
这才有了748张,总计2MB的图片被压缩成93KB的例子


  
子程序名返回值类型公开备 注
处理数据  
变量名类 型静态数组备 注
i  
i1  
Length  
Wide  
Bmp_pic字节集 
CountS整数型 
sample文本型0
数据量整数型 
Line  
Output字节集 
数据量 = 0
计次循环首 (10, i)
i1 = 文件_枚举 (取运行目录 ()“\train\”到文本 (i - 1)“\”, “*.bmp”, sample, 真, , )  ' 所有的bmp文件都被存放在这里
如果真 (数据量 < i1)
数据量 = i1  ' 写数据量是防止数组下标超出

计次循环尾 ()
写配置项 (取运行目录 ()“\config.ini”, “train”, “count”, 到文本 (数据量))
计次循环首 (10, i)
CountS = 文件_枚举 (取运行目录 ()“\train\”到文本 (i - 1)“\”, “*.bmp”, sample, 真, , )
写配置项 (取运行目录 ()“\config.ini”, “bmp”, “ncount”到文本 (i - 1), 到文本 (CountS))
计次循环首 (CountS, i1)
Bmp_pic = 读入文件 (sample [i1])
计次循环首 (32, Length)
计次循环首 (32, Wide)
如果 (Bmp_pic [3124 - Length × 96 + Wide × 3] = 0) ' 我猜你看不懂这个
Line = __set_bit_on (Line, Wide - 1)  ' 将整数中的某位修改成1
Line = __set_bit_off (Line, Wide - 1)  ' 将整数中的某位修改成0

计次循环尾 ()
Output = Output + 到字节集 (Line)
Line = 0
计次循环尾 ()
计次循环尾 ()
计次循环尾 ()
写到文件 (取运行目录 ()“\train.dat”, Output)
子程序名返回值类型公开备 注
读取数据  
变量名类 型静态数组备 注
数据量整数型 
数据逻辑型10,1,32,32
Data字节集 
p整数型 
Length整数型 
Wide整数型 
pic_pro字节集 
n整数型 
Line整数型 
Number整数型 
Ncount整数型 
N_pic整数型 
数据量 = 到整数 (读配置项 (取运行目录 ()“\config.ini”, “train”, “count”, ))
重定义数组 (数据, 假, 10, 数据量, 32, 32)
Data = 读入文件 (取运行目录 ()“\train.dat”)
p = 1
Line = 1
计次循环首 (10, Number)
Ncount = 到整数 (读配置项 (取运行目录 ()“\config.ini”, “bmp”, “ncount”到文本 (Number - 1), ))
计次循环首 (Ncount, N_pic)
pic_pro = 取字节集中间 (Data, p, 128)
Line = 1
p = p + 128
计次循环首 (32, Length)
n = 取字节集数据 (pic_pro, #整数型, Line)
计次循环首 (32, Wide)
如果 (__query_bit (n, Wide - 1))  ' 读取整数中的某位
数据 [Number] [N_pic] [Length] [Wide] = 真
数据 [Number] [N_pic] [Length] [Wide] = 假

计次循环尾 ()
计次循环尾 ()
计次循环尾 ()
计次循环尾 ()


446f0bd058ee866531ad3c2f50703f34.png (18.1 KB, 下载次数: 1)

446f0bd058ee866531ad3c2f50703f34.png

作者: maozaiba    时间: 2024-10-3 20:20
我猜你看不懂这个

小子你很屌啊
我确实看不懂

作者: wjswzj0    时间: 2024-10-3 20:51
支持开源~!感谢分享
作者: chenyucheng    时间: 2024-10-3 21:04
本帖最后由 chenyucheng 于 2024-10-3 21:31 编辑

其实可以这样保存:类型选择“单色位图”
嫌占用大的话,可以把图像拼接到一起。横着、竖着、网格都没关系,看情况。


补充内容 (2025-1-18 12:16):
这种方法存的位图可以被Windows 原生支持,调用Windows 自带的位图处理函数即可。

1.png (21.15 KB, 下载次数: 2)

1.png

作者: 杰西卡技术传媒    时间: 2024-10-3 22:53
        支持开源~!感谢分享
作者: 笨来无一悟    时间: 2024-10-3 23:13
还能继续压缩字节集 可以有0到255 一共256个可能性 每个可能性是00000000到11111111
作者: renhe2018    时间: 2024-10-4 00:35
很深奥,真没看懂。
作者: 憨憨问号    时间: 2024-10-4 00:58
我去,这不得申请精华?
作者: 嫂子    时间: 2024-10-4 01:15
原理学习版
https://125.confly.eu.org/thread-14836310-1-1.html

看易语言看着头大 不懂原理的 可以去给我加分
作者: 嫂子    时间: 2024-10-4 01:17
maozaiba 发表于 2024-10-3 20:20
小子你很屌啊
我确实看不懂

https://125.confly.eu.org/forum.php?mod ... 14836310&extra=
之前和你说的有营养的 你可以看看 为什么我会说那几个分享炫彩的没营养。

作者: 查过    时间: 2024-10-4 07:07
感谢发布原创作品,精易因你更精彩!6666666666666
作者: 豆豆灰常开心    时间: 2024-10-4 07:12
感谢分享,很给力!~
作者: year1970    时间: 2024-10-4 07:58
感谢分享
作者: 一指温柔    时间: 2024-10-4 08:46
        感谢分享,很给力!~
作者: ctry78985    时间: 2024-10-4 10:23
感谢分享
作者: 亿万    时间: 2024-10-4 20:39
支持开源~!感谢分享
作者: 查过    时间: 2024-10-5 07:18
已经顶贴,感谢您对论坛的支持!
作者: 豆豆灰常开心    时间: 2024-10-5 07:23
已经顶贴,感谢您对论坛的支持!
作者: kyo9766    时间: 2024-10-5 14:20
得去学习一下原理,感谢分享
作者: 查过    时间: 2024-10-6 07:34
已经顶贴,感谢您对论坛的支持!
作者: 豆豆灰常开心    时间: 2024-10-6 07:39
感谢楼主分享!
作者: futiem    时间: 2024-10-6 07:57
我是如何把2.2MB的黑白位图压成9
作者: 胖子葛格    时间: 2024-10-6 10:20
感谢大神分享~!
作者: 呵呵仙    时间: 2024-10-6 17:23
你是说,没用到压缩数据()和解压数据().硬被你压下来了?
作者: kxg2020    时间: 2024-10-6 17:33
原理知道了 单通道将每个像素点的颜色由4字节表示转为位  那不是32 * 32 应该是4 * 4 = 16个字节不就好了么~
作者: qqmqqg    时间: 2024-10-7 17:48
6666666666666666
作者: 光影魔术    时间: 2024-10-9 14:06
感谢分享
作者: pianone    时间: 2024-11-27 07:56
支持开源!感谢分享!
作者: pianone    时间: 2024-11-27 07:59
感谢开源!感谢分享!
作者: 熊不熊    时间: 2024-12-4 10:45
感谢分享,很给力!~
作者: chenyucheng    时间: 2025-1-18 12:15
chenyucheng 发表于 2024-10-3 21:04
其实可以这样保存:类型选择“单色位图”
嫌占用大的话,可以把图像拼接到一起。横着、竖着、网格都没关系 ...

这种方法存的位图可以被Windows 原生支持,调用Windows 自带的位图处理函数即可。




欢迎光临 精易论坛 (https://125.confly.eu.org/) Powered by Discuz! X3.4