精易论坛

标题: 文本_取文本所在行_字节集欢迎测试 [打印本页]

作者: jr21066 时间: 2018-9-4 23:59
标题: 文本_取文本所在行_字节集欢迎测试
使用字节集来搜索.比文本速度快太多了.

子程序名	返回值类型	公开	备注
文本_取文本所在行_字节集	整数型		字节集方式查找,适合大文件操作
参数名	类型	参考	可空	数组	备注
参_文本内容	文本型
参_字节集内容	字节集
参_查找关键字	文本型

变量名	类型	静态	数组	备注
局_源内容	字节集
局_偏移	整数型
局_位置	整数型
局_计次	整数型

如果 (是否为空 (参_字节集内容))

局_源内容＝到字节集 (参_文本内容)

局_源内容＝参_字节集内容
局_偏移＝寻找字节集 (局_源内容, 到字节集 (参_查找关键字), )

判断循环首 (局_位置＜局_偏移)

局_位置＝寻找字节集 (局_源内容, { 13, 10 }, 局_位置＋ 1)

如果 (局_位置 ≠ -1)

局_计次＝局_计次＋ 1

跳出循环 ()

判断循环尾 ()
返回 (局_计次)

作者: 烟花之怒 时间: 2018-9-5 09:25
大佬你好这个问题 https://125.confly.eu.org/forum.php?mod=viewthread&tid=14173469&extra=
我觉得答案不太好效率不高请问有没有什么好点的办法希望可以帮忙研究研究谢谢了！

作者: jr21066 时间: 2018-9-5 10:02

烟花之怒发表于 2018-9-5 09:25
大佬你好这个问题 https://125.confly.eu.org/forum.php?mod=viewthread&tid=14173469&extra=
我觉得答案不太好 ...

试下先转utf8后再搜索
可能误断会少一些

如果再加上判断前边的换行符个数可能更好一些

作者: hellohexiang 时间: 2018-9-5 10:13
有点小问题，就是比如文本某行是连衣裙，如果搜索连衣也能搜索到行数，也就是说这个原理应该是某行文本包含搜索关键词就算匹配到，能不能改成某行文本和搜索的关键词一模一样才算匹配

作者: jr21066 时间: 2018-9-5 17:30

hellohexiang 发表于 2018-9-5 10:13
有点小问题，就是比如文本某行是连衣裙，如果搜索连衣也能搜索到行数，也就是说这个原理应该是某行文本 ...

这个有想过.我当时是按字面的意思理解的.就是搜索的文本所在的行就算.
如果要搜索整行.最好是换个名字或是参数.
回头我想想怎么弄

作者: hellohexiang 时间: 2018-9-5 17:36

jr21066 发表于 2018-9-5 17:30
这个有想过.我当时是按字面的意思理解的.就是搜索的文本所在的行就算.
如果要搜索整行.最好是换个名字或 ...

我觉得这样行不行
就是在文本首尾先各加上一个换行符
然后匹配每行的文本就是搜索 #换行符+单行文本+#换行符能搜索到就是整行文本都匹配

作者: jr21066 时间: 2018-9-5 17:41

hellohexiang 发表于 2018-9-5 17:36
我觉得这样行不行
就是在文本首尾先各加上一个换行符
然后匹配每行的文本就是搜索 #换行符+单行文本+# ...

是这样判断的.
只是在文件头和尾的地方要处理一下.

作者: jr21066 时间: 2018-9-5 18:44

hellohexiang 发表于 2018-9-5 17:36
我觉得这样行不行
就是在文本首尾先各加上一个换行符
然后匹配每行的文本就是搜索 #换行符+单行文本+# ...

加上了.看看行不

子程序名	返回值类型	公开	备注
文本_取文本所在行_字节集	整数型		字节集方式查找,适合大文件操作
参数名	类型	参考	可空	数组	备注
参_文本内容	文本型				文本内容
参_字节集内容	字节集				字节集内容二选一
参_查找关键字	文本型
整行匹配	逻辑型				关键字就是完整的一行

变量名	类型	静态	数组	备注
局_源内容	字节集
局_偏移	整数型
局_位置	整数型
局_计次	整数型

' 判断参数提供的是文本还是字节集,没考虑都不给的情况,程序猿应该都是善良的吧

如果 (是否为空 (参_字节集内容))

局_源内容＝到字节集 (参_文本内容)

局_源内容＝参_字节集内容
' 如果是整行匹配.给文件前后加换行符方便搜索

如果真 (整行匹配)

局_源内容＝ { 13, 10 } ＋局_源内容＋ { 13, 10 }
' 取关键字所在偏移位置
局_偏移＝寻找字节集 (局_源内容, 到字节集 (参_查找关键字), )
' 搜索关键字前边的换行符个数

判断循环首 (局_位置＜局_偏移)

局_位置＝寻找字节集 (局_源内容, { 13, 10 }, 局_位置＋ 1)

如果 (局_位置 ≠ -1)

局_计次＝局_计次＋ 1

跳出循环 ()

判断循环尾 ()
' 如果是整行匹配,修正前边加的那个换行

如果真 (整行匹配)

局_计次＝局_计次－ 1
返回 (局_计次)

作者: hellohexiang 时间: 2018-9-5 19:33

jr21066 发表于 2018-9-5 18:44
加上了.看看行不

[e=4].版本 2

这里改成
局_偏移＝寻找字节集 (局_源内容, { 13, 10 } ＋到字节集 (参_查找关键字) ＋ { 13, 10 }, )

不需要局_计次＝局_计次－ 1
直接返回 (局_计次)
我也不太懂我只是这样改了一下就对了你看下是不是

作者: hellohexiang 时间: 2018-9-5 19:36
这样应该是对的

子程序名	返回值类型	公开	备注
文本_取文本所在行_字节集	整数型		字节集方式查找,适合大文件操作
参数名	类型	参考	可空	数组	备注
参_文本内容	文本型				文本内容
参_字节集内容	字节集				字节集内容二选一
参_查找关键字	文本型
整行匹配	逻辑型				关键字就是完整的一行

变量名	类型	静态	数组	备注
局_源内容	字节集
局_偏移	整数型
局_位置	整数型
局_计次	整数型

如果 (是否为空 (参_字节集内容))

局_源内容＝到字节集 (参_文本内容)

局_源内容＝参_字节集内容

如果 (整行匹配)

局_源内容＝ { 13, 10 } ＋局_源内容＋ { 13, 10 }

局_偏移＝寻找字节集 (局_源内容, { 13, 10 } ＋到字节集 (参_查找关键字) ＋ { 13, 10 }, )

局_偏移＝寻找字节集 (局_源内容, 到字节集 (参_查找关键字), )

判断循环首 (局_位置＜局_偏移)

局_位置＝寻找字节集 (局_源内容, { 13, 10 }, 局_位置＋ 1)

如果 (局_位置 ≠ -1)

局_计次＝局_计次＋ 1

跳出循环 ()

判断循环尾 ()
返回 (局_计次)

作者: jr21066 时间: 2018-9-5 19:43

hellohexiang 发表于 2018-9-5 19:33
这里改成
局_偏移＝寻找字节集 (局_源内容, { 13, 10 } ＋到字节集 (参_查找关键字) ＋ { 13, 10 }, ...

是这样.刚才可能光回帖了.都没加这个.
按你说的这样改就可以的.

作者: hellohexiang 时间: 2018-9-5 19:46
还有个问题就是参数里面可以选择文本或者字节集  是不是选用字节集会比文本快呢
比如
文本    是这样的    文本=到文本（读入文件 (文件路径)）
字节集是这样的  字节集=读入文件 (文件路径)
应该字节集快吧

作者: jr21066 时间: 2018-9-5 19:57

hellohexiang 发表于 2018-9-5 19:46
还有个问题就是参数里面可以选择文本或者字节集是不是选用字节集会比文本快呢
比如
文本是 ...

内容越多.字节集就越快.
基本上是几百倍到几千倍的差异

作者: cf2006a 时间: 2018-9-6 20:44
汇编可用寄存器就 eax ebx ecx edx edi esi 要是参数超过5个基本就没办法写了请问高手你是怎么处理参数多的情况下怎么处理

作者: jr21066 时间: 2018-9-6 20:51

cf2006a 发表于 2018-9-6 20:44
汇编可用寄存器就 eax ebx ecx edx edi esi 要是参数超过5个基本就没办法写了请问高手你是怎么处理 ...

push pop
先保存.用完恢复.
一般寄存器是有一些用法的.
edx数据高位
eax 参数.返回值.所说这个寄存器最快.所以是用的最多的
ebx一般放基地址
ecx一般是计数
不是绝对.不过按习惯走.虽然效率会低.但维护起来会很方便

作者: yunying 时间: 2018-9-8 20:54
提示: 作者被禁止或删除内容自动屏蔽

欢迎光临精易论坛 (https://125.confly.eu.org/)

Powered by Discuz! X3.4