精易论坛

标题: 文本_取文本所在行_字节集 欢迎测试 [打印本页]

作者: jr21066    时间: 2018-9-4 23:59
标题: 文本_取文本所在行_字节集 欢迎测试
使用字节集来搜索.比文本速度快太多了.

  
子程序名返回值类型公开备 注
文本_取文本所在行_字节集整数型 字节集方式查找,适合大文件操作
参数名类 型参考可空数组备 注
参_文本内容文本型
参_字节集内容字节集
参_查找关键字文本型
变量名类 型静态数组备 注
局_源内容字节集 
局_偏移整数型 
局_位置整数型 
局_计次整数型 
如果 (是否为空 (参_字节集内容))
局_源内容 = 到字节集 (参_文本内容)
局_源内容 = 参_字节集内容
局_偏移 = 寻找字节集 (局_源内容, 到字节集 (参_查找关键字), )
判断循环首 (局_位置 < 局_偏移)
局_位置 = 寻找字节集 (局_源内容, { 13, 10 }, 局_位置 + 1)
如果 (局_位置 ≠ -1)
局_计次 = 局_计次 + 1
跳出循环 ()

判断循环尾 ()
返回 (局_计次)


作者: 烟花之怒    时间: 2018-9-5 09:25
大佬你好 这个问题 https://125.confly.eu.org/forum.php?mod=viewthread&tid=14173469&extra=
我觉得答案不太好 效率不高 请问 有没有什么好点的办法 希望可以帮忙研究研究 谢谢了!
作者: jr21066    时间: 2018-9-5 10:02
烟花之怒 发表于 2018-9-5 09:25
大佬你好 这个问题 https://125.confly.eu.org/forum.php?mod=viewthread&tid=14173469&extra=
我觉得答案不太好  ...

试下先转utf8后再搜索
可能误断会少一些

如果再加上判断前边的换行符个数可能更好一些
作者: hellohexiang    时间: 2018-9-5 10:13
有点小问题,就是比如文本某行是 连衣裙, 如果搜索连衣  也能搜索到行数,也就是说这个原理应该是某行文本包含搜索关键词就算匹配到,能不能改成某行文本和搜索的关键词一模一样才算匹配
作者: jr21066    时间: 2018-9-5 17:30
hellohexiang 发表于 2018-9-5 10:13
有点小问题,就是比如文本某行是 连衣裙, 如果搜索连衣  也能搜索到行数,也就是说这个原理应该是某行文本 ...

这个有想过.我当时是按字面的意思理解的.就是搜索的文本所在的行就算.
如果要搜索整行.最好是换个名字或是参数.
回头我想想怎么弄
作者: hellohexiang    时间: 2018-9-5 17:36
jr21066 发表于 2018-9-5 17:30
这个有想过.我当时是按字面的意思理解的.就是搜索的文本所在的行就算.
如果要搜索整行.最好是换个名字或 ...

我觉得这样行不行
就是在文本首尾先各加上一个换行符
然后匹配每行的文本 就是搜索 #换行符+单行文本+#换行符 能搜索到就是整行文本都匹配
作者: jr21066    时间: 2018-9-5 17:41
hellohexiang 发表于 2018-9-5 17:36
我觉得这样行不行
就是在文本首尾先各加上一个换行符
然后匹配每行的文本 就是搜索 #换行符+单行文本+# ...

是这样判断的.
只是在文件头和尾的地方要处理一下.
作者: jr21066    时间: 2018-9-5 18:44
hellohexiang 发表于 2018-9-5 17:36
我觉得这样行不行
就是在文本首尾先各加上一个换行符
然后匹配每行的文本 就是搜索 #换行符+单行文本+# ...

加上了.看看行不

  
子程序名返回值类型公开备 注
文本_取文本所在行_字节集整数型 字节集方式查找,适合大文件操作
参数名类 型参考可空数组备 注
参_文本内容文本型文本内容
参_字节集内容字节集字节集内容二选一
参_查找关键字文本型
整行匹配逻辑型关键字就是完整的一行
变量名类 型静态数组备 注
局_源内容字节集 
局_偏移整数型 
局_位置整数型 
局_计次整数型 
' 判断参数提供的是文本还是字节集,没考虑都不给的情况,程序猿应该都是善良的吧
如果 (是否为空 (参_字节集内容))
局_源内容 = 到字节集 (参_文本内容)
局_源内容 = 参_字节集内容
' 如果是整行匹配.给文件前后加换行符方便搜索
如果真 (整行匹配)
局_源内容 = { 13, 10 } + 局_源内容 + { 13, 10 }
' 取关键字所在偏移位置
局_偏移 = 寻找字节集 (局_源内容, 到字节集 (参_查找关键字), )
' 搜索关键字前边的换行符个数
判断循环首 (局_位置 < 局_偏移)
局_位置 = 寻找字节集 (局_源内容, { 13, 10 }, 局_位置 + 1)
如果 (局_位置 ≠ -1)
局_计次 = 局_计次 + 1
跳出循环 ()

判断循环尾 ()
' 如果是整行匹配,修正前边加的那个换行
如果真 (整行匹配)
局_计次 = 局_计次 - 1
返回 (局_计次)


作者: hellohexiang    时间: 2018-9-5 19:33
jr21066 发表于 2018-9-5 18:44
加上了.看看行不

[e=4].版本 2

这里改成
局_偏移 = 寻找字节集 (局_源内容, { 13, 10 } + 到字节集 (参_查找关键字) + { 13, 10 }, )

不需要  局_计次 = 局_计次 - 1
直接 返回 (局_计次)
我也不太懂  我只是这样改了一下就对了 你看下是不是  
作者: hellohexiang    时间: 2018-9-5 19:36
这样应该是对的
  
子程序名返回值类型公开备 注
文本_取文本所在行_字节集整数型 字节集方式查找,适合大文件操作
参数名类 型参考可空数组备 注
参_文本内容文本型文本内容
参_字节集内容字节集字节集内容二选一
参_查找关键字文本型
整行匹配逻辑型关键字就是完整的一行
变量名类 型静态数组备 注
局_源内容字节集 
局_偏移整数型 
局_位置整数型 
局_计次整数型 
如果 (是否为空 (参_字节集内容))
局_源内容 = 到字节集 (参_文本内容)
局_源内容 = 参_字节集内容

如果 (整行匹配)
局_源内容 = { 13, 10 } + 局_源内容 + { 13, 10 }
局_偏移 = 寻找字节集 (局_源内容, { 13, 10 }到字节集 (参_查找关键字){ 13, 10 }, )
局_偏移 = 寻找字节集 (局_源内容, 到字节集 (参_查找关键字), )

判断循环首 (局_位置 < 局_偏移)
局_位置 = 寻找字节集 (局_源内容, { 13, 10 }, 局_位置 + 1)
如果 (局_位置 ≠ -1)
局_计次 = 局_计次 + 1
跳出循环 ()

判断循环尾 ()
返回 (局_计次)

作者: jr21066    时间: 2018-9-5 19:43
hellohexiang 发表于 2018-9-5 19:33
这里改成
局_偏移 = 寻找字节集 (局_源内容, { 13, 10 } + 到字节集 (参_查找关键字) + { 13, 10 },  ...

是这样.刚才可能光回帖了.都没加这个.
按你说的这样改就可以的.
作者: hellohexiang    时间: 2018-9-5 19:46
还有个问题 就是参数里面 可以选择文本 或者 字节集  是不是选用字节集会比文本快呢
比如
文本     是这样的     文本=到文本(读入文件 (文件路径))
字节集   是这样的  字节集=读入文件 (文件路径)
应该字节集快吧
作者: jr21066    时间: 2018-9-5 19:57
hellohexiang 发表于 2018-9-5 19:46
还有个问题 就是参数里面 可以选择文本 或者 字节集  是不是选用字节集会比文本快呢
比如
文本     是 ...

内容越多.字节集就越快.
基本上是几百倍到几千倍的差异
作者: cf2006a    时间: 2018-9-6 20:44
汇编 可用寄存器 就 eax ebx ecx edx edi esi  要是参数超过5个 基本 就没办法写了 请问高手你是怎么处理 参数多的情况 下怎么处理
作者: jr21066    时间: 2018-9-6 20:51
cf2006a 发表于 2018-9-6 20:44
汇编 可用寄存器 就 eax ebx ecx edx edi esi  要是参数超过5个 基本 就没办法写了 请问高手你是怎么处理  ...

push pop
先保存.用完恢复.
一般寄存器是有一些用法的.
edx数据高位
eax 参数.返回值.所说这个寄存器最快.所以是用的最多的
ebx一般放基地址
ecx一般是计数
不是绝对.不过按习惯走.虽然效率会低.但维护起来会很方便
作者: yunying    时间: 2018-9-8 20:54
提示: 作者被禁止或删除 内容自动屏蔽




欢迎光临 精易论坛 (https://125.confly.eu.org/) Powered by Discuz! X3.4