精易论坛

标题: 文本的错别字和正常的字,怎么去找出来???按照一行 [打印本页]

作者: 不要再艾特我了    时间: 2021-5-21 09:07
标题: 文本的错别字和正常的字,怎么去找出来???按照一行
5月3日
菲律宾外长洛钦在社交平台上用污言秽语发表动态声明
对中国不敬引起轩然大波
在诸多压力下
罗钦再次提起此事时
改变了态度真诚的向我国道歉
菲律宾飞蛾扑火多的时候
世界并不那么太平
俄罗斯和乌克兰甚至处于迫在眉睫的战争状态
这背后的始作俑者和推动者与美国的关系很大
拜登的肮脏计量也暴露在公众面前
这背后发生了什么
国际局势的走向是什么
一场疫情打乱了所有国家的本来状态
美国变了些
随着的下台
拜登走上了国际舞台
一开始拜登说了一些好话
塑造了一个知大体顾全大局的良好形象
赢得了一定的好感
但随着时间的推移
拜登的真面目也暴露了出来
频频对中国搞卑鄙手段
引来欧美诸多主流媒体对中国的诋毁
据报道
美国也推出了一项计划
提出每年花费3亿美元把反华报道带到全世界
只为给我国抹黑
除了打压中国
美国对俄罗斯也是无所不用其极
乌克兰和俄罗斯局势紧张时
美国插手在背后支持乌克兰
不仅驱逐俄罗斯外交官
还对俄罗斯进行舆论围攻


###############################################
以上是存在可能错别字
以下是正常的字
##################################################


5月3日,菲律宾外长罗钦在社交平台上用污言秽语发表动态声明,对中国不敬,引起轩然大波。在诸多压力下,罗钦再次提起此事时改变了态度,真诚地向我国道歉。菲律宾飞蛾扑火多的时候,世界并不那么太平,俄罗斯和乌克兰甚至处于迫在眉睫的战争状态。 这背后的始作俑者和推动者与美国的关系很大,拜登的肮脏伎俩也暴露在公众面前。 这背后发生了什么,国际局势的走向是什么。 一场疫情打乱了所有国家的本来状态,美国变了血。随着特朗普的下台,拜登走上了国际舞台。一开始拜登说了一些好话,塑造了一个知大体、顾全大局的良好形象,赢得了一定的好感。 但随着时间的推移,拜登的真面目也暴露了出来,频频对中国搞卑鄙手段,引来欧美诸多主流媒体对中国的诋毁。 据报道,美国也推出了一项计划,提出每年花费3亿美元把反华报道带到全世界,只为给我国抹黑。 除了打压中国,美国对俄罗斯也是无所不用其极。 乌克兰和俄罗斯局势紧张时,美国插手,在背后支持乌克兰,不仅驱逐俄罗斯外交官,还对俄罗斯进行舆论围攻。


我在想,用正则分割嘛,但是段数又不不太一样,要不然,就可以使用正则搞成单行对比,但是这个又不太一样,所以想问问万能的易友,有没有什么办法,根据上面一段文字,然后来匹配下面的正确的,也就是没有错别字的一段,来改正,求大佬帮我想想办法,纠结很久了



上面的是分段的,有时间戳,每一段,上面的字数又和下面的会 多 会少·······语音识别的,难受了

作者: 传奇    时间: 2021-5-21 09:07
https://wucuozi.com/
作者: 不要再艾特我了    时间: 2021-5-21 09:08
全部的币都在这里了
作者: xdkjcm    时间: 2021-5-21 09:11
可不可以用寻找文本的方式?在下面正确的这段里面寻找上面的每一段,找不到的时候就是存在错别字?
作者: dy6255    时间: 2021-5-21 09:35
又来了,本身就没有规律的两段文本,你怎么可能判断,即使这次我按照这个的文本情况写出来,下次你识别别的文本又会出现新的不适用这个的情况,完全不可能一概而论。还是按照3楼说法,寻找文本大体判断把。
作者: 53770zhang    时间: 2021-5-21 09:37
关注思路,确实问题比较大,如果只是错字还好,但是有可能2个字错成3个字,理论上就可能100字的原文错成200字,不好判断。
作者: 不要再艾特我了    时间: 2021-5-21 09:38
xdkjcm 发表于 2021-5-21 09:11
可不可以用寻找文本的方式?在下面正确的这段里面寻找上面的每一段,找不到的时候就是存在错别字? ...

可以的,但是错别字的处理,主要是这个问题
作者: dy6255    时间: 2021-5-21 09:41
再着退一步说。你明明都有了正确的文本了.反而去判断错误的文本,而且还要修改他,修改完不就是正确的文本吗?为什么不直接使用正确的文本.
作者: 不要再艾特我了    时间: 2021-5-21 09:42
53770zhang 发表于 2021-5-21 09:37
关注思路,确实问题比较大,如果只是错字还好,但是有可能2个字错成3个字,理论上就可能100字的原文错成200 ...

正常来说,语音识别的错别字,他也是分段其实会差不多的,最多就是两段合成了一段,段数一定会少,我目前的思路就是先搞个分段,然后去对比一下,相同的先放一下,找出来不同的分段,然后再去通过单个文本对比,搞出来一个类似于对比度大于多少的,这样的话如果是两段文字合成一个,那也差不多了,主要是这个难实现
作者: jay20070223    时间: 2021-5-21 09:45

作者: 不要再艾特我了    时间: 2021-5-21 09:45
dy6255 发表于 2021-5-21 09:41
再着退一步说。你明明都有了正确的文本了.反而去判断错误的文本,而且还要修改他,修改完不就是正确的文本 ...

因为 因为上面错别字的文本是带时间戳的,是用来做字幕的·············语音识别的文字,有错别字,下面的字是上面正常的字
作者: 不要再艾特我了    时间: 2021-5-21 09:46
jay20070223 发表于 2021-5-21 09:45


作者: 643717896    时间: 2021-5-21 09:50
dy6255 发表于 2021-5-21 09:35
又来了,本身就没有规律的两段文本,你怎么可能判断,即使这次我按照这个的文本情况写出来,下次你识别别的 ...

不行的 你要是寻找文本 怎么取判断某一段在什么位置 取修改哪些字、
作者: dy6255    时间: 2021-5-21 09:53
寻找文本会返回位置啊....

补充内容 (2021-5-21 09:56):
当我没说,不过你这问题应该解决不了,换个好点的语音识别系统吧
作者: 二毛2021    时间: 2021-5-21 09:56
提两个思路
1 类似WPS那种智能识别,猜测应该是先中文分词,再和错别字库或词典做对比,不过实现起来比较麻烦,不知道易语言有没有中文分词模块,还要自己做个词典或错别字库(我猜大概率是做词典)
2 两部分内容,去除所有无效字符,包括标点和空白等,只留下文字,再逐字对比,记录二者不同的索引,再根据第一段换行的索引位置判断某个不同点是在哪一段,不过你这字数不一样需要研究研究,看看怎么容错(可以尝试记录连错字数,超过几个就判断内容错位了,回去加个偏移数再重新进行对比)

补充内容 (2021-5-21 09:59):
个人推荐第一种方案,找个分词库,再找找或做一个现成的词典;第二种算法实现可能比较麻烦,百分百会出现各种各样的问题。
作者: lk1122    时间: 2021-5-21 10:00
上面一段去掉换行,下面一段去掉所有标点符号,这样就形成两段,然后逐字分割对比就行了。
作者: 二毛2021    时间: 2021-5-21 10:01
还是要看你应用场景,可能语音识别并不是一个好的解决方案,OCR会精准的多
作者: 不要再艾特我了    时间: 2021-5-21 10:03
疯二毛 发表于 2021-5-21 09:56
提两个思路
1 类似WPS那种智能识别,猜测应该是先中文分词,再和错别字库或词典做对比,不过实现起来比较麻 ...

啊啊啊啊啊啊啊啊啊啊啊
作者: 不要再艾特我了    时间: 2021-5-21 10:03
疯二毛 发表于 2021-5-21 10:01
还是要看你应用场景,可能语音识别并不是一个好的解决方案,OCR会精准的多 ...

OCR识别什么东西
作者: 二毛2021    时间: 2021-5-21 10:04
不要再艾特我了 发表于 2021-5-21 10:03
OCR识别什么东西

语音能识别的东西,OCR自然能识别啊,不然你那段正确的文字从哪里来的,总之就是要看你应用场景
作者: 不要再艾特我了    时间: 2021-5-21 10:15
疯二毛 发表于 2021-5-21 10:04
语音能识别的东西,OCR自然能识别啊,不然你那段正确的文字从哪里来的,总之就是要看你应用场景 ...

我是先拿文本转的音频,然后想生成对应的字幕,然后调用语音识别音频 拿到的错别字文本···········
作者: 小生小白    时间: 2021-5-21 10:44
用到精易模块  参考一下 查错字.e (471.4 KB, 下载次数: 7)



作者: 初夏喔    时间: 2021-5-21 11:01
其实不难 自动改错.rar (44.03 KB, 下载次数: 16)
作者: 不要再艾特我了    时间: 2021-5-21 11:05
初夏喔 发表于 2021-5-21 11:01
其实不难

大佬 求原理啊
作者: 不要再艾特我了    时间: 2021-5-21 11:06
小生小白 发表于 2021-5-21 10:44
用到精易模块  参考一下

为啥我看不懂改出来的在哪里
作者: 不要再艾特我了    时间: 2021-5-21 11:14
初夏喔 发表于 2021-5-21 11:01
其实不难

大佬 有点流弊啊,好像瞬间就解决了,但是不是易语言解决的·········
作者: 初夏喔    时间: 2021-5-21 11:15
不要再艾特我了 发表于 2021-5-21 11:14
大佬 有点流弊啊,好像瞬间就解决了,但是不是易语言解决的········· ...

才30多行代码,去学一下C#就能看懂了。
NPinyin.Pinyin.GetInitials这个是获取文本拼音
作者: 不要再艾特我了    时间: 2021-5-21 11:22
初夏喔 发表于 2021-5-21 11:15
才30多行代码,去学一下C#就能看懂了。
NPinyin.Pinyin.GetInitials这个是获取文本拼音 ...

我还以为是py,或者是什么 js文件 也是 var 声明变量········ 大佬这个能给易语言调用吗·····写个dll呗
作者: 初夏喔    时间: 2021-5-21 11:59
要求至少.net4.5才能使用

  1. .版本 2

  2. .DLL命令 Replace, 文本型, "Test.dll", "Replace"
  3.     .参数 a, 文本型
  4.     .参数 b, 文本型
复制代码

Test.rar

41.64 KB, 下载次数: 0


作者: 初夏喔    时间: 2021-5-21 12:03
用这个吧。上一个有内存泄漏的风险。

要求至少.net4.0才能使用
  
DLL命令名返回值类型公开备 注
Replace文本型 
DLL库文件名:
Test.dll
在DLL库中对应命令名:
Replace
参数名类 型传址数组备 注
a文本型
b文本型

Test.rar (41.78 KB, 下载次数: 4)

作者: yikexiaodudu    时间: 2021-5-21 12:28
lk1122 发表于 2021-5-21 10:00
上面一段去掉换行,下面一段去掉所有标点符号,这样就形成两段,然后逐字分割对比就行了。 ...

人家上面格式不能动  任何字符都不能动  只能替换错字  哪一行少字的你给加上 多了你给去掉
不然早都做好了  你说的这样昨天就搞定了  他那个实现不了
作者: 不要再艾特我了    时间: 2021-5-21 12:34
初夏喔 发表于 2021-5-21 12:03
用这个吧。上一个有内存泄漏的风险。

要求至少.net4.0才能使用

好像也报错了······
作者: 不要再艾特我了    时间: 2021-5-21 12:42
初夏喔 发表于 2021-5-21 12:03
用这个吧。上一个有内存泄漏的风险。

要求至少.net4.0才能使用


我想错误的单独一句一句来识别是不是错别字

作者: 不要再艾特我了    时间: 2021-5-21 12:50
初夏喔 发表于 2021-5-21 12:03
用这个吧。上一个有内存泄漏的风险。

要求至少.net4.0才能使用

好像 我可以按照段数给他排序,问题不大

补充内容 (2021-5-21 12:53):
就是现在不知道为啥 调用报dll堆栈错误·······
作者: 相伴    时间: 2021-5-21 13:52
正常来说,语音识别的错别字,他也是分段其实会差不多的,最多就是两段合成了一段,段数一定会少,我目前的思路就是先搞个分段,然后去对比一下,相同的先放一下,找出来不同的分段,然后再去通过单个文本对比,搞出来一个类似于对比度大于多少的,这样的话如果是两段文字合成一个,那也差不多了,主要是这个难实现

作者: 不要再艾特我了    时间: 2021-5-21 13:56
初夏喔 发表于 2021-5-21 12:03
用这个吧。上一个有内存泄漏的风险。

要求至少.net4.0才能使用

拉闸啊,换一篇文案就拉闸了·········
作者: 不要再艾特我了    时间: 2021-5-21 13:56
相伴 发表于 2021-5-21 13:52
正常来说,语音识别的错别字,他也是分段其实会差不多的,最多就是两段合成了一段,段数一定会少,我目前的 ...

我之前的思路也是这样的······
作者: 初夏喔    时间: 2021-5-21 14:05
Test.rar (41.78 KB, 下载次数: 1)
作者: 不要再艾特我了    时间: 2021-5-21 14:18
初夏喔 发表于 2021-5-21 14:05

大佬 这个方法只是针对上面的文案可以,但是换一篇文案 又不行了··········有没有什么更加好的办法呢,用拼音的方法 不太准确啊
作者: 初夏喔    时间: 2021-5-21 14:22
不要再艾特我了 发表于 2021-5-21 14:18
大佬 这个方法只是针对上面的文案可以,但是换一篇文案 又不行了··········有没有什 ...

这又不是AI
作者: 不要再艾特我了    时间: 2021-5-21 14:25
初夏喔 发表于 2021-5-21 14:22
这又不是AI

这就很尴尬了,还有没有别的办法,比如某度的AI建个模型,然后锻炼一下识别?
作者: 不要再艾特我了    时间: 2021-5-21 15:40
初夏喔 发表于 2021-5-21 14:22
这又不是AI

有么有什么好的办法呢???比如某度······ai?
作者: 初夏喔    时间: 2021-5-21 16:04
不要再艾特我了 发表于 2021-5-21 15:40
有么有什么好的办法呢???比如某度······ai?

有钱直接在论坛找人定制,没钱又没技术就别想了,问答区是用来解答问题的,而不是用来定制内容的
作者: 不要再艾特我了    时间: 2021-5-21 16:09
初夏喔 发表于 2021-5-21 16:04
有钱直接在论坛找人定制,没钱又没技术就别想了,问答区是用来解答问题的,而不是用来定制内容的 ...

定制我也找了几个人,不太行······
作者: 二毛2021    时间: 2021-5-21 16:46
不要再艾特我了 发表于 2021-5-21 10:15
我是先拿文本转的音频,然后想生成对应的字幕,然后调用语音识别音频 拿到的错别字文本········ ...

想生成对应的字幕,应该是剪映的文本朗读那种,可以同时添加字幕,不清楚剪映的原理,不过一般也就是两种方案:1.全部文本转语音,再整体语音识别出带时间戳的字幕,和你这个思路一样,可能剪映的语音识别比较精准。2.文本先分句再转语音,根据每句话的语音长度自动计算时间戳,直接生成字幕。
作者: 不要再艾特我了    时间: 2021-5-21 16:55
疯二毛 发表于 2021-5-21 16:46
想生成对应的字幕,应该是剪映的文本朗读那种,可以同时添加字幕,不清楚剪映的原理,不过一般也就是两种 ...

第二种方法我试过了 ,单句生成音频,最后再合成总的音频,但是合成出来的效果,不是上下句太快,就是太慢·····
作者: Patek    时间: 2021-5-21 17:44
按行识别,这个容错率太低啦。必须按行吗?
作者: Patek    时间: 2021-5-21 18:43

懒得弄了。交叉对比一下,结果就出来了。有空自己再调优一下。

大致思路是可以的,不过结果只能接近完全正确。


demo.e (9.3 KB, 下载次数: 3)


作者: 二毛2021    时间: 2021-5-21 18:44
不要再艾特我了 发表于 2021-5-21 16:55
第二种方法我试过了 ,单句生成音频,最后再合成总的音频,但是合成出来的效果,不是上下句太快,就是太 ...

应该是语音合成模型的问题,有精力可以找找或者自己训练一个合成模型,用现在的方案的话,找个字错率低的语音识别,再去手动查错,估计只能这样了。不过之前看剪映里的这个功能挺成熟的,和你需求一样,没有错字,自动有字幕,建议去反编译研究研究,最好直接把他功能拔下来或者hook做接口
作者: m656655    时间: 2021-5-21 20:02
建议取每行的字数  然后把下面的和上面替换一下
作者: 不要再艾特我了    时间: 2021-5-21 20:26
疯二毛 发表于 2021-5-21 18:44
应该是语音合成模型的问题,有精力可以找找或者自己训练一个合成模型,用现在的方案的话,找个字错率低的 ...

试过了···········我借用的就是那个语言识别
作者: 不要再艾特我了    时间: 2021-5-21 20:27
Patek 发表于 2021-5-21 18:43
懒得弄了。交叉对比一下,结果就出来了。有空自己再调优一下。

大致思路是可以的,不过结果只能接近完全 ...

大佬 你这代码 我看着有点晕
作者: Patek    时间: 2021-5-21 21:17
suc = 正确的,  err = 错误的 , 交叉寻找。后面多加些条件判断。
作者: 不要再艾特我了    时间: 2021-5-21 21:23
Patek 发表于 2021-5-21 21:17
suc = 正确的,  err = 错误的 , 交叉寻找。后面多加些条件判断。

有点晕 全是abcd·········我试了一下 后面好像匹配出来的不太多,能不能给我写个完美点的例子,我请你喝星巴克
作者: 真冬    时间: 2021-5-22 05:57




  1. .版本 2
  2. .支持库 spec

  3. .程序集 窗口程序集_启动窗口

  4. .子程序 __启动窗口_创建完毕

  5. 调试输出 (文本的错别字和正常的字去找出来 (#存在可能错别字, #正常的字))
  6. 编辑框1.内容 = #存在可能错别字
  7. 编辑框2.内容 = #正常的字

  8. .子程序 文本的错别字和正常的字去找出来, 文本型
  9. .参数 可能错别字, 文本型
  10. .参数 正常的字, 文本型
  11. .局部变量 正则, 对象
  12. .局部变量 更正结果, 文本型
  13. .局部变量 结果判断, 文本型

  14. 正则.创建 (“VBScript.RegExp”, )
  15. 正则.写属性 (“IgnoreCase”, 假)  ' 匹配时不区分大小写
  16. 正则.写属性 (“Multiline”, 真)  ' 是否匹配多行
  17. 正则.写属性 (“Global”, 真)  ' 是否全局匹配
  18. 正则.写属性 (“Pattern”, “([^,。\s\x08]+)[^,。\s\x08](?=[\s\S]+?\x08[\s\S]+?(\1)([^,。\s\x08]))”)
  19. 更正结果 = 可能错别字 + #换行符 + 字符 (8) + 正常的字
  20. .循环判断首 ()
  21.     结果判断 = 更正结果
  22.     更正结果 = 正则.文本方法 (“Replace”, 更正结果, “$1$3”)
  23. .循环判断尾 (结果判断 ≠ 更正结果)
  24. 正则.写属性 (“Pattern”, “([^,。\s\x08]+)([^,。\s\x08])(?=[\s\S]+?\x08[\s\S]+?(\1[^,。\s\x08]+))”)
  25. 更正结果 = 正则.文本方法 (“Replace”, 更正结果, “$3”)
  26. 更正结果 = 取文本左边 (更正结果, 寻找文本 (更正结果, 字符 (8), , 假) - 1)
  27. 返回 (更正结果)
复制代码



作者: 不要再艾特我了    时间: 2021-5-22 09:03
真冬 发表于 2021-5-22 05:57

第一件事说拜登
刚吹牛完就被美颜社打了
你吹的是什么牛
为了反映个人成就
最近据美联社报道
当地时间5月3日
乔拜登严重夸大了新冠肺炎的疫苗接种人数
虽然印度疫情在最近一段时间有所爆发
但美国依然高居榜首
但有趣的是
拜登在弗吉尼亚州普斯茅斯的演讲中标榜自己的政治成就
超额完成了疫苗接种任务
总之拜登说他当选后承诺执政100天给一人打疫苗
然而事实证明
他已经为2.3亿人接种了疫苗
对此美国媒体立即曝光了拜登的谎言
事实上拜登的承诺和实际结果都是错误的
第一承诺数量少
到三月底拜登已经将目标金额增加到2亿美元
二只有1点06亿人全面接种
而不是拜登所说的2.3亿人
除此之外
1亿多人只接到一个镜头
还差一个镜头
第二件事据国外媒体报道
莫迪的政党受到重创
随着疫情蔓延
印度大选如火如荼
但莫迪的收获却令人担忧
据西班牙网站世界报报道
印度总理莫迪领导的印度人民党
在西孟加拉邦泰米尔纳德邦和喀拉拉邦的选举中落败
在此之前莫迪强攻全力应对整体可控疫情
成功挺过了第一次疫情
但就像印度随之而来的各种大规模集会
特别是大选期间
大量民众聚集
导致第
二波疫情印度濒临崩溃
确诊感染者人数连续多日创新高
一天之内从200030万到40万
印度疫情全面崩溃
创造了全球新纪录
很多人把矛头指向莫迪
认为他应该为此承担不可推卸的责任
最直接的反应体现在大选票数上
在很多选区莫迪的政党损失惨重
第一巴掌来自关键州的选举结果
第三件事是英法争端升级
法国准备报复英国英法之间关于海洋资源
特别是捕鱼权的争端再次升级
据英国广播公司BBC消息当地时间5月4日
法国政府威胁要切断英国泽西岛的电力供应
原因是英国退出欧盟事件后
英法之间关于捕鱼权的争端升级
据公开报道
主要原因是英国在4月30日公布了法国渔船名单
这份名单规定从5月1日起
只有41艘装有船舶监控系统的
法国渔船被允许进入英国水域捕鱼
而且英国不仅规定了渔船可以进入的水域
还规定了捕鱼作业的具体日期
对此法国渔民非常不满
强烈反对
至于英国单方面的新要求
法国海洋部也在新闻稿中表示
这些要求是无效的
泽西岛是英吉利海峡群岛中最大的岛屿
95%的电力
来自法国的三条海底电缆
法国海外事务部长安妮克吉拉丁表示法国准备报复


########################################################

第一件事,说拜登,刚“吹牛”完就被美联社打了 你吹的是什么牛?为了反映个人成就,最近,据美联社报道,当地时间5月3日,乔拜登严重夸大了新冠肺炎的疫苗接种人数。 虽然印度疫情在最近一段时间有所爆发,但美国依然“高居榜首”,但有趣的是,拜登在弗吉尼亚州朴茨茅斯的演讲中标榜自己的政治成就,“超额完成了疫苗接种任务”。 总之,拜登说,他当选后,承诺执政100天给1亿人打疫苗。然而,事实证明,他已经为2.3亿人接种了疫苗。 对此,美国媒体立即曝光了拜登的谎言。事实上,拜登的承诺和实际结果都是错误的。第一,承诺数量少。到3月底,拜登已经将目标金额增加到2亿美元。第二,只有1.06亿人全面接种,而不是拜登所说的2.3亿人。除此之外,一亿多人只接到一个镜头,还差一个镜头。 第二件事,据国外媒体报道:莫迪的政党受到重创 随着疫情蔓延,印度大选如火如荼,但莫迪的“收获”却令人担忧。据西班牙网站《世界报》报道,印度总理莫迪领导的印度人民党在西孟加拉邦、泰米尔纳德邦和喀拉拉邦的选举中落败。 在此之前,莫迪强攻,全力应对整体可控疫情,成功挺过了第一次疫情。但就像印度随之而来的各种大规模集会,特别是大选期间,大量民众聚集,导致第二波疫情,印度濒临崩溃。 确诊感染者人数连续多日创新高,一天之内从20万、30万到40万。印度疫情全面崩溃,创造了全球新纪录。很多人把矛头指向莫迪,认为他应该为此承担不可推卸的责任。最直接的反应体现在大选票数上。在很多选区,莫迪的政党损失惨重,第一巴掌来自关键州的选举结果。 第三件事是英法争端升级,法国准备报复英国 英法之间关于海洋资源,特别是捕鱼权的争端再次升级。据英国广播公司(BBC)消息,当地时间5月4日,法国政府威胁要切断英国泽西岛的电力供应,原因是英国退出欧盟事件后,英法之间关于捕鱼权的争端升级。 据公开报道,主要原因是英国在4月30日公布了法国渔船名单。这份名单规定,从5月1日起,只有41艘装有船舶监控系统的法国渔船被允许进入英国水域捕鱼。而且英国不仅规定了渔船可以进入的水域,还规定了捕鱼作业的具体日期。 对此,法国渔民非常不满,强烈反对。至于英国单方面的新要求,法国海洋部也在新闻稿中表示,这些要求是无效的。 泽西岛是英吉利海峡群岛中最大的岛屿,95%的电力来自法国的三条海底电缆。法国海外事务部长安妮克吉拉丁表示,法国准备报复。

##########################################################


这一段,就改不出来了·············这······



作者: 小清晰99    时间: 2021-5-22 12:38
我想知道第一部分和第二部分有什么区别
作者: 小清晰99    时间: 2021-5-22 12:39
管他第一部分有没有错,直接使用第二部分不就好了
作者: 不要再艾特我了    时间: 2021-5-22 15:15
小清晰99 发表于 2021-5-22 12:38
我想知道第一部分和第二部分有什么区别

第一部分 分段分好的,有时间戳,只是存在错别字
作者: 元老    时间: 2021-5-22 18:11
用python做个AI 试试分词吧,把分不出来的词按照拼音对比词库

补充内容 (2021-5-22 18:12):
哦哦,原来是语音识别的,那没事了。语音识别也是根据词识别的,手动改吧
作者: 不要再艾特我了    时间: 2021-5-22 18:19
创世之神 发表于 2021-5-22 18:11
用python做个AI 试试分词吧,把分不出来的词按照拼音对比词库

补充内容 (2021-5-22 18:12):

啊啊啊啊啊,想想办法啊,手动没有灵魂的
作者: 元老    时间: 2021-5-22 18:26
不要再艾特我了 发表于 2021-5-22 18:19
啊啊啊啊啊,想想办法啊,手动没有灵魂的

办法就是手动,不然那帮大厂为啥专注语音识别的精度而不是文本处理的精度 可以去Github看看文本纠错算法所以你最近是在做视频自动生成Ass字幕文件?
作者: Bong    时间: 2021-5-22 18:27
已知正确的文本  去对比一下不久好了?
作者: 不要再艾特我了    时间: 2021-5-22 18:54
创世之神 发表于 2021-5-22 18:26
办法就是手动,不然那帮大厂为啥专注语音识别的精度而不是文本处理的精度 可以去Github看看文本 ...

是啊是啊是啊是啊
作者: 元老    时间: 2021-5-22 20:01
不要再艾特我了 发表于 2021-5-22 18:54
是啊是啊是啊是啊

强势
作者: 不要再艾特我了    时间: 2021-5-22 22:18
创世之神 发表于 2021-5-22 20:01
强势

想想办法,我就不信,那么多人,想不出来好的办法,而且这个东西,是大家所需要的,又不是为了我一个人,这样的东西搞出来,方便了很多人的
作者: 元老    时间: 2021-5-22 22:26
不要再艾特我了 发表于 2021-5-22 22:18
想想办法,我就不信,那么多人,想不出来好的办法,而且这个东西,是大家所需要的,又不是为了我一个人, ...

吼吼,我觉得直接用某都的接口就挺好的
作者: 不要再艾特我了    时间: 2021-5-22 22:38
创世之神 发表于 2021-5-22 22:26
吼吼,我觉得直接用某都的接口就挺好的

错别字啊,得想办法改正啊
作者: 元老    时间: 2021-5-22 22:40
不要再艾特我了 发表于 2021-5-22 22:38
错别字啊,得想办法改正啊

文本纠错,github一堆现成的纠错算法

补充内容 (2021-5-22 22:41):
老实说换了python是真香,易语言啥都干不了[本白很白]
作者: 不要再艾特我了    时间: 2021-5-22 22:41
创世之神 发表于 2021-5-22 22:40
文本纠错,github一堆现成的纠错算法

补充内容 (2021-5-22 22:41):

不会玩玩那个网站啊

作者: 不要再艾特我了    时间: 2021-5-22 22:46
创世之神 发表于 2021-5-22 22:40
文本纠错,github一堆现成的纠错算法

补充内容 (2021-5-22 22:41):

你这人真讨厌
作者: 宇轩One    时间: 2021-5-23 10:22
语音识别之后
用易语言把文字合成语音
再去识别
看有没有不一样的?
作者: 小清晰99    时间: 2021-5-23 10:23
感觉搞在字幕
作者: 财通天地    时间: 2021-5-23 10:31
是不是要文本纠错功能???是的话给你搞个
作者: 不要再艾特我了    时间: 2021-5-23 10:50
小清晰99 发表于 2021-5-23 10:23
感觉搞在字幕

是在搞字幕啊··········
作者: 不要再艾特我了    时间: 2021-5-23 10:50
宇轩One 发表于 2021-5-23 10:22
语音识别之后
用易语言把文字合成语音
再去识别

肯定不一样啊··········易语言的文字合成····
作者: 小明无敌    时间: 2021-5-23 11:05
太长不看         
作者: 不要再艾特我了    时间: 2021-5-23 11:07
小明无敌 发表于 2021-5-23 11:05
太长不看


作者: rectdbszy    时间: 2021-5-23 11:32
哎呀,你好老火,看不下去了,给你个简单实用的方法,原文本文本_逐字分割到一个数组,错文本也同样文本_逐字分割,用数组1比对数组2,不相等就是数组2错了,就把数组1的替换掉数组2的
作者: 不要再艾特我了    时间: 2021-5-23 11:34
rectdbszy 发表于 2021-5-23 11:32
哎呀,你好老火,看不下去了,给你个简单实用的方法,原文本文本_逐字分割到一个数组,错文本也同样文本_逐 ...

段落变了 不行的·······
作者: rectdbszy    时间: 2021-5-23 12:06
不要再艾特我了 发表于 2021-5-23 11:34
段落变了 不行的·······

变了,哪变了,你原文本,把标点统一了再分割,不逐字分割就以行分割,用每一行为一个数组成员。
作者: 不要再艾特我了    时间: 2021-5-23 12:13
rectdbszy 发表于 2021-5-23 12:06
变了,哪变了,你原文本,把标点统一了再分割,不逐字分割就以行分割,用每一行为一个数组成员。 ...

分段不一样··········

补充内容 (2021-5-23 12:14):
再重新整理思绪,描述一下这个问题
https://125.confly.eu.org/forum.php?mod=viewthread&tid=14682211
(出处: 精易论坛)
看看我重新整理的思路
作者: 我的yyy123    时间: 2021-5-23 16:07
那个不叫错字,叫别字,想自动修改估计得人工智能了。
作者: 不要再艾特我了    时间: 2021-5-23 16:10
我的yyy123 发表于 2021-5-23 16:07
那个不叫错字,叫别字,想自动修改估计得人工智能了。

关键是 人工智能在哪里啊,能不能搞个机器人自动学习的那种,手动改,然后机器人自动学习,我看了某度ai也没有针对这个东西的啊
作者: z899505cqz    时间: 2021-5-23 18:02
要是有钱我给你弄
作者: 不要再艾特我了    时间: 2021-5-23 18:09
z899505cqz 发表于 2021-5-23 18:02
要是有钱我给你弄

可以的 有钱,肯定不能白嫖啊
作者: 财通天地    时间: 2021-5-24 02:02

1.e

875.29 KB, 下载次数: 2

源码


作者: 二毛2021    时间: 2021-5-24 08:43
牛批666,热门了,还没解决,实在不行还是用之前的方案吧,先分段后再合成语音,多搞一下语速调节说不定就解决了
作者: leodinas    时间: 2021-5-24 08:47
财通天地 发表于 2021-5-24 02:02

你的返回要加个循环啊,否则错字多了也只显示一个错别字,json循环下item.vec_fragment
其次就是如果菲律宾用的是fei律宾,好像也不可以被识别!
所有国家 改成 锁有国家也不被识别!
作者: 小胖专用    时间: 2021-5-24 19:29
直接利用文本对比,然后利用替换错别字来保存正确文本不行么
作者: 不要再艾特我了    时间: 2021-5-24 20:04
财通天地 发表于 2021-5-24 02:02

这·······看着就不对啊
作者: 不要再艾特我了    时间: 2021-5-24 20:04
小胖专用 发表于 2021-5-24 19:29
直接利用文本对比,然后利用替换错别字来保存正确文本不行么

要分段一样的
作者: 不要再艾特我了    时间: 2021-5-24 20:05
疯二毛 发表于 2021-5-24 08:43
牛批666,热门了,还没解决,实在不行还是用之前的方案吧,先分段后再合成语音,多搞一下语速调节说不定就 ...

我现在找到的方法就是配音有个库,但是要改个算法,自己又不太懂py
作者: jingyi11023995    时间: 2021-5-24 20:18
word的语法检查,要实现类似的功能,这难度大大大。。。。。。
作者: 承易    时间: 2021-5-24 21:04
就是这意思吧



补充内容 (2021-5-24 21:18):
http://www.cuobiezi.net/
作者: 不要再艾特我了    时间: 2021-5-24 21:48
承易 发表于 2021-5-24 21:04
就是这意思吧

不太对啊
作者: 承易    时间: 2021-5-24 21:58
不要再艾特我了 发表于 2021-5-24 21:48
不太对啊

那就不知了 那网址专用识别 你去看看
作者: 不要再艾特我了    时间: 2021-5-24 22:11
承易 发表于 2021-5-24 21:58
那就不知了 那网址专用识别 你去看看

#!/usr/bin/python
# -*- coding: UTF-8 -*-   
# Author:Administrator  作者
# FileName:dome1  文件名称
# DateTime:2021/5/24 22:03  当前时间
# SoftWare: PyCharm  创建文件的IDE名称


import numpy as np
def Smith_Waterman(str1, str2, s_score, m_score):
        len1, len2 = len(str1), len(str2)
        matrix = np.zeros([len1 + 1, len2 + 1])
        for i in range(len1):
                matrix[i, 0] = 0
        for i in range(len2):
                matrix[0, i] = 0
        Space = 0
        for i in range(1, len1 + 1):
                for j in range(1, len2 + 1):
                        Mkj = matrix[i-1, j] - Space
                        Mik = matrix[i, j-1] - Space
                        Mij = matrix[i-1, j-1] + 1 if str1[i-1] == str2[j-1] else matrix[i-1, j-1] -1
                        matrix[i, j] = max(Mij, Mkj, Mik, 0)
        match_str1, match_str2, match_rate = Trace_back(str1, str2, matrix, Space)
        # print(match_str1)
        # print(match_str2)
        # print(match_rate)
        return match_str1, match_str2, match_rate
def Trace_back(str1, str2, M, Space):
        #find max
        x, y = np.where(M == np.max(M))
        x, y = x[0], y[0]
        # print(M)
        # print(x, y)
        match_str1, match_str2 = '', ''
        match_count = 0
        score = 0
        count = 0
        while M[x, y] != 0:
                count += 1
                # print(x, y)
                if M[x - 1, y] - Space == M[x, y]:
                        x = x -1
                        match_str1, match_str2 = str1[x] + match_str1, '_' + match_str2
                        score += 0.5
                elif M[x, y - 1] - Space == M[x, y]:
                        y = y - 1
                        match_str1, match_str2 = '_' + match_str1, str2[y] + match_str2
                        score += 0.5
                else:
                        x, y = x-1, y-1
                        match_str1, match_str2 = str1[x] + match_str1, str2[y] + match_str2
                        match_count += 1
                        score += 1
                # match_rate = match_count/min(len(str1), len(str2))
        return match_str1, match_str2, score/count


if __name__ == '__main__':
   str1 = '''刚吹牛完就被美颜社打了'''

str2 = '第一件事,说拜登,刚“吹牛”完就被美联社打了 你吹的是什么牛?为了反映个人成就,最近,据美联社报道,当地时间5月3日,乔拜登严重夸大了新冠肺炎的疫苗接种人数。 虽然印度疫情在最近一段时间有所爆发,但美国依然“高居榜首”,但有趣的是,拜登在弗吉尼亚州朴茨茅斯的演讲中标榜自己的政治成就,“超额完成了疫苗接种任务”。 总之,拜登说,他当选后,承诺执政100天给1亿人打疫苗。然而,事实证明,他已经为2.3亿人接种了疫苗。 对此,美国媒体立即曝光了拜登的谎言。事实上,拜登的承诺和实际结果都是错误的。第一,承诺数量少。到3月底,拜登已经将目标金额增加到2亿美元。第二,只有1.06亿人全面接种,而不是拜登所说的2.3亿人。除此之外,一亿多人只接到一个镜头,还差一个镜头。 第二件事,据国外媒体报道:莫迪的政党受到重创 随着疫情蔓延,印度大选如火如荼,但莫迪的“收获”却令人担忧。据西班牙网站《世界报》报道,印度总理莫迪领导的印度人民党在西孟加拉邦、泰米尔纳德邦和喀拉拉邦的选举中落败。 在此之前,莫迪强攻,全力应对整体可控疫情,成功挺过了第一次疫情。但就像印度随之而来的各种大规模集会,特别是大选期间,大量民众聚集,导致第二波疫情,印度濒临崩溃。 确诊感染者人数连续多日创新高,一天之内从20万、30万到40万。印度疫情全面崩溃,创造了全球新纪录。很多人把矛头指向莫迪,认为他应该为此承担不可推卸的责任。最直接的反应体现在大选票数上。在很多选区,莫迪的政党损失惨重,第一巴掌来自关键州的选举结果。 第三件事是英法争端升级,法国准备报复英国 英法之间关于海洋资源,特别是捕鱼权的争端再次升级。据英国广播公司(BBC)消息,当地时间5月4日,法国政府威胁要切断英国泽西岛的电力供应,原因是英国退出欧盟事件后,英法之间关于捕鱼权的争端升级。 据公开报道,主要原因是英国在4月30日公布了法国渔船名单。这份名单规定,从5月1日起,只有41艘装有船舶监控系统的法国渔船被允许进入英国水域捕鱼。而且英国不仅规定了渔船可以进入的水域,还规定了捕鱼作业的具体日期。 对此,法国渔民非常不满,强烈反对。至于英国单方面的新要求,法国海洋部也在新闻稿中表示,这些要求是无效的。 泽西岛是英吉利海峡群岛中最大的岛屿,95%的电力来自法国的三条海底电缆。法国海外事务部长安妮克吉拉丁表示,法国准备报复。'
str3=Smith_Waterman(str1, str2, 0.5, 1)

print(str3)


我提供一份py的代码,但是,其中有些文本 匹配不了

比如 把     str1 = '''一天之内从200030万到40万'''

这样匹配出来就是出来就是有问题的
作者: cosset    时间: 2021-5-25 09:57
直接调用纠错接口呢,阿里 百d 都有吧,或者找找别的。搞个免费的api
作者: 不要再艾特我了    时间: 2021-5-25 10:07
cosset 发表于 2021-5-25 09:57
直接调用纠错接口呢,阿里 百d 都有吧,或者找找别的。搞个免费的api

解决了 利用python




欢迎光临 精易论坛 (https://125.confly.eu.org/) Powered by Discuz! X3.4