易语言怎么识别音频，然后做出相应的动作

zjfzjf2233 · 发表于 2022-7-29 19:20:36

易语言怎么识别音频，音频是人说话的声音，然后做出相应的动作

豪豪豪111 · 发表于 2022-7-29 19:32:07

百d云、TX云、阿里云。提供语音识别接口

zjfzjf2233 · 发表于 2022-7-29 19:40:56

豪豪豪111 发表于 2022-7-29 19:32
百d云、TX云、阿里云。提供语音识别接口

有没有其他好一点的法子，先转语音再反应是不是太慢了

走一回 · 发表于 2022-7-29 20:01:10

易语言里有支持库的，语音识别，要调用到windows系统自带的语音识别功能，命令是事先设定在代码里的，就像平时智能空调的命令。

qinzaidj · 发表于 2022-7-29 20:23:23

上面说的一般够用，如果追求高性能和实时性，易语言可以用yolo v4自己训练模型，就是代价有点大，识别直播内容的速度比人听到快

zjfzjf2233 · 发表于 2022-7-29 21:12:48

qinzaidj 发表于 2022-7-29 20:23
上面说的一般够用，如果追求高性能和实时性，易语言可以用yolo v4自己训练模型，就是代价有点大，识别直 ...

说的具体一点大哥，就是要高性能，要和人说话的反应速度

已注销679935 · 发表于 2022-7-29 21:48:46

我这边有

xiayvjie · 发表于 2022-7-29 22:09:12

科大讯飞有实时听写api

明天自然醒 · 发表于 2022-7-29 22:40:06

zjfzjf2233 发表于 2022-7-29 21:12
说的具体一点大哥，就是要高性能，要和人说话的反应速度

针对适用场景训练模型，代价的确很大，直接调楼上的平台就好了，现在哪个平台没有实时语音识别？

qinzaidj · 发表于 2022-7-29 23:04:24

有点复杂如果不是对实时性要求特别高不建议你这么搞，过年在家时搞的了，现在的电脑没有代码没法发给你参考，就简单说下过程你自己研究了

1.拼接PCM，可以用 bass库 “论坛搜索” 监听16000采样率16位音频，获取到音频的PCM数据流然后拼接成一定长度(PCM就是字节集每个字节=1个分贝dB，字节的大小就是声音大小的分贝)
2.预加重，对PCM的低频率部分放大处理音频频率计算公式就自己百d了
3.对预加重的PCM进行分帧加窗可以看这个文章信号处理（二）音频信号的分帧，加窗
3.FFT(快速傅里叶变换) ，对分帧，加汉明窗后的PCM数据调用FFTW库来进行FFT计算
4.语谱图，把进行FFT计算后的PCM数据，调用ImGui内存画板来画语谱图，性能会很快，大概 1ms左右，怎么画可以看上面这个文章的其他篇

yolo怎么分类训练你就要自己学了

补充内容 (2022-7-29 23:04):
https://blog.csdn.net/chumingqian/article/details/121653741

补充内容 (2022-7-29 23:09):
除了FFT计算这部分，其他的论坛基本都有

		自动登录	找回密码
密码			注册

[易语言] 易语言怎么识别音频，然后做出相应的动作