第210章 语音识别的难点

⚡ 自动翻页 开启后阅读到底自动进入下一章
⚡ 开启自动翻页更爽 看到章尾自动进入下一章,追书不用一直点。

询问完专利布局的细节后,许浪在现场确认起关于语音识别的进度。

林建国快速打开了一份文档,下一刻,屏幕上出现了一份详细的资料。

文档上有着一系列问题,一些问题点后面已经标注着研发完成,一些则是写着正在研究中,还有一些则是写着还存在难点等等。

“目前全球的语音识别技术都在用的隐马尔可夫模型(hmm),这个模型本质上是个统计模型,它只能记住哪个音后面跟着哪个音的概率高,根本不理解语言的具体内容,说白了就是把用户说的话分开一小段计算匹配,看相同长度相同语气下哪个句子符合,就显示哪个句子。”

“而更要命的是中文的声调和口音问题,英语没有声调,hmm处理起来还能凑合,但中文声调错了意思完全反过来,比如睡觉和水饺这种,hmm根本区分不开。”

“市场上的其他语音工具也存在这个问题,就像今年刚被水果公司收购的siri,还有谷歌刚发布的语音搜索,最终展示出来的效果跟我们的差不多,被不少灯塔国用户骂是垃圾产品。”

“其次,我们没有合适的中文语音资料库。”

林建国调出一张表格,继续介绍着。

“英语有2400小时全球免费使用的语料库可以进行训练,但国内并没有这样的,需要我们从头开始。”

“我们尝试过建立自己的语料库,找人过来一句一句地录制,一句一句地标注,让模型一句一句地学习。”

“但最终的效果并不好,中文博大精深,而且语调或者语法并不讲究,同一句话词语互相调换,内容是一样的。”

“就算我们投入大量的人力,估计只能覆盖到一些主流的句子,想要完成绝大部分的语音标注,把准确率提到80%以上,至少需要数千小时的高质量标注语料,就算投入大量人力,没个1-2年也完成不了。”

“甚至说这些也只能应付正常的普通话,要是有口音,或者用户的语调不一致,效果也会大打折扣。”

说罢,林建国无奈一叹。

“哪怕我们完成了这些,还有一个问题暂时无法解决。”

“现在所有语音识别都是云端处理,手机把语音传到服务器,服务器算完再把结果传回来,按目前的情况,哪怕我们投入大量资源提升云端算力,这个模式的计算水平也有限,用户对着手机喊完,需要延迟2-3秒才有反应。”

“想要实现离线识别更不可能,hmm模型虽然不算大,但也要占据大量内存和算力,甚至有可能因为大量计算语音识别让手机直接卡死。”

听着林建国的诉苦,许浪没有说什么,直接接过了电脑,认真地看着那上面标注的各种问题和难点,以及模型日志里的参数和底层调用逻辑。

林建国也没有再说什么,就这么安静地看着,内心也开始期待着许浪能够给出什么不一样的解决方案。

毕竟以往操作系统上,或者是其他的研发上,只要有问题,只要找到许浪,基本都能得到一个准确的方向。

热门分类 历史修真玄幻其他都市游戏耽美未来