第210章语音识别的难点

⚡ 自动翻页 开启后阅读到底自动进入下一章

⚡ 开启自动翻页更爽 看到章尾自动进入下一章，追书不用一直点。

询问完专利布局的细节后，许浪在现场确认起关于语音识别的进度。

林建国快速打开了一份文档，下一刻，屏幕上出现了一份详细的资料。

文档上有着一系列问题，一些问题点后面已经标注着研发完成，一些则是写着正在研究中，还有一些则是写着还存在难点等等。

“目前全球的语音识别技术都在用的隐马尔可夫模型（hmm），这个模型本质上是个统计模型，它只能记住哪个音后面跟着哪个音的概率高，根本不理解语言的具体内容，说白了就是把用户说的话分开一小段计算匹配，看相同长度相同语气下哪个句子符合，就显示哪个句子。”

“而更要命的是中文的声调和口音问题，英语没有声调，hmm处理起来还能凑合，但中文声调错了意思完全反过来，比如睡觉和水饺这种，hmm根本区分不开。”

“市场上的其他语音工具也存在这个问题，就像今年刚被水果公司收购的siri，还有谷歌刚发布的语音搜索，最终展示出来的效果跟我们的差不多，被不少灯塔国用户骂是垃圾产品。”

“其次，我们没有合适的中文语音资料库。”

林建国调出一张表格，继续介绍着。

“英语有2400小时全球免费使用的语料库可以进行训练，但国内并没有这样的，需要我们从头开始。”

“我们尝试过建立自己的语料库，找人过来一句一句地录制，一句一句地标注，让模型一句一句地学习。”

“但最终的效果并不好，中文博大精深，而且语调或者语法并不讲究，同一句话词语互相调换，内容是一样的。”

“就算我们投入大量的人力，估计只能覆盖到一些主流的句子，想要完成绝大部分的语音标注，把准确率提到80%以上，至少需要数千小时的高质量标注语料，就算投入大量人力，没个1-2年也完成不了。”

“甚至说这些也只能应付正常的普通话，要是有口音，或者用户的语调不一致，效果也会大打折扣。”

说罢，林建国无奈一叹。

“哪怕我们完成了这些，还有一个问题暂时无法解决。”

“现在所有语音识别都是云端处理，手机把语音传到服务器，服务器算完再把结果传回来，按目前的情况，哪怕我们投入大量资源提升云端算力，这个模式的计算水平也有限，用户对着手机喊完，需要延迟2-3秒才有反应。”

“想要实现离线识别更不可能，hmm模型虽然不算大，但也要占据大量内存和算力，甚至有可能因为大量计算语音识别让手机直接卡死。”

听着林建国的诉苦，许浪没有说什么，直接接过了电脑，认真地看着那上面标注的各种问题和难点，以及模型日志里的参数和底层调用逻辑。

林建国也没有再说什么，就这么安静地看着，内心也开始期待着许浪能够给出什么不一样的解决方案。

毕竟以往操作系统上，或者是其他的研发上，只要有问题，只要找到许浪，基本都能得到一个准确的方向。

第210章 语音识别的难点