第211章新的语音大模型

⚡ 自动翻页 开启后阅读到底自动进入下一章

⚡ 开启自动翻页更爽 看到章尾自动进入下一章，追书不用一直点。

现场瞬间安静了下来，只剩下许浪站在白板前，时而思考，时而停下来在白板上写着什么。

十几分钟后，在众人的注视下，许浪终于缓缓地呼出了一口气，重新转过身来。

“嗯，情况已经想明白了，先确定一个前提，我们不做纯dnn，在当前的算力条件下这条路是走不通的，所以我们的方向是构建hmm-dnn的混合声学模型。”

“之前提到的两个主要的痛点，一个是同音词，一个是声调。”

“针对同音词，我们在语言模型端引入n-gram上下文语义模型，不仅听发音，还要让系统结合前后文的语境去判断预测。”

“针对中文独有的声调，我们直接把声调特征作为独立的参数维度，专门为它训练一个高精度的声调分类器，提高识别准确率。”

许浪顿了顿，再次说道。

“至于怎么把这两个模型融到一起，这一点不用担心，我会跟你们一起完成这个底层混合模型的核心训练架构。”

面对这么一个看似诡异的情况，就像一个学生站在老师面前说不用担心，我会出手一样。

但就是这样一个情况，现场的众人却没有任何一个人感到不适，甚至都还齐齐地松了一口气，仿佛有了许浪这句话，那么就没有任何难点一样。

没有理会惊喜的众人，许浪继续说着。

“至于语料库的问题，这个也很简单。”

“我们不用请标注公司，也不要找人在录音棚里一个个地录制，这样的数据太规范了，就算训练出来，在语调不同、背景音不同的情况下，大概率也达不到正常使用的水平。”

“所以我们必须使用普通人的语料库进行训练，这样才能达到最好的效果。”

许浪就这么看着众人，突然露出了一抹神秘兮兮的笑容。

“至于这样的语料库怎么获取，你们难道忘了我们还有一家兄弟公司吗，你们难道忘了未来是什么软件吗？”

“我们可以联合微聊，全网举办一个语音收集计划。”

“方案很简单粗暴，只要微聊用户准确朗读出系统随机给出的10个短句，就能直接领取1元钱的现金红包，还可以使用众包互助的形式，把第一批录音再推给其他用户去盲听复核，交叉验证错误率，双重审核过滤无效音频。”

“而且在收集数据的源头，我们让用户勾选自己的家乡或者所在地域的方言选项，这样就能收集到最符合我们要求的数据了。”

“同时我们也可以同步收集各种噪音样本，在后端生成海量的干扰数据模型，拿这些带噪音的数据进行过滤，就能减少噪音的影响。”

“微聊现在国内已经拥有2000多万活跃用户，哪怕仅仅只有1%的用户参与我们的活动，那也能够收集到20万份真实的活人发声源，我们就可以在极短的时间内完成一个让行业都震惊的中文声纹库。”

现场，所有人都愣住了，不少人此时才反应过来。

对啊，自己等人怎么没想到呢，自己还有一家兄弟公司，那可是目前移动互联网最火的即时通讯公司，而且最擅长的就是语音聊天功能，这一切的一切，不就是最佳的语音收集场景吗？

第211章 新的语音大模型