第211章 新的语音大模型
现场瞬间安静了下来,只剩下许浪站在白板前,时而思考,时而停下来在白板上写着什么。
十几分钟后,在众人的注视下,许浪终于缓缓地呼出了一口气,重新转过身来。
“嗯,情况已经想明白了,先确定一个前提,我们不做纯dnn,在当前的算力条件下这条路是走不通的,所以我们的方向是构建hmm-dnn的混合声学模型。”
“之前提到的两个主要的痛点,一个是同音词,一个是声调。”
“针对同音词,我们在语言模型端引入n-gram上下文语义模型,不仅听发音,还要让系统结合前后文的语境去判断预测。”
“针对中文独有的声调,我们直接把声调特征作为独立的参数维度,专门为它训练一个高精度的声调分类器,提高识别准确率。”
许浪顿了顿,再次说道。
“至于怎么把这两个模型融到一起,这一点不用担心,我会跟你们一起完成这个底层混合模型的核心训练架构。”
面对这么一个看似诡异的情况,就像一个学生站在老师面前说不用担心,我会出手一样。
但就是这样一个情况,现场的众人却没有任何一个人感到不适,甚至都还齐齐地松了一口气,仿佛有了许浪这句话,那么就没有任何难点一样。
没有理会惊喜的众人,许浪继续说着。
“至于语料库的问题,这个也很简单。”
“我们不用请标注公司,也不要找人在录音棚里一个个地录制,这样的数据太规范了,就算训练出来,在语调不同、背景音不同的情况下,大概率也达不到正常使用的水平。”
“所以我们必须使用普通人的语料库进行训练,这样才能达到最好的效果。”
许浪就这么看着众人,突然露出了一抹神秘兮兮的笑容。
“至于这样的语料库怎么获取,你们难道忘了我们还有一家兄弟公司吗,你们难道忘了未来是什么软件吗?”
“我们可以联合微聊,全网举办一个语音收集计划。”
“方案很简单粗暴,只要微聊用户准确朗读出系统随机给出的10个短句,就能直接领取1元钱的现金红包,还可以使用众包互助的形式,把第一批录音再推给其他用户去盲听复核,交叉验证错误率,双重审核过滤无效音频。”
“而且在收集数据的源头,我们让用户勾选自己的家乡或者所在地域的方言选项,这样就能收集到最符合我们要求的数据了。”
“同时我们也可以同步收集各种噪音样本,在后端生成海量的干扰数据模型,拿这些带噪音的数据进行过滤,就能减少噪音的影响。”
“微聊现在国内已经拥有2000多万活跃用户,哪怕仅仅只有1%的用户参与我们的活动,那也能够收集到20万份真实的活人发声源,我们就可以在极短的时间内完成一个让行业都震惊的中文声纹库。”
现场,所有人都愣住了,不少人此时才反应过来。
对啊,自己等人怎么没想到呢,自己还有一家兄弟公司,那可是目前移动互联网最火的即时通讯公司,而且最擅长的就是语音聊天功能,这一切的一切,不就是最佳的语音收集场景吗?