近来,全球语音、声学尖端会议ICASSP2022发布了论文当选名单,易互娱AILab共3篇学术论文被接纳,并受邀于会议上面向学术和工业界进行研究报告。ICASSP即世界声学、语音与信号处理会议,是IEEE主办的全世界最大的,也是最全面的信号处理及其运用方面的尖端会议,在世界上享有盛誉并具有广泛的学术影响力。?
此次论文当选是易互娱AILab继INTERSPEECH?2020世界声纹辨认冠军、第六届OLR东方辨认世界比赛双赛道冠军和被INTERSPEECH2020&2021录入3篇论文后在语音信号处理范畴又一新的里程碑。在获得理论研究打破的一起,易互娱AILab研制的语音组成、语音辨认、语音操控以及语音变声&转化技能等相关技能,已成功在《梦境西游》、《哈利波特:魔法觉悟》、《阴阳师》、《全国3》、《狼人杀》等多个游戏项目中落地,助力丰厚游戏玩法并提高游戏体会。
录入论文概述
1、DATAAUGMENTATIONFORLONG-TAILEDANDIMBALANCEDPOLYPHONEDISAMBIGUATIONINMANDARIN
事务运用:提高语音组成中发音的正确性。
多音字是中文的常见现象,为了正确组成文字发音,多音字消歧是必不可少的重要过程。但在实在数据中,多音字读音出现的频率出现显着的长尾散布和非平衡现象,导致多音字消歧模型在长尾数据上错误率一般较高而成为一件非常具有挑战性的作业。
算法规划如下图所示:
在论文中,咱们提出了一种根据BERT预练习模型对多音字数据进行增强的办法,经过mask原句并用BERT猜测替换的办法,可以生成新的增强数据。结合有权重采样,可以得到类别平衡的数据,然后处理多音字长尾问题。一起,论文还提出了一种根据BERT的增强数据过滤战略,削减重复增强或许带来的数据噪声问题。终究的算法计划在不平衡读音和长尾读音的场景下比较基线有12%以上的提高。
2、DGC-VECTOR:ANEWSPEAKEREMBEDDINGFORZERO-SHOTVOICECONVERSION
事务运用:提高零资源音色转化的说话人类似度,为公司内部供给音色转化技能支撑。
算法规划如下图所示:
该论文结合了预练习的说话人辨认模型,语音风格建模中的GSTs(GlobalStyleTokens)和说话人分类器,提出了一种适用于零资源语音音色转化的说话人向量。试验证明,该办法比照常用的说话人表征向量D-vector在音色转化后的说话人类似度方面有5%的提高,在跨说话人转化的场景下提高到达12%。
3、IMPROVEFEW-SHOTVOICECLONINGUSINGMULTI-MODALLEARNING
事务运用:提高少数数据音色克隆作用,为公司内部供给音色克隆技能支撑。
算法规划如下图所示:
该论文提出了运用多模态,多使命学习提高在少数数据的场景下音色克隆的作用。论文提出的模型首要包含两个模块:
根据VQ-VAE的无监督语音表征模块
根据Tacotron生成语音波形的模块
试验证明,在少数数据的音色克隆场景下,该模型交融了语音和文本两个模态,比照单一模态的模型在语音组成和语音音色转化中的天然度和说话人类似度上都有明显的提高。别的,该模型也一起支撑语音组成和语音音色转化两个使命,可以适用于更多的运用场景,削减实践落地的作业量。