基于注意力机制与长短时记忆网络的情感说话人合成

	基于注意力机制与长短时记忆网络的情感说话人合成
	李博宇
专业	计算机应用技术
导师	陈辉
	2020-09
学位授予单位	中国科学院大学
学位	硕士
学位授予地点	北京
关键词	情感说话人长短时记忆网络注意力机制
摘要	随着人机交互技术的不断发展，用户与计算机之间的交互过程被人们赋予了更高的要求。而当计算机能够以生动的人类形象，带有人类的情感状态和人类进行对话时，将有效提高交互体验。因此，情感化虚拟说话人生成技术受到越来越多的关注和广泛的研究。在虚拟说话人合成技术不断发展的今天人们追求高精度的面部发音表达的同时也希望赋予虚拟说话人情感表达能力。情感化的虚拟说话人合成技术以统计分析方法与深度学习方法为主。在统计分析方法中，通常构建音素与发音面部运动、情感面部运动对应的子空间输入音素序列从子空间中筛选相应的运动序列合成面部动画序列。在深度学习方法中，通常使用深度神经网络结构直接将音频特征、情感特征与面部运动参数间建立映射关系。然而现有工作在说话人的多样性情感表达上较为欠缺，同时建模过程中情感语义的相关性考虑不足，导致生成过程中需要一定的人工干预。针对以上问题，本文提出了一种基于注意力机制与长短时记忆网络的情感说话人合成方法，其主要贡献在以下两方面： 1. 提出了一种情感表达风格迁移方法。该方法构建一个表情发音字典用以实现说话人的表情迁移过程，结合基于长短时记忆网络的发音模型，将发音信息与表情信息融合在一起。保证虚拟说话人发音准确性的同时兼顾表情状态的多样性与适应性。 2. 提出了一种语音情感语义引导的说话人合成方法。该方法利用注意力机制以及长短时记忆网络进行情感语义分析获取音频信号中的高层情感语义信息，用以引导虚拟说话人合成。通过预训练的情感语义分析模块，加强了发音面部的情感表达，解决了人为预设情感的问题。基于上述算法思路，文章实现了一种基于注意力机制与长短时记忆网络的情感说话人合成过程。通过对实验结果的分析，该方法较好的具备情感语义分析能力，自动呈现多样性的面部表情状态。
学科领域	人工智能 ; 人工智能其他学科
内容类型	学位论文
URI标识	http://ir.iscas.ac.cn/handle/311060/19320
专题	人机交互技术与智能信息处理实验室
作者单位	中国科学院软件研究所
推荐引用方式 GB/T 7714	李博宇. 基于注意力机制与长短时记忆网络的情感说话人合成[D]. 北京. 中国科学院大学,2020.

条目包含的文件
文件名称/大小	文献类型	版本类型	开放类型	使用许可
毕业论文终稿_李博宇.pdf（1979KB）	学位论文		开放获取	CC BY-NC-SA	请求全文