基于注意力机制与长短时记忆网络的情感说话人合成
李博宇
专业计算机应用技术
导师陈辉
2020-09
学位授予单位中国科学院大学
学位硕士
学位授予地点北京
关键词情感说话人 长短时记忆网络 注意力机制
摘要
随着人机交互技术的不断发展, 用户与计算机之间的交互过程被人们 赋予了更高的要求。而当计算机能够 以生动的人类形象,带有人类的情感状态和人类进行对话时,将有效提高交互体验。因此,情感化虚拟 说话 人生成技术受到越来越多的关注和广泛的研究。
在虚拟说话人合成技术 不断发展的今天 人们追求高精度的面部发音表达 的同时也希望赋予虚拟说话人情感 表达能力 。情感化的虚拟说话人合成技术以统计分析方法与深度学习方法为主。在统计分析方法中,通常构建音素与发音面部运动、情感面部运动对应的子空间 输入音素序列从子空间中筛选相应的运动序列 合成面部动画序列 。在深度学习方法中,通常使用深度神经网络结构直接 将音频特征、情感特征与面部运动参数间建立映射关系 。然而 现有 工作 在说话人的多样性情感表达上较为欠缺,同时建模过程中情感语义的相关性考虑不足,导致生成过程中需要一定的人工干预 。
针对以上问题,本文提出了一种基于注意力机制与长短时记忆网络的情感说话人合成方法,其主要贡献在以下两 方面:
1. 提出了一种 情感表达风格迁移 方法。该方法构建一个 表情发音字典 用以实现说话人的表情迁移过程,结合基于长短时记忆网络的发音模型,将发音信息与表情信息融合在一起。保证虚拟说话人发音准确性的同时兼顾表情状态的多样性与适应性。
2. 提出了一种 语 音 情感语义引导的说话人合成方法 。该方法 利用注意 力机制以及长短时记忆网络 进行情感语义分析 获取音频信号中的高层 情感 语义 信息 ,用以 引导虚拟说话人合成。通过预训练 的 情感语义分析模块, 加强了发音面部的情感表达 ,解决了人为预设情感的问题。

基于 上述算法思路,文章实现了一种基于注意力机制与长短时记忆网络的情感说话人合成 过程 。通过对实验结果的分析,该方法较好的 具备情感语义分析能力 ,自动呈现多样 性 的面部表情状态。

学科领域人工智能 ; 人工智能其他学科
内容类型学位论文
URI标识http://ir.iscas.ac.cn/handle/311060/19320
专题人机交互技术与智能信息处理实验室
作者单位中国科学院软件研究所
推荐引用方式
GB/T 7714
李博宇. 基于注意力机制与长短时记忆网络的情感说话人合成[D]. 北京. 中国科学院大学,2020.
条目包含的文件
文件名称/大小 文献类型 版本类型 开放类型 使用许可
毕业论文终稿_李博宇.pdf(1979KB)学位论文 开放获取CC BY-NC-SA请求全文
个性服务
推荐该条目
保存到收藏夹
查看访问统计
导出为Endnote文件
谷歌学术
谷歌学术中相似的文章
[李博宇]的文章
百度学术
百度学术中相似的文章
[李博宇]的文章
必应学术
必应学术中相似的文章
[李博宇]的文章
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。