Indexed by:
Abstract:
文本情感分析作为自然语言处理(NLP)领域的研究热点之一,是对含有情感倾向 的主观性文本进行分析、处理、归纳与推理的过程。近年来,词向量技术在自然语言处 理领域得到了广泛应用,然而现有的词向量技术更多是关注词的上下文关系,忽略了 语言中的一些特殊情况,比如谐音现象。另一方面,Transformer 网络的提出,使得文 本中的长依赖问题得到了进一步解决,但如何将其有效地应用于情感分析任务成为了 一个值得关注的问题。
本文首先研究中文文本中存在的谐音词现象,提出将拼音信息加入词的语义空间 并使用 TF-IDF 值来量化每个词的重要性,实现了融合拼音和 TF-IDF 加权的中文词向 量模型。拼音信息的加入可以让上下文拼音相似的词共享一部分语义信息,在一定程 度上解决了谐音词语义不相似的问题。使用 TF-IDF 值可以让词向量模型在训练时更关 注文本中的关键词,得到更好的语义表示。其次,本文研究了 Transformer 网络,提出 了一个基于 Transformer 的情感分析框架 (Transformer-SA ), 并实现了 TransformerAdaptive 模型和 Transformer-Gumbel 模型。Transformer-Adaptive 模型采用一种自适应 的方法学习序列中每个位置的权重分布,然后从 Transformer Encoder 的输出中得到句 子表示;而 Transformer-Gumbel 模型使用了一种可微分的采样方法(Gumbel-Softmax) 从 Transformer Encoder 的输出中得到句子表示。
实验结果表明,在较大的数据集上,Transformer-Adaptive 和 Transformer-Gumbel 的表现均超过了基准模型,F1 值相比最好的基准模型分别提升了 0.46%和 1.51%;在 使用融合拼音和 TF-IDF 加权的词向量进行初始化后,它们的 F1 值相比最好的基准模 型分别提升了 0.89%和 2.11%。本文提出的模型在一定程度上提升了情感分析任务的性 能,具有实际应用价值。
Keyword:
Reprint Author's Address:
Basic Info :
Degree: 工程硕士
Mentor: 徐宏喆
Year: 2019
Language: Other
Affiliated Colleges: