文档价格: | 1000金币立即充值 | 包含内容: | 完整论文 | 文章下载流程 | |||||
文章字数: | 7161 字 (由Word统计) | 文章格式: | Doc.docx (Word) | 本站文章可以通过查重吗? |
摘要
随着计算机技术的发展,越来越多的语言学问题可以用计算机的思维模式来解决。应运而生的计算机语言学通过研究生活中实际存在的语言现象,通过数学与计算逻辑的定量方法对语言进行分析,从而探索语言背后的内在成因。而幽默,作为一种人类特有的感知状态,一直是计算机语言学家关注的问题。对于计算机而言,幽默的识别是困难的,具体体现在:1)幽默的定义众说纷纭,人们对于幽默的理解有一定认知上的差异。2)幽默的产生与上下文紧密相关,简单的计量方法无法处理这种联系。3)尽管幽默本身有多种类型,例如嘲讽、说反话,针对幽默的正式分类却非常少。本文结合深度学习的思想,运用循环神经网络与Word2vec的词汇向量训练方式,形成接近人类思维的神经网络,从而使计算机能达到自动对幽默与非幽默文本进行辨别。在前人的基础上,本文实现了97%的分类准确率,较为成功地实现了幽默文本的自动识别。
关键词:幽默识别;计算机语言学;文本分类
Contents
Chapter One Introduction 1
Chapter Two Literature Review 3
2.1 Humor Theory 3
2.2 Humor Research in Computational Linguistics 4
Chapter Three Method 6
3.1 Data preparation 6
3.1.1 Humorous Dataset 6
3.1.2 Non-humorous Dataset 6
3.2 Theory of Models 7
3.2.1 Word2vec model 7
3.2.2 Recurrent Neural Network 8
3. 2. 3 Long Short-Term Memory Model 9
3. 2. 4 Dropout Neural Net Model 10
Chapter Four Results 11
4.1 Data Preprocess 11
4.2 Word2vec Model 12
4.3 RNN Model 13
4.4 Experimental Evaluation 13
4. 4. 1 Accuracy 14
4. 4. 2 Precision 14
4. 4. 3 Recall 14
4. 4. 4 F1 Score 14
4.5 Experimental Result 14
4.6 Analysis of incongruity 15
Chapter Five Discussion and Conclusion 17
References 21