学位论文语言特征的学科差异:一项文本挖掘研究_开题报告
文档分类: 免费论文 编辑:英语论文网 上传时间:2019-04-22

Disciplinary Differences in Linguistic Features of Theses: A Text-mining Study

1、课题的目的及意义(含国内外的研究现状分析或设计方案比较、选型分析等)

20实际80年代以来,随着计算机技术的高速发展,语言研究也翻开了崭新的一页。从数据挖掘到文本挖掘,通过运用文本聚类、关联分析、可视化等相关计算机技术进行分析,从而科学地理解文本所包含的内容和意义,在处理模糊且非结构化的文本数据中具有重要的学术价值。学位论文作为攻读某学位的人为了获得所修学位而撰写的研究性论文,在表现出其所独有的语言特征的同时,也具有不同程度的跨学科差异 (Thompson, 2005)。将计量方法应用于学位论文,采用文本挖掘的方法探究文本语言特征,从而统计分析不同学科学位论文在语言特征方面存在的差异,对于从计量语言学视角理解学科分化及差异具有一定的参考意义。

从语言的量化研究来看,计量语言学以真实的语料为基础,用计量的方法发现语言现象中内在的数学规律从而研究语言的结构和发展规律。目前国外从事计量语言学研究的学者主要集中在德国和东欧地区,研究的对象主要为印欧语、斯拉夫语和拼音文字,其在国内仍然是一个鲜为人知的领域 (Liu & Huang, 2012)。从对于学位论文语篇的研究来看,这一领域目前的研究大致可分为跨学科研究、跨文化研究和跨语类研究。具体到跨学科研究,该类研究又可分为宏观层面和微观层面两种研究方向。宏观研究层面上,Starfield & Ravelli (2006) 对20篇澳大利亚博士论文的研究表明,“基于主题”类型在社会科学和人文学科的学位论文中占主导地位。Cheung (2012) 则从微观层面对应用语言学、教育管理学和工业设计学等学科的学位论文的结构、第一人称分布和引用模式做了对比分析,发现应用语言学和教育管理学论文具有较高的作者显示度和直接引用率,从而从微观研究层面证明了学位论文存在一定的学科差异。综观国内外现有研究成果可以看出,目前对于自然科学、社会科学和人文学科三大领域的学位论文的研究主要集中在结构和模式分析方面,少有论文从词频以及词汇丰富程度方面研究学位论文,对于论文采用文本挖掘方法进行的研究更是少之又少。为填补现有研究空白,同时尝试选取一个新的角度进行探索,本研究以学位论文为研究对象,用文本挖掘技术寻找语言中潜藏的数据,通过应用程序软件的高级图表功能进行图表绘制、数据拟合、函数估算等操作,并结合计量语言学的理论与方法加以分析,从而以科学的方法探究学位论文在语言特征方面存在的学科差异。

2、课题任务、重点研究内容、实现途径

课题任务:

1) 广泛查阅现有研究成果,明确论文研究方向 

2) 安装文本计量分析软件并熟习其操作 

3) 收集整理不同学科的学位论文,通过文本挖掘的方法统计型例比和作者视野 

4) 基于所得指标,探究不同学科学位论文语言特征方面存在的差异并分析成因

重点研究内容:

本文旨在通过统计分析文本计量指标,探究自然科学、社会科学和人文学科学位论文在语言特征方面存在的差异。本文将重点研究词频分布这一语言特征,通过计算型例比和作者视野这两个文本计量指标,从而尝试分析该语言特征在不同方面的表现及原因,以期为理解学科分化和差异提供语言学视角的思路。

本研究将收集整理的文本从词语数量和文本内容两个角度进行拆分。首先将文本拆分为若干的1000词的片段,计算并观察每增加1000词时文本计量指标的变化趋势,其后根据学位论文的内容结构特点进行二次拆分,对比两次拆分结果的异同,同时也将统计结果进行跨学科对比,从而探究不同学科学位论文在词频分布这一语言特征上存在的差异。


上一篇:生态翻译学“三维转换”视角下美版《甄嬛传》的翻译研究_开题报告
下一篇:语言学不同分支博士学位论文词汇复杂度对比研究_开题报告
相关文章推荐: TAG: 文本挖掘 学位论文 英语论文