第3章文体风格特征作者身份识别研究基于语言学研究领域中的文本分析,通过利用统计学方法分析文体风格来判断一段作品是否由这个作者创作。传统的作者身份识别技术主要应用于文学作品归属问题,近年来国内外学者正尝试将其应用于现实世界中的文本,如电子邮件、博客、在线信息以及源代码的作者归属问题。作者身份识别研究有两个关键问题: ①选择哪些文体风格特征; ②选取何种作者身份识别技术。本章讨论作者身份识别问题中最基本的问题之一: 文体风格特征及其在国内外的研究现状和趋势。文体风格特征是指能够有效识别作者身份的独特文档属性和写作风格标识等语言参数。理论文体学的作家决定论指出,作品风格产生于作者对其思想行为的合理安排[4],作者在其作品中会自觉或不自觉地融入其个性和个人社会背景。作者身份识别研究的基础就是对文体风格特征的比较分析,关键问题在于如何捕捉这些作者独特的文档属性和写作风格。国内外相关研究中选择的文体风格特征主要可分为字符特征、词汇特征、句法特征、结构特征、语义特征和领域相关特征。本章主要从一元和多元文体特征、多层面文体特征,以及文体特征选择三个方面探讨,还对文体风格特征的选择方法进行了介绍。3.1文体风格特征类别3.1.1一元和多元文体风格特征
作者身份识别的定量研究始于Mendenhall T. C.从单词长度规律的角度对英美文学作品写作风格的分析[2],代表研究有Yule G. U.根据句子长度分析英文散文、传记和随笔等作品的写作风格[39],Effon B.等统计莎士比亚作品中的词汇量,用以判断匿名作品是否是莎士比亚本人所著[40],Baayen H.基于重写规则频率语法对Nijmegen标注语料库中20世纪60年代戏剧、犯罪小说和文学评论的作者进行分析等[41],这些早期研究主要基于一元文体风格特征,仅适用于特定语料。为了增强通用性,随后学者们在作者身份识别中引入多元特征,如Zhao Y.等从句法角度以365个功能词为特征对美联社TREC语料库文章进行作者识别[15],Hollingsworth C.采用DepWords编码替代句法依存关系来识别英文侦探小说的作者[42],Chaurasia M.等检测了英美文学作品中文本单词首字符、中间字符、结束字符的Ngram,指出仅使用首字符Bigram和Trigram能有效识别作者[87]。一元和多元文体风格特征研究如表3.1所示。
表3.1一元和多元文体风格特征研究
文体风格特征作者年份应 用 语 料
一元特征单词长度Mendenhall T. C.1887英美文学作品句子长度Yule G. U.1939英文散文、传记和随笔等词汇量Efron B.1976莎士比亚作品重写规则频率Baayen H.1996Nijmegen标注语料库中20世纪60年代戏剧、犯罪小说和文学评论多元特征
功能词Zhao Y.2005美联社TREC语料库单词首字符、中间和结束字符NgramM. Chaurasia2011英美文学作品DepWords编码Hollingsworth C.2012英文侦探小说
传统语料的作者身份识别研究经过100多年的发展,从最初的一元特征到多元特征,作者身份识别准确度不断提高,为作者身份识别研究奠定了坚实的理论和应用基础。但一元文体风格特征仅适用于特定语料,多元特征虽然能增强通用性,但准确率仍有待提高,并且这些早期研究限于文学作品等长文本,候选作者通常为2~5人,如果将传统方法应用于短文本语料或候选作者数量增加时,其准确率明显下降。3.1.2多层面文体风格特征对多层面特征进行组合是进一步提高作者身份识别准确率的有效方法,相关研究有Gamon M.基于语法分析建立多层面组合特征集,应用于勃朗特三姐妹作品,验证了其有效性[5]。Zhang C.等在21本英文作品和路透社语料上抽取多层面特征,证明了依存关系能够描述相对稳定的语法模式和谓词参数关系,有助于提高作者身份识别准确率[43]。Abbasi证实了文本结构特征与传统特征结合能够提高作者身份识别的准确率,并在滑动窗口中以KL变换发现文体风格变化构成笔迹特征,对25名作者的电子邮件和商品评论文本进行识别,获得了90%以上的准确率[13]。目前文体特征研究有两个主要趋势: 一是以Stamatatos为代表的学者认为[4]: 过度处理文本而抽取出的特征,人工处理的痕迹太重,反而影响了作者身份风格的表现; 二是认为深层句法分析等深度处理的文体特征能够发现内容无关的文体风格,诸如句法的结构、依存分析等。此外,相关研究表明句法特征单独使用的效果不如词汇特征,但与其他特征结合使用能够改进作者身份识别性能[4]。根据文体风格特征对语言学计算的需求和复杂度,可以将多层面文体风格特征梳理分类为字符特征、词汇特征、句法特征、结构特征、语义特征以及领域相关特征。1. 字符特征字符特征将文本看作字符序列,抽取诸如字母大小写频率、数字频率、标点符号频率等文本特征。其中,字符Ngram能表现上下文信息、标点符号和字母大小写搭配习惯等,还能够捕捉到文本中的语法错误和拼写错误等细微特征,从而发现作者独特的写作风格痕迹,是传统文体风格研究中最有效特征之一[4]。这一类特征的优势在于对计算能力要求低、不需要特殊的分析工具并适用于多语种环境,其缺点在于统计字符Ngram特征的维度过高容易包含冗余信息。此外,这种方法得到的特征集维度非常高,通常在几千维以上,高维数据不仅增加了分类的难度,还影响算法的执行效率。字符层面文本特征如表3.2所示。
表3.2字符层面文体特征
编号字 符 特 征编号字 符 特 征
1字符总数6Tab数字符总数2字母数字符总数7~3226英文字母字符总数
3大写字母字符总数4数字字符字符总数5空格数字符总数33~5321个特殊字符字符总数:
~,@,#,$,%,^,&,*,-,_,=, ,,somebody someone something such than that thetheir them these they this those though through till to toward towards under unless unlike until up upon us used via we what whatever when where whether which while who whoever whom whose will with within without worth would yes you your 等
中文功能词: 介词、副词、助词、叹词、连接词和拟声词等深层句法特征句法依存关系Ngram统计DepWords编码替代传统句法依存关系
4. 结构特征结构特征包括文本组织和布局相关的特征,包括致敬语和告别语、签名档、HTML标记分布、字体大小和颜色分布、段落数、段落长、平均句长等,在电子邮件、博客或微博等短文本上尤为有效。如Shalhoub G.等采用表情符号、文本颜色、文本大小、嵌入图片和嵌入超链接作为结构特征,对英文电子邮件的作者身份进行识别[90]。结构层面文体特征如表3.5所示。5. 语义特征语义特征的尝试主要包括生成语义关系图[5]、基于WordNet抽取英文隐含语义分析词汇特征[17]、利用HowNet语义知识库筛选中文词汇作为作者写作风格特征[18]等,这些方法均对作品长度有一定要求,通常与语料的主题相关,不具有通用性,这里不做详细论述。
表3.5结构层面文体特征
编号结 构 特 征编号结 构 特 征1平均句长12是否有段落缩进2总行数13签名档是否有电子邮件3总句数14签名档是否有电话号码4总段数15签名档是否有URL5平均每段句数16倒装总句数6平均每段字符数17衔接词That总句数7平均每段词数18并列连词总句数8是否有致敬语19因果连词总句数9是否有段间隔符20转折连词总句数10是否有引用21时间连词总句数11引用在段中位置22假设连词总句数
6. 领域相关特征为提高准确率,学者们还探讨了领域相关特征,主要思路是抽取与主题相关的关键词加入到多层面特征集[19],例如在软件销售论坛上使用deal,obo,sale,wtb,thx,paypal,check,windows,software,offer,Microsoft等词汇作为领域相关特征。但相关研究并未给出这些关键词的选择方法或选择的基本原则,不具有可解释性和可再现性。7. 近年文体特征相关研究近五年文体风格相关研究主要如下。从字符层面,Ali等基于字符Trigram提出新特征TFITF并应用于聊天机器人和英文小说语料,发现单独使用时其效果受语料规模影响明显[65],Chaurasia等检测了文本单词首字符、中间字符、结束字符的Ngram,指出仅使用首字符Bigram和Trigram能有效识别作者[87]。从词汇层面Fan Mengdi等认为抽取词汇特征前不应去停用词和还原词性,否则会丢失作者风格信息[66]。从句法层面,Zhang C.提出在传统多层面特征集上补充时态、语态、主题无关词汇POS和句法依存分析特征能改善作者身份识别性能[43]; Zamani等提出以词汇和句法特征的极大似然估计分布模型作为特征集,并给出特征集间距离的计算方法和特征选择方法,增强了多层面特征集的可解释性[67],Iqbal等探索了词汇拼写错误和句法错误特征在电子邮件作者识别中的应用[64],吕英杰等抽取词汇、句法、结构和内容特征构成多层面特征集,采用支持向量机在BBS论坛和博客文本上获得80%左右的作者识别准确率[20]。3.1.3文体风格特征评述从现有文献看,文体风格选择主要有如下两个趋势。一是尽量少对原始语料进行加工,抽取字Ngram、词Ngram等,其缺点在于: 字Ngram、词Ngram实际上是内容相关的,因此特征抽取方法无法做到真正的内容独立,不具有主题独立性。二是对语料进行POS标注、依存关系分析等句法分析,抽取特殊表达方式和篇章、段落、句子等结构特征。这一类特征的优点是具有主题独立性,方法可以通用于不同语料,缺点是对语料的过度加工容易丢失原本的作者特征,却加入后期加工所带来的噪声。国内外作者身份识别相关文献中使用的特征已经超过数千种,目前还没有公认的最有效的文体风格特征集。由于词汇、语法、结构或语义特征能够捕捉到不同层面的文体风格差异,因此总体上,组合多层面特征集合能够提高作者身份识别正确率,所以文体风格特征的研究趋势为: 抽取更具有表现力的多层面特征集来提高作者身份识别准确率。3.2文体风格特征选择特征选择是指为了去除对分类知识发现任务没有帮助的特征和提高算法运行效率,在初始表示模型的N个特征中选择出一个有n个n