登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書

『簡體書』文本作者身份识别--基于机器学习与计算语言学

書城自編碼: 2954345
分類:簡體書→大陸圖書→計算機/網絡人工智能
作者: 祁瑞华
國際書號(ISBN): 9787302455769
出版社: 清华大学出版社
出版日期: 2017-02-01
版次: 1 印次: 1
頁數/字數: 174/287000
書度/開本: 32开 釘裝: 平装

售價:HK$ 71.1

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
何以中国·何谓唐代:东欧亚帝国的兴亡与转型
《 何以中国·何谓唐代:东欧亚帝国的兴亡与转型 》

售價:HK$ 87.4
一间只属于自己的房间 女性主义先锋伍尔夫代表作 女性精神独立与经济独立的象征,做自己,比任何事都更重要
《 一间只属于自己的房间 女性主义先锋伍尔夫代表作 女性精神独立与经济独立的象征,做自己,比任何事都更重要 》

售價:HK$ 44.6
泉舆日志 幻想世界宝石生物图鉴
《 泉舆日志 幻想世界宝石生物图鉴 》

售價:HK$ 134.2
养育女孩 : 官方升级版
《 养育女孩 : 官方升级版 》

售價:HK$ 50.4
跨界:蒂利希思想研究
《 跨界:蒂利希思想研究 》

售價:HK$ 109.8
千万别喝南瓜汤(遵守规则绘本)
《 千万别喝南瓜汤(遵守规则绘本) 》

售價:HK$ 44.7
大模型启示录
《 大模型启示录 》

售價:HK$ 112.0
东法西渐:19世纪前西方对中国法的记述与评价
《 东法西渐:19世纪前西方对中国法的记述与评价 》

售價:HK$ 201.6

 

編輯推薦:
1.与传统文学作品的作者身份识别相比,网络文本的作者身份识别问题有着新的技术特征。网络文本以数字和符号化的形式流动,更具隐秘性,传统条件下的作者身份识别技术受到前所未有的挑战。如何使作者身份识别技术与在线信息中隐含的细微文体风格特征相匹配,从而为网上热点舆情和不良信息的监控与追踪提供分析依据,是当前理论和应用研究的前沿和热点。2.本书结合互联网应用环境的特点,以程序化、数字化和精密化的方式,通过从词汇、语法、结构和语义多个层面分析在线信息的作者归属,为网上不良信息监控提供分析依据,为追踪不良信息源头提供有效技术手段和基础数据,也可以在司法领域为诽谤、契约纠纷等民事案件及造谣、散布危害公共安全信息等刑事案件的证据收集和判定提供技术支持。
內容簡介:
文本作者身份识别广泛应用于文学作品、新闻稿、商品评论、垃圾邮件的作者身份鉴定以及法庭取证等领域。随着大数据时代网络文本的大量涌现,匿名文本的作者身份识别在网络取证、不良舆情监控等任务中的应用成为国内外学者关注的热点。
本书探讨了文本作者身份识别的关键问题、基本方法和*研究进展,并应用于实践得以验证。全书共7章,分为3部分: 第1部分包括第1~2章,介绍文本作者身份识别的基本概念、研究内容、建模基本方法和主要应用领域; 第2部分包括第3~4章,介绍现有的作者身份文体特征、作者身份识别算法、性能评价指标、主要实验平台等; 第3部分包括第5~7章,介绍本书对作者身份识别研究的贡献和在中英文博客、微博语料上的实验验证。
本书主要面向文本挖掘领域的研究生和相关专业的研究人员,既可以作为文本分析与处理研究的教科书,也可以作为政府相关部门产品研发人员的参考书。
目錄
目录
第1章绪论

1.1基本概念

1.1.1作者身份识别

1.1.2作者身份描述

1.1.3作者聚类分析

1.1.4机器学习

1.1.5计算语言学

1.2作者身份识别研究

1.2.1文体风格特征研究内容

1.2.2作者身份建模技术研究内容

1.3作者身份建模基本方法

1.3.1基于侧面的作者身份建模

1.3.2基于实例的作者身份建模

1.4作者身份识别面临的主要问题

1.5本章小结

第2章作者身份分析应用领域

2.1英美文学作品作者身份识别

2.2中文作品作者身份识别

2.2.1中文自动分词

2.2.2中文自动分词主要方法

2.2.3中文作者身份识别相关研究

2.3其他语种作者身份识别

2.4网络文本作者身份识别

2.5作者身份属性分析

2.6作者身份法庭取证

2.7本章小结

第3章文体风格特征

3.1文体风格特征类别

3.1.1一元和多元文体风格特征

3.1.2多层面文体风格特征

3.1.3文体风格特征评述

3.2文体风格特征选择

3.3本章小结

第4章作者身份识别算法

4.1主要算法

4.1.1支持向量机算法

4.1.2朴素贝叶斯算法

4.1.3最近邻算法

4.1.4决策树算法

4.1.5神经网络算法

4.1.6其他方法

4.2性能评价指标

4.3实验平台

4.4本章小结

第5章英文博客作者身份识别

5.1博客作者身份研究

5.2英文博客作者文体特征模型

5.2.1词汇层面特征

5.2.2浅层句法特征

5.2.3基于依存关系的特征

5.2.4基于词性标注的特征

5.2.5结构层面特征

5.3博客作者身份识别实验

5.3.1数据准备

5.3.2特征组合实验

5.3.3单独使用各组特征实验

5.4本章小结

第6章中文微博作者身份识别

6.1微博作者身份相关研究

6.1.1微博作者身份研究现状

6.1.2中文微博作者身份研究现状

6.2研究思路

6.3中文微博作者文体特征模型

6.3.1词汇特征

6.3.2标点特征

6.3.3微博特征

6.3.4功能词特征

6.3.5词性标注特征

6.3.6依存句法特征

6.4中文微博作者身份识别实验

6.4.1数据准备

6.4.23位作者LibSVM实验结果及分析

6.4.38位作者身份识别实验

6.4.4特征集组合C4.5实验

6.4.5单独使用各组特征C4.5实验

6.4.6单独使用各组特征LibSVM实验

6.4.7特征选择实验

6.5本章小结

第7章基于依存关系的中文微博作者性别识别

7.1作者性别属性相关研究

7.2作者性别文体特征

7.2.1依存关系

7.2.2性别识别主要文体特征

7.3微博作者性别识别实验

7.3.1数据准备

7.3.2LibSVM、NBC、IBK和C4.5中文微博
作者性别识别

7.3.3单独使用各组特征实验

7.4本章小结

参考文献
內容試閱
前言
文本作者身份识别广泛应用于文学作品、新闻稿、商品评论、垃圾邮件的作者身份鉴定以及法庭取证等领域。随着大数据时代网络文本的大量涌现,匿名文本的作者身份识别在网络取证、不良舆情监控等任务中的应用成为国内外学者关注的热点。文本作者身份识别研究主要通过文体风格特征建模表达作者无意识的写作习惯,从而自动映射匿名文本作者归属。相关研究经过百余年的发展,奠定了良好的理论和应用基础,已经广泛应用于文学作品或新闻报道等传统语料的作者身份识别。近年来网络文本作者身份识别成为研究热点,语料涉及电子邮件、网络评论、BBS和博客等,出现了数据海量、特征维度巨大、每个用户可得训练文本少等新特点,这些都是文本作者身份识别研究面临的新挑战。本书探讨了文本作者身份识别的关键问题、基本方法和最新研究进展,并应用于实践得以验证。全书共7章,共分为3部分。第1部分包括第1~2章,介绍文本作者身份识别的基础知识。其中,第1章介绍了作者身份识别的基本概念、研究内容、建模基本方法和面临的主要问题; 第2章分类归纳了作者身份分析的主要应用领域。第2部分包括第3~4章,介绍现有的作者身份文体特征和作者身份识别算法。其中,第3章介绍了作者身份文体特征类别和特征选择的一般方法; 第4章介绍了作者身份识别的主要算法、性能评价指标和主要实验平台。第3部分包括第5~7章,介绍本书对作者身份识别研究的贡献和实验验证。其中,第5章建立了英文博客作者身份文体特征模型,在公开博客语料上的实验证实了模型在短文本语料的有效性; 第6章建立了中文微博作者文体特征模型,在中文微博语料上证实了模型在短篇幅网络文本上的有效性; 第7章在中文微博作者性别识别实验中进一步拓展了文体特征模型的应用范围。本书主要面向文本挖掘领域的研究生和相关专业的研究人员,既可以作为文本分析与研究的教科书,也可以作为政府相关部门产品研发人员的参考书。本书能够尽快完成出版,首先要感谢美国Purdue大学的Marcus Rogers教授、Julia Taylor教授和我的同事霍跃红老师、刘彩虹老师、郭旭老师等,以及参与数据收集和整理的学生,本书的若干专题研究都与他们进行过深入的讨论。还要感谢清华大学出版社的编辑,是他们的鼓励和细致工作使得本书得以顺利出版。最后感谢在本书中所引用参考文献的作者和公开语料库的开发者,本书的写作从他们的研究成果中获取了很多营养,正是他们的勤奋以及分享的科研精神引领和启发我完成本书的写作。本书研究获得以下研究项目的资助: 教育部第50批留学回国人员科研启动基金典籍英译国外读者观点文本主题挖掘研究(教外司[2015]1098); 国家社科基金一般项目典籍英译国外读者网上评论观点挖掘研究(15BYY028),在此表示感谢。虽然我始终以认真严谨的态度对待本书的撰写工作,但很多研究尚属于探索阶段,书中难免有不足之处,恳请广大读者批评指正!祁瑞华2016年7月


第3章文体风格特征作者身份识别研究基于语言学研究领域中的文本分析,通过利用统计学方法分析文体风格来判断一段作品是否由这个作者创作。传统的作者身份识别技术主要应用于文学作品归属问题,近年来国内外学者正尝试将其应用于现实世界中的文本,如电子邮件、博客、在线信息以及源代码的作者归属问题。作者身份识别研究有两个关键问题: ①选择哪些文体风格特征; ②选取何种作者身份识别技术。本章讨论作者身份识别问题中最基本的问题之一: 文体风格特征及其在国内外的研究现状和趋势。文体风格特征是指能够有效识别作者身份的独特文档属性和写作风格标识等语言参数。理论文体学的作家决定论指出,作品风格产生于作者对其思想行为的合理安排[4],作者在其作品中会自觉或不自觉地融入其个性和个人社会背景。作者身份识别研究的基础就是对文体风格特征的比较分析,关键问题在于如何捕捉这些作者独特的文档属性和写作风格。国内外相关研究中选择的文体风格特征主要可分为字符特征、词汇特征、句法特征、结构特征、语义特征和领域相关特征。本章主要从一元和多元文体特征、多层面文体特征,以及文体特征选择三个方面探讨,还对文体风格特征的选择方法进行了介绍。3.1文体风格特征类别3.1.1一元和多元文体风格特征
作者身份识别的定量研究始于Mendenhall T. C.从单词长度规律的角度对英美文学作品写作风格的分析[2],代表研究有Yule G. U.根据句子长度分析英文散文、传记和随笔等作品的写作风格[39],Effon B.等统计莎士比亚作品中的词汇量,用以判断匿名作品是否是莎士比亚本人所著[40],Baayen H.基于重写规则频率语法对Nijmegen标注语料库中20世纪60年代戏剧、犯罪小说和文学评论的作者进行分析等[41],这些早期研究主要基于一元文体风格特征,仅适用于特定语料。为了增强通用性,随后学者们在作者身份识别中引入多元特征,如Zhao Y.等从句法角度以365个功能词为特征对美联社TREC语料库文章进行作者识别[15],Hollingsworth C.采用DepWords编码替代句法依存关系来识别英文侦探小说的作者[42],Chaurasia M.等检测了英美文学作品中文本单词首字符、中间字符、结束字符的Ngram,指出仅使用首字符Bigram和Trigram能有效识别作者[87]。一元和多元文体风格特征研究如表3.1所示。
表3.1一元和多元文体风格特征研究
文体风格特征作者年份应 用 语 料
一元特征单词长度Mendenhall T. C.1887英美文学作品句子长度Yule G. U.1939英文散文、传记和随笔等词汇量Efron B.1976莎士比亚作品重写规则频率Baayen H.1996Nijmegen标注语料库中20世纪60年代戏剧、犯罪小说和文学评论多元特征
功能词Zhao Y.2005美联社TREC语料库单词首字符、中间和结束字符NgramM. Chaurasia2011英美文学作品DepWords编码Hollingsworth C.2012英文侦探小说
传统语料的作者身份识别研究经过100多年的发展,从最初的一元特征到多元特征,作者身份识别准确度不断提高,为作者身份识别研究奠定了坚实的理论和应用基础。但一元文体风格特征仅适用于特定语料,多元特征虽然能增强通用性,但准确率仍有待提高,并且这些早期研究限于文学作品等长文本,候选作者通常为2~5人,如果将传统方法应用于短文本语料或候选作者数量增加时,其准确率明显下降。3.1.2多层面文体风格特征对多层面特征进行组合是进一步提高作者身份识别准确率的有效方法,相关研究有Gamon M.基于语法分析建立多层面组合特征集,应用于勃朗特三姐妹作品,验证了其有效性[5]。Zhang C.等在21本英文作品和路透社语料上抽取多层面特征,证明了依存关系能够描述相对稳定的语法模式和谓词参数关系,有助于提高作者身份识别准确率[43]。Abbasi证实了文本结构特征与传统特征结合能够提高作者身份识别的准确率,并在滑动窗口中以KL变换发现文体风格变化构成笔迹特征,对25名作者的电子邮件和商品评论文本进行识别,获得了90%以上的准确率[13]。目前文体特征研究有两个主要趋势: 一是以Stamatatos为代表的学者认为[4]: 过度处理文本而抽取出的特征,人工处理的痕迹太重,反而影响了作者身份风格的表现; 二是认为深层句法分析等深度处理的文体特征能够发现内容无关的文体风格,诸如句法的结构、依存分析等。此外,相关研究表明句法特征单独使用的效果不如词汇特征,但与其他特征结合使用能够改进作者身份识别性能[4]。根据文体风格特征对语言学计算的需求和复杂度,可以将多层面文体风格特征梳理分类为字符特征、词汇特征、句法特征、结构特征、语义特征以及领域相关特征。1. 字符特征字符特征将文本看作字符序列,抽取诸如字母大小写频率、数字频率、标点符号频率等文本特征。其中,字符Ngram能表现上下文信息、标点符号和字母大小写搭配习惯等,还能够捕捉到文本中的语法错误和拼写错误等细微特征,从而发现作者独特的写作风格痕迹,是传统文体风格研究中最有效特征之一[4]。这一类特征的优势在于对计算能力要求低、不需要特殊的分析工具并适用于多语种环境,其缺点在于统计字符Ngram特征的维度过高容易包含冗余信息。此外,这种方法得到的特征集维度非常高,通常在几千维以上,高维数据不仅增加了分类的难度,还影响算法的执行效率。字符层面文本特征如表3.2所示。
表3.2字符层面文体特征
编号字 符 特 征编号字 符 特 征
1字符总数6Tab数字符总数2字母数字符总数7~3226英文字母字符总数
3大写字母字符总数4数字字符字符总数5空格数字符总数33~5321个特殊字符字符总数:
~,@,#,$,%,^,&,*,-,_,=, ,,somebody someone something such than that thetheir them these they this those though through till to toward towards under unless unlike until up upon us used via we what whatever when where whether which while who whoever whom whose will with within without worth would yes you your 等
中文功能词: 介词、副词、助词、叹词、连接词和拟声词等深层句法特征句法依存关系Ngram统计DepWords编码替代传统句法依存关系
4. 结构特征结构特征包括文本组织和布局相关的特征,包括致敬语和告别语、签名档、HTML标记分布、字体大小和颜色分布、段落数、段落长、平均句长等,在电子邮件、博客或微博等短文本上尤为有效。如Shalhoub G.等采用表情符号、文本颜色、文本大小、嵌入图片和嵌入超链接作为结构特征,对英文电子邮件的作者身份进行识别[90]。结构层面文体特征如表3.5所示。5. 语义特征语义特征的尝试主要包括生成语义关系图[5]、基于WordNet抽取英文隐含语义分析词汇特征[17]、利用HowNet语义知识库筛选中文词汇作为作者写作风格特征[18]等,这些方法均对作品长度有一定要求,通常与语料的主题相关,不具有通用性,这里不做详细论述。
表3.5结构层面文体特征
编号结 构 特 征编号结 构 特 征1平均句长12是否有段落缩进2总行数13签名档是否有电子邮件3总句数14签名档是否有电话号码4总段数15签名档是否有URL5平均每段句数16倒装总句数6平均每段字符数17衔接词That总句数7平均每段词数18并列连词总句数8是否有致敬语19因果连词总句数9是否有段间隔符20转折连词总句数10是否有引用21时间连词总句数11引用在段中位置22假设连词总句数
6. 领域相关特征为提高准确率,学者们还探讨了领域相关特征,主要思路是抽取与主题相关的关键词加入到多层面特征集[19],例如在软件销售论坛上使用deal,obo,sale,wtb,thx,paypal,check,windows,software,offer,Microsoft等词汇作为领域相关特征。但相关研究并未给出这些关键词的选择方法或选择的基本原则,不具有可解释性和可再现性。7. 近年文体特征相关研究近五年文体风格相关研究主要如下。从字符层面,Ali等基于字符Trigram提出新特征TFITF并应用于聊天机器人和英文小说语料,发现单独使用时其效果受语料规模影响明显[65],Chaurasia等检测了文本单词首字符、中间字符、结束字符的Ngram,指出仅使用首字符Bigram和Trigram能有效识别作者[87]。从词汇层面Fan Mengdi等认为抽取词汇特征前不应去停用词和还原词性,否则会丢失作者风格信息[66]。从句法层面,Zhang C.提出在传统多层面特征集上补充时态、语态、主题无关词汇POS和句法依存分析特征能改善作者身份识别性能[43]; Zamani等提出以词汇和句法特征的极大似然估计分布模型作为特征集,并给出特征集间距离的计算方法和特征选择方法,增强了多层面特征集的可解释性[67],Iqbal等探索了词汇拼写错误和句法错误特征在电子邮件作者识别中的应用[64],吕英杰等抽取词汇、句法、结构和内容特征构成多层面特征集,采用支持向量机在BBS论坛和博客文本上获得80%左右的作者识别准确率[20]。3.1.3文体风格特征评述从现有文献看,文体风格选择主要有如下两个趋势。一是尽量少对原始语料进行加工,抽取字Ngram、词Ngram等,其缺点在于: 字Ngram、词Ngram实际上是内容相关的,因此特征抽取方法无法做到真正的内容独立,不具有主题独立性。二是对语料进行POS标注、依存关系分析等句法分析,抽取特殊表达方式和篇章、段落、句子等结构特征。这一类特征的优点是具有主题独立性,方法可以通用于不同语料,缺点是对语料的过度加工容易丢失原本的作者特征,却加入后期加工所带来的噪声。国内外作者身份识别相关文献中使用的特征已经超过数千种,目前还没有公认的最有效的文体风格特征集。由于词汇、语法、结构或语义特征能够捕捉到不同层面的文体风格差异,因此总体上,组合多层面特征集合能够提高作者身份识别正确率,所以文体风格特征的研究趋势为: 抽取更具有表现力的多层面特征集来提高作者身份识别准确率。3.2文体风格特征选择特征选择是指为了去除对分类知识发现任务没有帮助的特征和提高算法运行效率,在初始表示模型的N个特征中选择出一个有n个n

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.