新書推薦:
《
郭建龙密码三部曲(套装:财政密码+哲学密码+军事密码)
》
售價:HK$
326.6
《
元宴
》
售價:HK$
216.2
《
米兰讲稿(翁贝托·埃科作品系列)
》
售價:HK$
227.7
《
无线重构世界:射频技术的过去、现在与未来
》
售價:HK$
124.2
《
海外中国研究·南方的将军:孙权传
》
售價:HK$
135.7
《
历史的深度
》
售價:HK$
66.7
《
中国漆艺技法全书:工艺原理与基础技法
》
售價:HK$
181.7
《
晋朝的死结
》
售價:HK$
101.2
|
內容簡介: |
本书旨在向语言学研究者介绍如何使用Python,快速、准确地处理大规模语言数据。本书由三大部分16章构成,具体内容如下: 第1章,语言研究与编程。简单介绍语言研究中编写Python程序处理数据的必要性。 第2、3章是第1部分,使用Python处理文本。该部分以编写程序处理数据为前提介绍了文本数据的编码、查找、替换(第2章),以及文本处理时的强大工具——正则表达式(第3章)。 第4至11章是第2部分,Python的基础。该部分列举英语分析实例,解释了Python的基本操作。处理日语文本时字符编码的处理较为复杂,所以该部分以英语文本为中心进行讲解。第4章,Python入门。解释为什么使用Python,并图文并茂的教授Python的安装步骤和Python中的变量类型。 第5章,使用Python读取文件。介绍如何通过Python读取并保存文本文件。 第6章,Python的检索。以if函数为中心,解释说明检索目标数据。应用例子是只输出符合条件的行,和删除空白行等。 第7章,循环。介绍for循环,及循环控制命令continue和break的使用。应用例子是给每行添加行号,确认文件中是否出现某一单词等。 第8章,列表。介绍列表的概念,以及如何切分数据为列表等操作。应用例子是制作单词表等。 第9章,制作单词频度表。该内容可以说在语言研究中是必不可少的操作。 第10章,文件操作。介绍文件夹内所有文件的批处理。 第11章,在Python中使用正则表达式。正则表达式这一强大工具和Python结合,进行匹配和替换操作。 第12至16章是第3部分,Python的应用:以日语为中心,同时介绍汉语分词。该部分在第2部分内容的基础上,介绍了如何编写利用日语词素分析(形态素解析)检索日语文本的程序。第12章介绍日语词素分析。 第13章,介绍汉语分词。很多语言研究者需要进行英语和汉语;日语和汉语的对照研究,在对照时首先需要对汉语进行分词。本章主要介绍汉语分词工具NLPIR和Python jieba分词工具的安装和使用。 第14章,Python处理日语文本。以日语为例,介绍指定编码读取日语文件以及日语词汇频次表的制作方法。同样内容可以应用到汉语。 第15章,用Python进行KWIC检索。在说明KWIC是什么的基础上,介绍KWIC的Python实现方式。 第16章,使用Python检索词语搭配。词语搭配也叫语块,是语料库研究的重要内容之一。本章主要介绍设置不同的条件,以及以不同方式显示抽出词语搭配及其前后语境。
|
關於作者: |
西安交通大学本硕。理工科背景,本科时通过计算机2级(C++)考试,有一定的编程基础。 日本名古屋大学国际开发研究科博士,专业教育工学。擅长大规模数据处理,精通Perl,Python,R等语言。在《日本语教育》杂志上发表过单著论文,在其他杂志上也发表过多篇论文。 曾任名古屋大学助教后,现为大连海事大学校聘副教授。 担任研究生语料库语言学、语言信息处理等课程。 于西安交通大学、大连东软信息学院进行过自然语言处理方面的讲座。 现已加入浙江大学求是特聘教授刘海涛老师团队,从事依存语法、计量语言学方面研究。
|
|