新書推薦:
《
别怕,试一试
》
售價:HK$
67.9
《
人才基因(凝聚30年人才培育经验与智慧)
》
售價:HK$
103.4
《
深度学习详解
》
售價:HK$
114.8
《
李白传(20世纪文史学家李长之经典传记)
》
售價:HK$
45.8
《
津轻:日本无赖派文学代表太宰治自传性随笔集
》
售價:HK$
66.7
《
河流之齿
》
售價:HK$
59.8
《
新经济史革命:计量学派与新制度学派
》
售價:HK$
89.7
《
盗墓笔记之秦岭神树4
》
售價:HK$
57.3
內容簡介:
Terence Parr: The Definitive ANTLR 4 Reference ISBN 9781934356999.Copyright ?2012 The Pragmatic Programmers, LLC.Simplified Chinese translation copyright ?2017 by China Machine Press.No part of this book may be reproduced or transmitted in any form or by any means, electronic or mechanical, including photocopying, recording or any information storage and retrieval system, without permission, in writing, from the publisher.All rights reserved.本书中文简体字版由The Pragmatic Programmers, LLC授权机械工业出版社在全球独家出版发行。未经出版者书面许可,不得以任何方式抄袭、复制或节录本书中的任何部分。
目錄 :
Contents目录
译者序
前言
致谢
第一部分 ANTLR和计算机语言简介
第1章初识ANTLR3
1.1安装ANTLR3
1.2运行ANTLR并测试识别程序5
第2章纵观全局9
2.1从ANTLR元语言开始9
2.2实现一个语法分析器11
2.3你再也不能往核反应堆多加水了13
2.4使用语法分析树来构建语言类应用程序15
2.5语法分析树监听器和访问器17
第3章入门的ANTLR项目20
3.1ANTLR工具、运行库以及自动生成的代码21
3.2测试生成的语法分析器23
3.3将生成的语法分析器与Java程序集成25
3.4构建一个语言类应用程序26
第4章快速指南29
4.1匹配算术表达式的语言30
4.2利用访问器构建一个计算器35
4.3利用监听器构建一个翻译程序38
4.4定制语法分析过程41
4.5神奇的词法分析特性45
第二部分 使用ANTLR语法开发语言类应用程序
第5章设计语法53
5.1从编程语言的范例代码中提取语法54
5.2以现有的语法规范为指南56
5.3使用ANTLR语法识别常见的语言模式56
5.4处理优先级、左递归和结合性62
5.5识别常见的词法结构66
5.6划定词法分析器和语法分析器的界线71
第6章探索真实的语法世界74
6.1解析CSV文件75
6.2解析JSON77
6.3解析DOT语言83
6.4解析Cymbol语言88
6.5解析R语言91
第7章将语法和程序的逻辑代码解耦98
7.1从内嵌动作到监听器的演进99
7.2使用语法分析树监听器编写程序100
7.3使用访问器编写程序103
7.4标记备选分支以获取精确的事件方法105
7.5在事件方法中共享信息107
第8章构建真实的语言类应用程序114
8.1加载CSV数据114
8.2将JSON翻译成XML117
8.3生成调用图121
8.4验证程序中符号的使用124
第三部分 高级特性
第9章错误报告与恢复133
9.1错误处理入门133
9.2修改和转发ANTLR的错误消息137
9.3自动错误恢复机制141
9.4勘误备选分支152
9.5修改ANTLR的错误处理策略152
第10章属性和动作156
10.1使用带动作的语法编写一个计算器157
10.2访问词法符号和规则的属性162
10.3识别关键字不固定的语言165
第11章使用语义判定修改语法分析过程168
11.1识别编程语言的多种方言169
11.2关闭词法符号172
11.3识别歧义性文本174
第12章掌握词法分析的“黑魔法”180
12.1将词法符号送入不同通道181
12.2上下文相关的词法问题184
12.3字符流中的孤岛194
12.4对XML进行语法分析和词法分析198
第四部分 ANTLR参考文档
第13章探究运行时API209
13.1包结构概览209
13.2识别器210
13.3输入字符流和词法符号流212
13.4词法符号和词法符号工厂213
13.5语法分析树215
13.6错误监听器和监听策略216
13.7提高语法分析器的速度217
13.8无缓冲的字符流和词法符号流217
13.9修改ANTLR的代码生成机制219
第14章移除直接左递归221
14.1直接左递归备选分支模式222
14.2左递归规则转换223
第15章语法参考226
15.1语法词汇表226
15.2语法结构229
15.3文法规则232
15.4动作和属性241
15.5词法规则246
15.6通配符与非贪婪子规则250
15.7语义判定253
15.8选项257
15.9ANTLR命令行参数259
参考文献263
內容試閱 :
Preface前言ANTLR是一款强大的语法分析器生成工具,可用于读取、处理、执行和翻译结构化的文本或二进制文件。它被广泛应用于学术领域和工业生产实践,是众多语言、工具和框架的基石。Twitter搜索使用ANTLR进行语法分析,每天处理超过20亿次查询;Hadoop生态系统中的Hive、Pig、数据仓库和分析系统所使用的语言都用到了ANTLR;Lex Machina将ANTLR用于分析法律文本;Oracle公司在SQL开发者IDE和迁移工具中使用了ANTLR;NetBeans公司的IDE使用ANTLR来解析C++;Hibernate对象-关系映射框架(ORM)使用ANTLR来处理HQL语言。
除了这些鼎鼎大名的项目之外,还可以利用ANTLR构建各种各样的实用工具,如配置文件读取器、遗留代码转换器、维基文本渲染器,以及JSON解析器。我编写了一些工具,用于创建数据库的对象-关系映射、描述三维可视化以及在Java源代码中插入性能监控代码。我甚至为一次演讲编写了一个简单的DNA模式匹配程序。
一门语言的正式描述称为语法(grammar),ANTLR能够为该语言生成一个语法分析器,并自动建立语法分析树——一种描述语法与输入文本匹配关系的数据结构。ANTLR也能够自动生成树的遍历器,这样你就可以访问树中的节点,执行自定义的业务逻辑代码。
本书既是ANTLR 4的参考手册,也是解决语言识别问题的指南。你会学到如下知识:
识别语言样例和参考手册中的语法模式,从而编写自定义的语法。
循序渐进地为从简单的JSON到复杂的R语言编写语法。同时还能学会解决XML和Python中棘手的识别问题。
基于语法,通过遍历自动生成的语法分析树,实现自己的语言类应用程序。
在特定的应用领域中,自定义识别过程的错误处理机制和错误报告机制。
通过在语法中嵌入Java动作(action),对语法分析过程进行完全的掌控。
本书并非教科书,所有的讨论都是基于实例的,旨在令你巩固所学的知识,并提供语言类应用程序的基本范例。
本书的读者对象本书尤其适用于对数据读取器、语言解释器和翻译器感兴趣的开发者。虽然本书主要利用ANTLR来完成这些工作,你仍然可以学到很多有关词法分析器和语法分析器的知识。初学者和专家都需要本书来高效地使用ANTLR 4。如果希望学习第三部分中的高级特性,你需要先了解之前章节中的ANTLR基础知识。此外,读者还需要具备一定的Java功底。
Honey Badger版本ANTLR 4的版本代号是“Honey Badger”,这个名字来源于一段著名的YouTube短片The Crazy Nastyass Honey Badger(网址为:http:www.youtube.comwatch?v=4r7wHMg5Yjg)中的勇敢无畏的主角——一只蜜獾。它敢吃你给它的任何东西,根本不在乎那是什么!
ANTLR 4有哪些神奇之处ANTLR 4引入了一些新功能,降低了入门门槛,使得语法和语言类应用程序的开发更加容易。最重要的新特性在于,ANTLR 4几乎能够处理任何语法(除了间接左递归,稍后会提到)。在ANTLR将你的语法转换成可执行的、人类可读的语法分析代码的过程中,语法冲突或者歧义性警告不会再出现。
无论多复杂的语法,只要你提供给ANTLR自动生成的语法分析器的输入是合法的,该语法分析器就能够自动识别之。当然,你需要自行保证该语法能够准确地描述目标语言。
ANTLR语法分析器使用了一种名为自适应LL*或者ALL*(读作“all star”)的新技术,它是由我和Sam Harwell一起开发的。ALL*是ANTLR 3中的LL*的扩展,在实际生成的语法分析器执行前,它能够在运行时以动态方式对语法执行分析,而非先前的静态方式。由于ALL*语法分析器能够访问实际的输入文本,通过反复分析语法的方式,它最终能够决定如何识别输入文本。相比之下,静态分析必须考虑所有可行的(无限长的)输入序列。
在实践中,拥有ALL*意味着你无须像在其他语法分析器生成工具(包括ANTLR 3)中那样,扭曲语法以适应底层的语法分析策略。如果你曾经为ANTLR 3的歧义性警告和yacc的归约归约冲突(reducereduce conflict)而抓狂,ANTLR 4就是你的不二之选!
另外一个强大的新功能是ANTLR 4极大地简化了匹配某些句法结构(如编程语言中的算术表达式)所需的语法规则。长久以来,处理表达式都是ANTLR语法(以及手工编写的递归下降语法分析器)的难题。识别表达式最自然的语法对于传统的自顶向下的语法分析器生成器(如ANTLR 3)是无效的。现在,利用ANTLR 4,你可以通过如下规则匹配表达式:
类似expr的自引用规则是递归的,更准确地说,是左递归(left recursive)的,因为它的至少一个备选分支直接引用了它自己。
ANTLR 4自动将类似expr的左递归规则重写成了等价的非左递归形式。唯一的约束是左递归必须是直接的,也就是说规则直接引用自身。一条规则不能引用另外一条规则,如果后者的备选分支之一在左侧直接引用了前者(而没有匹配一个词法符号)。详见5.4节。
除了上述两项与语法相关的改进,ANTLR 4还使得编写语言类应用程序更加容易。ANTLR生成的语法分析器能够自动建立名为语法分析树(parse tree)的视图,其他程序可以遍历此树,并在所需处理的结构处触发回调函数。在先前的ANTLR 3中,用户需要补充语法来创建树。除了自动建立树结构之外,ANTLR 4还能自动生成语法分析树遍历器的实现:监听器(listener)或者访问器(visitor)。监听器与在XML文档的解析过程中响应SAX事件的处理器相似。
由于拥有以下几点ANTLR 3所不具备的新特性,ANTLR 4显得非常容易上手:
最大的改变是ANTLR 4降低了语法中内嵌动作(代码)的重要性,取而代之的是监听器和访问器。新机制将语法和应用的逻辑代码解耦,使得应用程序本身被封装起来,而非散落在语法的各处。在没有内嵌动作的情况下,你可以在多个程序中复用同一份语法,甚至都无须重新编译生成的语法分析器。虽然ANTLR仍然允许内嵌动作的存在,但是在ANTLR 4中,它们更像是一种进阶用法。这样的行为能够最大程度地掌控语法分析过程,但其代价是语法复用性的丧失。
由于ANTLR能够自动生成语法分析树和树的遍历器,在ANTLR 4中,你无须再编写树语法。取而代之的是一些广为人知的设计模式,如访问者模式。这意味着,在学会了ANTLR语法之后,你就可以重回自己熟悉的Java领域来实现真正的语言类应用程序。
ANTLR 3的LL*语法分析策略不如ANTLR 4的ALL*强大,所以ANTLR 3为了能够正确识别输入的文本,有时候不得不进行回溯。回溯的存在使得语法的调试格外困难,因为生成的语法分析器会对同样的输入进行(递归的)多趟语法分析。回溯也为语法分析器在面对非法输入时给出错误消息设置了重重障碍。
ANTLR 4是25年前我读研究生时所走的一小段弯路的成果。我想,我也许会稍微改变我曾经的座右铭。
为什么不花5天时间编程,来使你25年的生活自动化呢?ANTLR 4正是我所期望的语法分析器生成器,现在,我终于能够回头去研究我原先在20世纪80年代试图解决的问题——假如我还记得它的话。
本书的主要内容本书是你所能找到的有关ANTLR 4的信息源中最好、最完整的。免费的在线文档提供了足够多有关基础语法的句法和语义的资料,不过没有详细解释ANTLR的相关概念。在本书中,识别语言的语法模式和将其表述为ANTLR语法的内容是独一无二的。贯穿全书的示例能够在构建语言类应用程序方面助你一臂之力。本书可帮助你融会贯通,成为ANTLR专家。
本书由四部分组成。
第一部分介绍了ANTLR,提供了一些与语言相关的背景知识,并展示了ANTLR的一些简单应用。在这一部分中,你会了解ANTLR的句法以及主要用途。
第二部分是一部有关设计语法和使用语法来构建语言类应用程序的“百科全书”。
第三部分展示了自定义ANTLR生成的语法分析器的错误处理机制的方法。随后,你会学到在语法中嵌入动作的方法——在某些场景下,这样做比建立树并遍历之更简单,也更有效率。此外,你还将学会使用语义判定(semantic predicate)来修改语法分析器的行为,以便解决一些充满挑战的识别难题。
本部分的最后一章解决了一些充满挑战的识别难题,例如识别XML和Python中的上下文相关的换行符。
第四部分是参考章节,详细列出了ANTLR语法元语言的所有规则和ANTLR运行库的用法。
完全不了解语法和语言识别工具的读者请务必从头开始阅读。具备ANTLR 3使用经验的用户可从第4章开始阅读以学习ANTLR 4的新功能。
有关ANTLR的更多在线学习资料在http:www.antlr.org上,你可以找到ANTLR、ANTLRWorks2图形界面开发环境、文档、预制的语法、示例、文章,以及文件共享区。技术支持邮件组是一个对初学者十分友好的公开讨论组。
Terence Parr2012年11月于旧金山大学致谢Acknowledgements大约25年前,我开始致力于ANTLR的相关工作。那时,在许多人的帮助下,ANTLR工具的句法和功能逐渐成形,在此,我向他们致以由衷的感谢。要特别感谢的是Sam Harwell,他是ANTLR 4的另一位开发者。他不仅帮助我完成了此软件,而且在ALL*语法分析算法上做出了突出的贡献。Sam也是ANTLRWorks2语法IDE的开发者。
感谢以下人员对本书进行了技术审阅:Oliver Ziegermann、Sam Rose、Kyle Ferrio、Maik Schmidt、Colin Yates、Ian Dees、Tim Ottinger、Kevin Gisi、Charley Stran、Jerry Kuch、Aaron Kalair、Michael Bevilacqua-Linn、Javier Collado、Stephen Wolff以及Bernard Kaiflin。同时,我还要感谢那些在本书和ANTLR 4软件处于beta版本时报告问题的热心读者。尤其要感谢的是Kim Shrier和Graham Wideman,他们二位的审阅格外认真。Graham的审阅报告之仔细、翔实和广博,令我不知是该紧握他的手予以感谢,还是该为自己的疏漏羞愧难当。
最后,我还要感谢编辑Susannah Davidson Pfalzer,她一如既往地支持我完成了三本书的创作。她提出的宝贵建议和对本书内容的精雕细琢使本书更加完美。