新書推薦:
《
半导体纳米器件:物理、技术和应用
》
售價:HK$
181.7
《
创客精选项目设计与制作 第2版 刘笑笑 颜志勇 严国陶
》
售價:HK$
63.3
《
佛山华家班粤菜传承 华家班59位大厨 102道粤菜 图文并茂 菜式制作视频 粤菜故事技法 佛山传统文化 广东科技
》
售價:HK$
227.7
《
武人琴音(十周年纪念版 逝去的武林系列收官之作 形意拳一门三代:尚云祥、韩伯言、韩瑜的人生故事 凸显百年武人命运)
》
售價:HK$
44.9
《
剑桥斯堪的纳维亚戏剧史(剑桥世界戏剧史译丛)
》
售價:HK$
158.7
《
禅心与箭术:过松弛而有力的生活(乔布斯精神导师、世界禅者——铃木大拙荐)
》
售價:HK$
66.1
《
先进电磁屏蔽材料——基础、性能与应用
》
售價:HK$
227.7
《
可转债投资实战
》
售價:HK$
102.4
|
編輯推薦: |
(1)作者资深,质量有保障作者是NLP和AI领域的资深专家,大模型领域的先驱者,实战经验丰富。(2)理论扎实,让你透彻理解大模型核心技术深入解析大模型的基础理论、算法实现、数据构造流程、模型微调方法、偏好对齐方法等,并提供大量代码及注解。(3)注重实战,手把手教你开发大模型应用手把手教你如何构建简单但强大的应用程序,如角色扮演、信息抽取、知识问答、AI Agent等。(4)指导行业实战,让你将大模型真正落地深入探讨了领域特定大模型的应用,如法律、医疗、金融和教育等。
|
內容簡介: |
内容简介 这是一本系统梳理并深入解析大模型的基础理论、算法实现、数据构造流程、模型微调方法、偏好对齐方法的著作,也是一本能手把手教你构建角色扮演、信息抽取、知识问答、AI Agent等各种强大的应用程序的著作。本书得到了零一万物、面壁智能、通义千问、百姓AI、澜舟科技等国内主流大模型团队的负责人的高度评价和鼎力推荐。具体地,通过本书你能了解或掌握以下知识:(1)大型语言模型的基础理论,包括常见的模型架构、领域大型语言模型以及如何评估大模型的性能。(2)大模型微调的关键步骤:从数据的收集、清洗到筛选,直至微调训练的技术细节。(3)大模型人类偏好对齐方法,从基于人工反馈的强化学习框架到当前主流的对齐方法。(4)通过GPTs快速搭建个性化的专属ChatGPT应用。(5)通过开源模型在多种场景下搭建大模型应用,包括:表格查询、角色扮演、信息抽取、知识问答、AI Agent等。(6)掌握大模型Agent方法以及Agent常用框架。(7)基于LangChain框架构建一个AutoGPT应用。本书集大模型理论、实践和场景落地于一体,提供大量经详细注释的代码,方便读者理解和实操。总之,不管里是想深入研究大模型本身,还是进行大模型相关应用搭建,本书都应该能给你颇具价值的技术启发与思考,让你在大模型的路上快速前行,少走弯路。
|
關於作者: |
刘聪
中国药科大学硕士,从事NLP工作5年,任职云问NLP研究院首席算法架构师,MLNLP(机器学习算法与自然语言处理)社区的学术委员,长期关注人工智能前沿内容,知乎粉丝量8k ,知乎文章阅读量257万,拥有个人公众号,原创文章60余篇。主攻文本向量表征、问答系统、文本生成(AIGC)方向,并致力于开源工作,开源了中文首个Unilm预训练模型,中文GPT2项目,夸夸闲聊机器人(ChatBot)等相关项目。作为主要负责人,在多项自然语言处理比赛中获得前三甲的名次,发表多篇中文核心期刊,专利一篇,sci论文4篇。
|
目錄:
|
CONTENTS
目 录
前言
第1章 大型语言模型基础 1
1.1 Transformer基础 1
1.2 常用的大型语言模型 4
1.2.1 GPT系列模型 4
1.2.2 OPT模型 11
1.2.3 Bloom模型 12
1.2.4 GLM系列模型 12
1.2.5 LLaMA系列模型 14
1.2.6 Baichuan系列模型 16
1.2.7 Qwen系列模型 18
1.2.8 Skywork模型 19
1.3 领域大型语言模型 21
1.3.1 法律大型语言模型 21
1.3.2 医疗大型语言模型 24
1.3.3 金融大型语言模型 27
1.3.4 教育大型语言模型 29
1.4 大型语言模型评估 30
1.4.1 大型语言模型的评估
内容 30
1.4.2 大型语言模型的评估
方法 32
1.4.3 大型语言模型评估
榜单 33
1.5 本章小结 37
第2章 大型语言模型的常用
微调方法 38
2.1 数据构造与清洗 38
2.1.1 数据构造方法 39
2.1.2 数据清洗方法 43
2.2 分词器构造 44
2.2.1 分词器概述 44
2.2.2 BPE分词器 45
2.2.3 WordPiece分词器 52
2.2.4 Unigram分词器 56
2.2.5 SentencePiece分词器 58
2.2.6 词表融合 62
2.3 大型语言模型的微调方法 63
2.3.1 前缀调优 63
2.3.2 提示调优 64
2.3.3 P-Tuning v2 65
2.3.4 LoRA 65
2.3.5 DyLoRA 66
2.3.6 AdaLoRA 67
2.3.7 QLoRA 67
2.3.8 QA-LoRA 68
2.3.9 LongLoRA 69
2.3.10 VeRA 69
2.3.11 S-LoRA 70
2.4 基于PEFT的LLaMA模型
微调实战 71
2.4.1 项目介绍 71
2.4.2 数据预处理 71
2.4.3 模型微调 72
2.4.4 模型预测 77
2.5 本章小结 78
第3章 大型语言模型的人类
偏好对齐 79
3.1 基于人类反馈的强化学习框架 79
3.2 前沿偏好对齐方法 84
3.2.1 RRHF 84
3.2.2 RLAIF 85
3.2.3 DPO 87
3.2.4 APO 89
3.3 基于DPO的偏好对齐实战 90
3.3.1 数据集介绍 90
3.3.2 TRL框架介绍 92
3.3.3 训练代码解析 93
3.4 本章小结 96
第4章 创建个人专属的ChatGPT
—GPTs 97
4.1 GPTs初体验 97
4.2 GPTs的初阶使用 105
4.2.1 知识库的使用 105
4.2.2 内置插件的使用 108
4.2.3 知识库与内置插件的
结合使用 111
4.3 GPTs的高阶使用 113
4.4 本章小结 122
第5章 大型语言模型SQL任务
实战 123
5.1 公开数据集 123
5.1.1 英文公开数据集 123
5.1.2 中文公开数据集 128
5.2 主流方法 132
5.2.1 基于规则的方法 133
5.2.2 基于深度学习的方法 133
5.2.3 基于预训练语言模型的
方法 136
5.2.4 基于大型语言模型的
方法 136
5.3 Text2SQL任务实战 141
5.3.1 项目介绍 141
5.3.2 数据预处理 142
5.3.3 模型微调 147
5.3.4 模型预测 149
5.4 本章小结 150
第6章 大型语言模型的角色扮演
应用 151
6.1 角色扮演 151
6.1.1 大型语言模型如何进行
角色扮演 153
6.1.2 角色扮演数据的构造
方法 155
6.1.3 大型语言模型角色扮演的
能力评估 155
6.2 角色扮演实战测试 156
6.3 基于Baichuan的角色扮演模型
微调 159
6.3.1 项目介绍 159
6.3.2 数据预处理 160
6.3.3 模型微调 164
6.3.4 模型预测 171
6.4 本章小结 175
第7章 大型语言模型的对话要素
抽取应用 176
7.1 对话要素抽取 176
7.2 对话要素抽取实战测试 177
7.2.1 基于GPT-3.5 API进行
对话要素抽取 178
7.2.2 基于Qwen-1.8B模型
进行对话要素抽取 180
7.3 基于Qwen的对话要素抽取
模型微调 183
7.3.1 项目介绍 183
7.3.2 数据预处理 183
7.3.3 模型微调 190
7.3.4 模型预测 198
7.4 本章小结 202
第8章 Agent应用开发 203
8.1 Agent概述 203
8.2 Agent的主要模块 205
8.3 Agent的行为决策机制 207
8.4 主流Agent 框架 211
8.4.1 LangChain框架 211
8.4.2 LlamaIndex框架 214
8.4.3 AutoGPT框架 215
8.4.4 AutoGen 框架 216
8.4.5 SuperAGI框架 219
8.5 本章小结 221
第9章 基于知识库的大型语言
模型问答应用 222
9.1 基于知识库问答 222
9.2 向量数据库 224
9.2.1 文本的向量表征 225
9.2.2 向量的距离度量方法 228
9.2.3 常用的向量数据库 229
9.3 基于知识库的大型语言模型
问答实战 231
9.3.1 BGE微调 231<
|
內容試閱:
|
PREFACE
前 言
为什么要写本书
2022年11月30日,ChatGPT模型问世后,立刻在全球范围内掀起了轩然大波。无论是AI从业者还是非AI从业者,都在热议ChatGPT极具冲击力的交互体验和惊人的生成内容。各大厂纷纷入局大型语言模型,“百模”甚至“千模”大战的帷幕慢慢被拉开。很多企业和高校也随之开源了一些表现优异的大型语言模型,例如GLM系列模型、LLaMA系列模型、CPM系列模型、Yi系列模型、Baichuan系列模型、Qwen系列模型、Mistral系列模型、DeepSeek系列模型、Moss模型等。但是大型语言模型距离真正落地,还有一段艰难的路要走,例如:如何优化通用大型语言模型在领域上的效果,如何在某些场景中合理运用大型语言模型,如何确保生成内容的稳定性和安全性,如何确保大型语言模型可以在生产环境下稳定使用等。
2023年,很多人在做底座大型语言模型的搭建、领域大型语言模型的预训练或微调,我们也出版了《ChatGPT原理与实战:大型语言模型的算法、技术和私有化》一书,对大型语言模型的知识体系进行了细致的梳理,并且通过实战帮助读者从零开始搭建自己的ChatGPT模型。但很多读者反馈这本书对大型语言模型应用部分的讲解不够细致,并且随着技术和时代的发展,大型语言模型如何进行场景落地变得尤为重要。
因此,经过一番思考和准备之后,我们决定从大型语言模型的应用落地角度出发,进一步系统梳理大型语言模型的相关技术,帮助读者学习如何利用开源的大型语言模型优化自身领域或场景中的使用效果。
技术的变化是飞速的,在撰写本书初期,OpenAI的GPTs应用还没有提出,不少应用还没有以产品形态呈现。随着新的应用的推出,我们修改了相关章节,目的是希望本书介绍的大型语言模型相关技术更具前沿性。技术会持续更新换代,书中提到的很多技术也许在不远的将来会被更强大的技术所取代,但这并不影响我们学习这一系列技术,因为学习这些技术本身会引发更深层次的思考。
AI已来,学无止境,那么请各位与我们一起来迎接AGI(人工通用智能)的到来吧。
读者对象
AIGC(生成式人工智能)相关领域的师生。
初入AI行业的从业人员。
对大型语言模型感兴趣的读者。
本书特色
本书是一本集理论、实战、应用与落地于一体的大型语言模型力作,具备以下特点。
1)理论联系实际。本书不仅全面讲解了大型语言模型的核心理论,如Transformer架构和各种主流模型等,还深入探讨了领域特定模型的应用,如法律、医疗、金融和教育领域,有助于读者从多个维度理解和实践大型语言模型。
2)实战应用落地。本书详细介绍了如何构建具有个性化特点的大型语言模型应用,包括大型语言模型的微调方法、人类偏好对齐技术,以及构建具体应用的步骤等。通过实战案例和深入浅出的讲解,确保读者能够理解模型的构建和优化过程。
3)多样化应用场景。本书通过展示大型语言模型在多种场景下的应用潜力,如角色扮演、信息抽取、知识问答等,引导读者探索大型语言模型在不同领域的应用可能性,以激发读者的创新思维,最终实现大型语言模型的应用创新。
4)应用发展洞察。本书结合了我们在AI领域的丰富经验,从基础理论到实战应用,从简单模型应用到复杂系统应用,提供了全面的技术和应用视角。通过分析大型语言模型的行业应用、挑战、解决方案以及未来的发展趋势,为读者在迅速变化的技术领域中应用大型语言模型提供了宝贵的参考。
如何阅读本书
本书从逻辑上分为三部分。
第一部分(第1~3章)为基础知识,深入探讨大型语言模型的核心概念。第1章详细介绍大型语言模型的基础理论,包括常见的模型架构、领域大型语言模型以及如何评估模型的性能。第2章解析模型微调的关键步骤,即数据的收集、清洗到筛选,直至微调训练。第3章介绍如何将大型语言模型与人类偏好进行对齐,详细介绍了基于人工反馈的强化学习框架及当前主流的对齐方法,旨在提供一个全面的视角来帮助读者理解大型语言模型的发展和优化路径。
第二部分(第4~7章)着眼于大型语言模型的实际应用,指导读者构建简单但强大的应用程序。第4章展示如何利用GPTs来快速构建一个个性化的专属ChatGPT应用。第5章介绍Text2SQL应用的搭建,以及如何通过DeepSeek Coder模型进行定制化优化。第6章探讨角色扮演应用的构建,并介绍了如何通过微调Baichuan模型来增强体验。第7章聚焦于对话信息抽取应用的搭建,展示了如何通过微调Qwen模型来将大型语言模型有效地应用于实际场景中。
第三部分(第8~10章)带领读者挑战更加复杂的应用的搭建。第8章介绍大型语言模型Agent以及常用框架。第9章深入RAG(检索增强生成)模型的各个组件,展示了如何构建一个基于知识库的智能问答应用。第10章则基于LangChain框架,引导读者构建一个AutoGPT应用,展示了大型语言模型在自动化任务执行中的潜力。
本书内容丰富,旨在为读者提供一个结构清晰的学习路径,无论是大型语言模型的新手还是有经验的开发者,都能从中获得宝贵的知识和灵感。
勘误和支持
由于水平有限,书中难免存在一些遗漏或者不够准确的地方,恳请读者批评指正。如果读者发现了书中的错误,可以将其提交到 https://github.com/liucongg/LLMsBook。同时,读者遇到任何问题,欢迎发送邮件至邮箱 logcongcong@gmail.com,我们将在线上提供解答。期待得到读者的真挚反馈!
致谢
首先要感谢提出ChatGPT的每一位研究员,他们的坚持让人工智能进入大型语言模型时代,让我有机会体验到人工智能的魅力,也让我对人工智能有了新的认识。
感谢为大型语言模型开源社区贡献力量的每一个人,他们的无私奉献让更多人体会到了大型语言模型的美好。
感谢我硕士期间的导师侯凤贞以及本科期间的关媛、廖俊、胡建华、赵鸿萍、杨帆等老师,他们指引我走到今天。
感谢在“云问”共同奋斗的每一位充满创意和活力的朋友:李平、杨萌、李辰刚、张雅冰、孟凡华、李蔓、付晓东、丁兴华。由衷感谢云问公司创始人王清琛、茆传羽、张洪磊对我工作的支持,十分荣幸可以与各位在一家创业公司一起为人工智能落地而努力奋斗。
感谢关注“NLP工作站”的社区成员以及所有粉丝,他们的支持才让我有了不断创作的动力。
最后感谢我的爸爸妈妈、爷爷奶奶,他们将我培养成人,并时时刻刻给予我信心和力量!
谨以此书献给我亲爱的妻子崔天宇!
刘 聪
2024年2月
|
|