登入帳戶  | 訂單查詢  | 購物車/收銀台( 0 ) | 在線留言板  | 付款方式  | 運費計算  | 聯絡我們  | 幫助中心 |  加入書簽
會員登入 新用戶登記
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2023年度TOP分類瀏覽雜誌 臺灣用戶
品種:超過100萬種各類書籍/音像和精品,正品正價,放心網購,悭钱省心 服務:香港台灣澳門海外 送貨:速遞郵局服務站

新書上架簡體書 繁體書
暢銷書架簡體書 繁體書
好書推介簡體書 繁體書

十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書
七月出版:大陸書 台灣書
六月出版:大陸書 台灣書
五月出版:大陸書 台灣書
四月出版:大陸書 台灣書
三月出版:大陸書 台灣書
二月出版:大陸書 台灣書
一月出版:大陸書 台灣書
12月出版:大陸書 台灣書
11月出版:大陸書 台灣書
十月出版:大陸書 台灣書
九月出版:大陸書 台灣書
八月出版:大陸書 台灣書

『簡體書』对话时代:铸造新质生产力的强国之路

書城自編碼: 4016733
分類:簡體書→大陸圖書→科普讀物百科知識
作者: 朱嘉明,陶虎,沈阳 著
國際書號(ISBN): 9787301352953
出版社: 北京大学出版社
出版日期: 2024-08-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:HK$ 89.7

我要買

 

** 我創建的書架 **
未登入.


新書推薦:
不止江湖
《 不止江湖 》

售價:HK$ 98.6
天才留步!——从文艺复兴到新艺术运动(一本关于艺术天才的鲜活故事集,聚焦艺术史的高光时刻!)
《 天才留步!——从文艺复兴到新艺术运动(一本关于艺术天才的鲜活故事集,聚焦艺术史的高光时刻!) 》

售價:HK$ 154.6
双城史
《 双城史 》

售價:HK$ 110.9
冯友兰和青年谈心系列:不是问题的问题(哲学大师冯友兰和年轻人谈心,命运解读)
《 冯友兰和青年谈心系列:不是问题的问题(哲学大师冯友兰和年轻人谈心,命运解读) 》

售價:HK$ 55.8
月与蟹(青鲤文库)荣获第144届直木奖,天才推理作家经典作品全新译本。一部青春狂想曲,带你登上心理悬疑之巅。
《 月与蟹(青鲤文库)荣获第144届直木奖,天才推理作家经典作品全新译本。一部青春狂想曲,带你登上心理悬疑之巅。 》

售價:HK$ 50.4
索恩丛书·盛清统治下的太监与皇帝
《 索恩丛书·盛清统治下的太监与皇帝 》

售價:HK$ 88.5
透过器物看历史(全6册)
《 透过器物看历史(全6册) 》

售價:HK$ 490.6
我在台北故宫博物院读名画
《 我在台北故宫博物院读名画 》

售價:HK$ 109.8

 

建議一齊購買:

+

HK$ 59.8
《口腔自我保健视频漫画丛书 镶牙篇》
+

HK$ 77.3
《数据要素价值发挥的探索与实践》
+

HK$ 45.8
《什么是物流管理与工程 走进大学系列丛书》
+

HK$ 113.9
《新时代中国科普理论与实践》
+

HK$ 78.2
《新知文库165·解谜:向18种经典谜题的巅峰发起挑战》
+

HK$ 67.2
《尸体会说话》
編輯推薦:
从数据要素到数字经济
从算法算力到大模型
从区块链到元宇宙
从脑机技术到天地一网……
经济学家朱嘉明、中国大模型领域知名女科学家林咏华、清华大学元宇宙文化实验室主任沈阳、北斗三号卫星系统总设计师林宝军等,解读中国硬核科技的实力与挑战、畅谈中国式现代化的基石与未来。
內容簡介:
科技创新为高质量发展奠定物质技术基础,更能为新质生产力发展注入澎湃动能。《对话时代:铸造新质生产力的强国之路》分为人工智能的“涌现”、虚实世界的融合发展、数智技术的基础设施三大篇章,主要聚焦人工智能、大模型、芯片、脑机接口、Web3、卫星互联网、数字生态、元宇宙、AI伦理等主题。经济学家朱嘉明、中国大模型领域知名女科学家林咏华、清华大学元宇宙文化实验室主任沈阳、脑机接口领域知名专家陶虎、北斗三号卫星系统总设计师林宝军、量子卫星总指挥王建宇等业界专家,深度解析新一代信息技术、人工智能、航空航天、生物医药、量子科技等领域的科技创新和产业发展,探讨全球人工智能发展的前沿、趋势与挑战以及人工智能伦理治理等问题。《对话时代:铸造新质生产力的强国之路》体现了科技与人文的对话、技术发展与社会变革的联动,既有前沿高度又能收获新知,有助于理解新质生产力的概念、内涵及其在推进中国式现代化发展方面的重要作用。
關於作者:
朱嘉明
----------------------------
朱嘉明,经济学家,横琴数链数字金融研究院学术与技术委员会主席,中国投资协会数字资产研究中心专家组组长。长期关注和研究的学术领域包括:经济增长、产业结构、科技创新、金融货币历史与政策以及数字技术(区块链、元宇宙、人工智能)的理论研究与实践。出版《国民经济结构学浅说》《未来决定现在:区块链?数字货币?数字经济》《元宇宙与数字经济》《历史不会熔断》等著作。
陶虎
----------------------------
陶虎,中国科学院上海微系统与信息技术研究所副所长、2020前沿实验室主任、传感技术国家重点实验室副主任、中国神经科学学会脑机接口与交互分会主任委员。长期以来一直从事生物与信息交叉融合技术(BTIT)研究,围绕脑机接口、生物存储、智能传感器和植入式医疗器械等方面开展深入研究。
沈阳
----------------------------
沈阳,清华大学新闻与传播学院教授、人工智能学院教授、博士生导师,清华大学元宇宙文化实验室主任、新媒体研究中心主任,主要研究方向为AI和大数据、新媒体、元宇宙、网络舆论、虚拟人和机器人。
目錄
人工智能发展的前沿、趋势与挑战(代序)
第一篇 人工智能的“涌现”
策划之眼:狂飙与有序
2024:开启数字与智能经济融合时代
为何是在2024年,大模型将开启数智融合时代? /朱嘉明
对话|大模型撬动全民参与,新质生产力提升体验与生产率
互动|中国大模型企业如何存活?中美差距如何缩短
延伸阅读1|大模型爆火这一年——对ChatGPT在全球引发AI“狂飙”的观察与思考 /沈秋莎
延伸阅读2|Sora“超级涌现力”将把AI引向何方 /吴 飞
AIGC驱动生产力跃升与良好世界塑造
AI迈入大模型时代,新十年如何潮涨不落? /林咏华
对话|作为工具或朋友的AI,如何长出善良?
互动|大模型如何不“胡说八道”?怎样更聪明?
延伸阅读|人早晚或成为大模型的工具人? /朱嘉明
人工智能下的人类世界
“深蓝”20年后,人工智能冒出冰山几何?/危 辉
对话|有意识的AI要不要造?
AI的权利和义务,人类说了算?
代码与法律双行,AI社会呼唤制度创新 /季卫东
对话|AI数据给人“贴标签”,利还是弊?
互动|什么情境下,给机器人以“机器人格”?
谁害怕人工智能?
人工智能让我们害怕什么? /冯 象
互动|理想的人机关系?AI会创造自己的文明?
第二篇 虚实世界的融合发展
策划之眼:冷热与理性
Web3:下一代互联网的生产力
Web3世界中数据确权算法透明,生产力大释放 /杨 光
互动1|Web3能在多大程度上向善向好?
互动2|算法黑箱如何破解?AI理财如何实现?
区块链技术如何赋能全球公共卫生治理
区块链技术重构信任和共识,提升生产力 /蔡恒进
对话|区块链被妖魔化还是观念难转变?
互动|中国哪些城市、哪些行业,区块链核心技术走在前列?
2022年,元宇宙的奋进和渐进
虚拟人、机器人、真人三人行,元宇宙将提升生产力 /沈 阳
互动1|我的分身在元宇宙里犯错了怎么办?
互动2|美国在元宇宙中处于什么位置?资产在元宇宙中如何确立?
脑机接口:生命进化新高度BTIT时代新角色
脑机接口:近可治渐冻人,远可憧憬“人体冬眠” /陶 虎
对话|硅基融入人体,意识、灵魂如何变?
互动|脑机接口的芯片为何难做?
第三篇 数智技术的基础设施
策划之眼:自主与坚持
数据:高质量发展的新生产要素
作为新生产要素,数据迎来万亿级市场 /卢 勇
对话1|制度立法护航,从“数据二十条”到国家数据局
对话2|下一代算力出现前,“东数西算”如何站好岗?
互动|数据银行、数商,数据要素时代有新收入?
卫星互联网:让天地一网来到身边
卫星互联网,中国与世界共同攻克制高点 /林宝军
对话|上天落地的6G通信随时随地随愿
互动|轨道频段布满卫星会产生太空垃圾吗?
中国北斗走向国际舞台
与强者共舞,中国北斗向国际舞台再迈进 /王 莉
互动1|服务全球的北斗,如何成为中国科技创新的典范?
互动2|北斗是否会全面取代GPS?
“墨子号”的成功与中国式的科技创新
科学原创 中国合作,“墨子号”领跑量子卫星 /王建宇
对话|隐形态传输、量子计算机将实现怎样威力
2020年,5G迎来怎样的风口
新基建下5G 赋能实体经济,变身智能经济 /贺仁龙
华为5G持续投入,中国引领全球5G商用 /胡 伟
互动|5G商用未来超乎想象
內容試閱
AI迈入大模型时代,新十年如何潮涨不落?
林咏华
从小模型走到大模型,从科研成果落地到产业。在过去几十年,人工智能起起落落。2022年6月之前,整个人工智能处在前一波浪潮往下落的一个区间。2022年下半年,出现了两个现象级的应用:一是文生图;二是以ChatGPT为代表的大模型技术的涌现和爆发。这两个事件把整个人工智能从一个拐点引向下一个起点,而这个新起点是由大模型引领未来人工智能发展的十年。
思考一:大模型带来AI研发范式的改变
为什么研发范式很重要?因为当科研界将一个技术做到突破和创新后,它们如何广泛地落地到各行各业,与其研发范式、研发产品的代价息息相关。
1.第一阶段范式:从头开始训练领域模型
至今,AI研发范式经历了三个阶段的变化。
第一个阶段是从头开始训练领域模型。最初深度学习与人工智能出现时,大家考虑的都是如何利用手上海量的数据,通过诸多计算资源,把模型从头到尾训练出来,然后再将它部署到各行各业。因为需要大量数据、算力,尤其需要懂AI全栈的技术人才特别昂贵。因此,这种范式无法持久。
2014年,在几个AI顶级峰会上分别出现了描述预训练模型 微调的迁移学习技术的文章。利用拥有1000多万张图片、涵盖常见的2万种物品的图片库,训练出通用的视觉分类基础模型,其规模是中小量级的模型。此后,大家利用医疗影像分析、工业的缺陷检测等自己领域的数据对它进行训练。这一过程是从一个通用领域到另一个专用领域的迁移学习。如今来看,相当于一个初中毕业生通过三年的专科培训,成为一个具有专业技能的专员。
2.第二阶段范式:预训练模型 微调训练的迁移学习
由此,研发范式进入第二个阶段——由预训练的基础模型加上小批量的数据和少量的算力的微调训练,就可以形成企业要落地到不同场景的不同模型。这种范式中,行业企业只需要做数据收集和处理、模型训练、模型服务等部分工作,从人力、物力、财力上看,投入量大大减少了。
计算机视觉领域的迁移学习,带动了过去十年的AI潮起潮落。这整个过程今天看起来可以称为小模型的阶段。
2013—2015年,人工智能因为迁移学习的出现,让基于深度学习的计算机视觉分析在多个领域落地变得似乎更加容易,深受追捧。另一个现象级事件是,在2015年的ILSVRC(ImageNet Large Scale Visual Recognition Challenge)图像分类比赛中,ResNet网络的图像辨别错误率低至3.57%,已经超越了人的识别能力(错误率大约5%)。正因为这两个标志性事件,人工智能被认为有望大范围成功。包括商汤、云从、依图、格灵深瞳等在内的众多AI公司也是在那个时候纷纷创立,受到投资界的普遍追捧。
但从2017年之后,AI从高潮慢慢缓落。
2017年以来,每年全球有4000多个企业因为拿到融资而成立AI公司。但到2020年,这个数字一直往下落至600—700家,以至于在过去一两年甚至出现了AI泡沫破灭的众多说法。
为什么跟大家分享这些?眼看AI又一个新的十年潮起涌现,作为从业者需要深入思考:为何前一个十年出现万众期待,最后并未如想象中那样在各行各业广泛落地?在未来十年,该做对什么,使得新一轮技术潮起后能得到更好的发展,而非很快就潮落了?
3.第三个阶段范式:基础大模型 应用提示
在当下的第三阶段研发范式中,基础大模型最重要的是基座:一是需要用海量的预训练数据去训练它,通常是千亿级以上的数据。二是参数量很大,几十亿参数是入门,很多时候会达到百亿级参数,甚至千亿级参数。三是所需要的算力更大。这种基础大模型帮助我们学习各种通用的知识,包括实现各种模型的能力,如理解能力、生成能力,甚至涌现能力。现在在业界能看到的属于这种基座大模型的有哪些?如GPT-4、GPT-3.5、Llama、智源研发出来的悟道·天鹰(Aquila)等。基础大模型最重要的功能就是提示学习能力。它跟人很像,可以做到有样学样。
在第三个研发范式阶段,对很多下游行业企业来说,甚至不需要走第二阶段的微调训练模型,而是直接减少到只要做API(应用程序编程接口)调用就可以,有更大幅度成本的降低,尤其可以适用到各个应用领域。ChatGPT出来之后,大家用各种人类领域的专业考题去测试它,包括法律、医学、政治,以及美国的AP课程,它都考得很好,就像通才一样。这听起来真的很美好。
思考二:大模型如何实现产业落地?
大模型如何实现产业落地?这一步走好才能让上亿甚至数十亿、数百亿元在大模型上的研发投入有意义,并真正带领所有行业的智能化提升。
1.路径:基础模型预训练 持续训练 指令微调
大模型的应用方式有两种:一种是提示学习,另一种是指令微调训练。
大模型是“记不住”提示学习的过程的,如果仅靠提示学习中的“提示”,势必每一次的API调用都得带上冗长且越来越长的提示,这在实际产品中很难实现。因此,在产品真正落地时,必须引入指令微调。指令微调就是利用基础模型的知识完成指定的任务。就像本科生学了大量知识后,需要一个上岗培训。指令微调也不是很昂贵,如我们曾经做过一个针对某应用的自然语言转SQL的场景,在提示学习不起作用时,指令微调数据只放了20条,包括所有环境的搭建在内总共花费了8小时。
其实,今天看到的ChatGPT不是一个基础模型,它是一个经过很多指令对它进行微调的对话模型,所以它似乎做什么都很在行。这是因为它收集了全球各地不同人的诸多指令,并不断进行了微调。智源的悟道·天鹰AquilaChat对话模型也是在Aquila基础模型之上经过指令微调才可回答人类的各种问题。比如,它可在10秒内就能完成一份高考作文。
不过,大模型目前只具备通用的能力,即主要是面对互联网的应用,如闲聊、问答。如果希望大模型能够真正服务于更多的经济体系、实体经济,就需要考虑如何把大模型落地到专业行业里。很重要的一点是要在通用能力的基础模型之上,通过加入大量专业领域知识进行持续训练,形成专业领域的基础模型。就如同本科生学了通识教育之后,再让他进行一至三年的研究生深造学习。
所以,综合来看,基础模型训练相当于通用领域的本科生学习,基础模型在专业知识数据的持续训练相当于专业领域的研究生深造学习,之后再进行指令微调训练,相当于专业领域的上岗培训。
2.大模型在产业落地中如何克服遗忘性和幻觉率?
模型毕竟是通过上亿篇文章或者网页对它进行训练才生成的,其实它跟人一样,也会忘记东西。科研统计后的结论是:第一,模型越大记忆力越好,记住的百分比越高。无论模型大小,如果只让模型看2—3遍的数据,它能记住的只有百分之几的数据量。
这就产生了一对矛盾。首先从版权保护的角度看,或许不希望它记得太牢。对大模型进行训练,不得不从互联网平台上获取很多的文章或作品。至今为止还未有一个明确的界定,如果它因为读了这些文章,而产生大篇幅与之相同的内容,是否会导致版权问题?这是有待解决的问题。
从这个角度看,如果模型的记忆力只有百分之几,版权问题就不会那么严重。但是,当真正产业落地时,这又会成为较大的问题,即模型训练了半天却记不住。
“幻觉率”就是我们常说的一本正经地胡说八道。成因是什么?第一,预训练的数据集可能包含某些错误的信息,很多来自二十年前、三十年前的信息,会昨是今非。第二,更多可能是模型的数据预训练的上亿、几亿的数据里没有直接包含相关信息。这会导致我们面对严肃的行业时,如医疗、金融、法律等,必须考虑用什么额外的技术来降低幻觉率。
3.大模型和小模型在未来十年如何并存或相融?
我个人认为,未来十年大模型和小模型必定会共存。它们重要的差异有三个:
第一,在小模型时代,我们对目标领域的知识是通过迁移学习、微调训练获得的,本身的基础模型并没有任何的目标领域知识。但在大模型时代,基础模型本身需要具备充足的专业领域知识,而指令微调训练只不过是告诉这个模型如何去运用知识而已。
第二,与应用领域密切相关,对于精度要求较高的领域,尤其是感知性的领域,需要给出很精准的结果,例如,在医疗中某个影像说明肿瘤在第几级病变的情况。这需要单个模型的准确率非常高。此时它不需要学会琴棋书画等大模型的泛化能力和通用能力,这种场景适合小模型。
第三,算力、基础设施与模型选择相关,对成本要求、时延要求低的重要场合,如自动驾驶、工业毫秒级的控制,在通信和时延的环境下还是适合小模型,因为它更容易放在算力较低的边缘侧。大模型则是相反的情况。这两个技术是相互融合的。
很多人提出,对过去十年发展起来的小模型的AI公司、科研团队,现在是否都需要迁往大模型?应该如何利用它们已有的积累做得更好?
第一,可以把原有在小模型时代的算法进行更新换代,把大模型新的技术融入小模型。举个例子,用大模型时代的技术Transformer为基础的VIT计算机视觉模型,来替代小模型时代的CNN网络,在差不多准确率情况下,大模型在预训练阶段可节省1/4的显存,推理速度只需要ResNet-50的58%时延,实验时所需要的资源更少。这的确打破了大模型技术必须是资源消耗高的定律。
第二,应用新的方法做到以前很难解决的问题。比如Meta公司在2023年3月发布的图像分割大模型SAM,能做到视觉范围内各种物体被精准地分割出来。这种技术可以用于清点超市、仓库等的货物数量。这在之前一直很难做到,或者需要多个复杂技术叠加。我知道已经有一些小模型公司将SAM大模型落地。
第三,大模型中的小模型,如智源发布的AquilaChat对话模型,仅70亿参数,通过int4量化技术,就可在4G的显存上运行起来。而当前国产边缘侧的芯片都已经有8G显存。所以,大模型浪潮下,很多AI小模型赛道的公司,完全可以焕发一种更新的活力。
思考三:打造基础模型的重要性
大模型中最重要的是下面的基础模型。基础模型就等同于AI中的CPU一样的重要。
1.除非常昂贵外,基础模型决定了下游模型能力
第一,除了做芯片、CPU的流片以外,基础模型已经成为AI大模型时代单一产品投入最大的部分。这可以从业界,包括我们研发大模型的一些数字中可见一斑:300亿参数的模型,包括数据、训练、评测的成本以及所有的人力、物力、算力加起来,要耗资2000万元;而上千亿参数的模型,则要耗资4000多万元甚至更高。所以,动辄就是几千万元训练出一个模型,投入十分高昂。
第二,基础模型决定了下游各种模型的重要能力。大家会发现不同的聊天机器人,有些只会说英文,有些会编程,有些懂得更多的科学知识,有的还能够看懂图片。其实这些能力是由下面的基础模型所决定的,只有预训练中把这些能力加入,对话模型中才能体现。
基础模型很大程度上决定了后续模型的能力、产业落地等因素。从能力来看,大模型的理解能力、涌现能力、上下文学习能力都是由这个基础模型的结构、尺寸等决定的。从知识来看,无论是通用知识还是专业知识,都是在基础模型训练过程中学习到的。
2.价值观的保证首先需要干净的中文语料库
第三,从合规性和安全性来看,对于内容生成的模型,其生成的内容是否积极阳光,有无偏见、伦理问题等,很大程度是由基础模型决定的。基础模型如何获得人类的价值观呢?通过训练语料。国内外一些科研机构、公司训练基础模型,通常应用到Common Crawl语料库,这是互联网训练语料全球最大的集合。但其中只有很少的中文数据,在所有中文数据中,又只有17%的网源、网站或网址来自于中国。绝大多数中文语料都是来源于其他的国家和地区。国内很好的中文内容并没有出现在里面。我们观察到,基于这样的数据集来训练有中文能力的基础模型,有很大的风险。
作为非营利科研机构,智源倡导更多的力量投入:第一,支持中英双语的基座模型。中英双语支持,而非依靠翻译。中文里有很多知识需要直接给模型进行训练,依靠翻译无法将许多中文知识纳入其中。第二,符合国内数据合规需要,尤其是纳入优秀、高质量的中文内容。正因为看到目前基础模型的预训练中有许多不干净的语料,所以我们打造基础模型时十分谨慎。中文语料均来自智源从2019年积累至今的数据,99%以上是来自国内的站源。国内站源具有的优点是都有ICP许可,所以也规范了网络内容的可靠性和可信度。
3.助力落地产业:研发商用许可和代码模型
第四,从版权和商用许可来看,不少模型要不闭源,要不开源,用的是非商用许可,这对学术研究没有任何影响,但对企业后续进行商用和开展业务则是不行的。我们为何一直倡导开源,甚至在开源的时候就给予用户商用许可?智源希望把这些耗费众多资源训练得到的模型开源出来,被更多的企业所使用。据统计,2023年1月至5月,新发布的国外开源语言大模型共有39个,其中可以直接商用的是16个,而国内开源语言大模型只有11个,且仅有1个对话模型直接有商用许可。
从另一个角度来看,基础模型对整个产业的发展价值更大。有很多国内团队纷纷开源大模型,这里有多少是真正的基础模型?经统计,截止到2023年5月底,国外发布的开源语言大模型里有5个是基础模型,而国内发布的开源语言大模型里只有2个是基础模型,也就是复旦的MOSS和清华的CPM-Bee。
智源开发可商用基础模型,同时注重代码模型。代码模型是大模型产业落地的一种很重要的模型,具有广阔应用前景。基于Aquila-7B强大的基础模型能力,我们用更少的代码训练数据,小参数量,高效实现了目前性能最好的中英双语代码模型。我们分别在英伟达和国产芯片上完成了代码模型的训练,通过支持不同芯片架构的代码 模型的开源,推动芯片创新和百花齐放。智源内部还在挖掘、利用这些代码模型完成更多的任务,如辅助新的编译器的实现等,这有可能会改变计算机领域更深层次的研发。
思考四:大模型时代,评测变得无比重要
大模型训练要紧抓两头:一头是数据,一头是评测。
为什么评测很重要?一个300亿参数的模型,每天对它投入的算力是10万元,十分昂贵。另外,正因为它大,在整个过程中更需要关注所有的细节,一旦出现问题,要及时发现并及时作出调整。
1.尚未完全解决测评能力的主观性和客观性
大模型的能力很复杂,很难用单一指标表明这个模型在未来使用的各种能力,所以要使用各种评测方法和评测集对它进行评测。在大模型训练稳定之后,就要开始指令微调训练,再进行循环迭代,不断地加以调整。如果在过程中只用计算机进行客观评测,很难准确及系统性地看到主观的生成能力,因此还必须加入主观评测。而主观评测至今还只能由人类进行。我们也尝试用ChatGPT配合人类进行评测,但在很多的测试案例上仍然偏差很大。
最后优选的模型还要进入red-team评测,也就是找一组未参与模型研发的人员扮演用户群,对这个模型进行各种提问,包括各种恶意、刁钻的提问,来评估这个模型的效果。OpenAI在ChatGPT发布之前,也是持续数月进行类似的评测,才能保证有当前的效果。
智源为了让语言大模型能有更全面、系统的评测,打造了FlagEval(天秤)大模型评测系统,包括中、英双语的客观、主观22个评测集合,8万多个评测项。基于目前最新的评测,AquilaChat以大约相当于其他模型50%的训练数据量达到了最优性能。但由于当前的英文数据仅训练了相当于Alpaca的40%,所以在英文的客观评测上还暂时落后于基于Llama进行指令微调的Alpaca。随着后续训练的进行,相信很快可以超越。
评测对大模型在研发阶段起到了相当重要的作用,同时也是拉动大模型发展的关键。以跨模态图文评测为例,对于简单的图文评测任务,好的模型基本已经达到或超过人类的水平,在70分到90分之间。但对于稍微复杂的图文评测任务,大模型只有10—11分。对于跨模态图文的辨别,尤其是带有逻辑理解要求的,是大模型与人类能力之间存有的巨大鸿沟。所以,评测是拉动大模型发展的关键,希望通过加入更复杂的评测项,来拉动大模型向人类所需要的更复杂的场景发展。
2.评测已经演进到认知能力和人类思维能力
大模型从2022年进入所有人的视野,其能力发展迅速。同时评测的难度也一路攀高,相当于不断地拉长尺子,才能更好地量度大模型的能力。随着大模型能力的提升,对评测产生了四个台阶的演进:
第一,理解能力。过去十年、二十年,AI一直是以理解能力评测为主,无论是计算机视觉还是自然语言处理。
第二,生成能力。现在已经出现了AI生成内容,这不得不依靠人类的主观进行评测。主观评测的质量很难完全保障一致和客观,现在我们也逐步引入一些AI的辅助手段去做。
第三,认知能力。当前人们考量各种大模型,已经不认为它们只是一个能说会写的语言模型,而是希望看到各种各样的知识能力、认知能力。因此,对评测来说,更大的挑战是如何刻画一个全人类的认知能力。另外,现在很多人用各类考题考验这些模型,但这些考题很多都已经被泄露到模型的训练语料中,所以这种认知能力的评测也失之偏颇。
第四,人类思维能力。现在比较困难的是,很多人希望大模型能更加像人类的思维一样去理解、去思辨。所以,对于模型的心智能力应该怎样评判、评价,就需要多学科的交叉研究。
思考五:大模型时代的使命、工匠精神与好奇心
智源有近200个全职研究人员,在大模型时代,我们看到各种各样的现实问题、技术问题,亟须去突破。无论文生图还是ChatGPT的应用,都离不开冰山下整个大模型全技术栈的积累,而这正是智源一直致力于打造的部分——所有的基础模型,包括数据集、数据工具、评测工具,甚至包括AI系统、多种的跨芯片技术的支撑。这是我们的使命,既要打造冰山以下的大模型技术栈,同时以可商用的形式全部开源出来,使得无论是代码还是模型,都能够回馈给整个产业和学术界。也希望有更多的学术界、更多的科研团队与我们同行,对开源进行贡献,尤其至关重要的是AI领域内外的学科的共同创新。
大模型时代需要科学与工程并行,一方面需要以工匠的精神锻造每一个大模型,每一步都要精雕细琢,无论是数据、训练过程还是评测;另一方面,大模型里有太多的未知,需要以追星逐月的好奇心去探究,只有我们探究得更好,才能让它在产业落地得更稳,未来的十年才能不断地稳步向前发展。

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 香港用户  | 台灣用户 | 大陸用户 | 海外用户
megBook.com.hk
Copyright © 2013 - 2024 (香港)大書城有限公司  All Rights Reserved.