【编者按】
2023年5月27日,是复旦大学118周年校庆。“校庆种种活动,以促进科学研究为中心。”从1954年校庆前夕时任校长陈望道提出这一主张开始,在校庆期间举办科学报告会,成为复旦的重要学术传统之一。
赓续学术传统,百年弦歌不绝。5月9日起,来自文社理工医各学科的50多位复旦名师将陆续带来学术演讲。
“2023相辉校庆系列学术报告”第十场,由复旦大学国家智能评价与治理实验基地副主任、大数据研究院教授赵星,与浙江大学公共管理学院信息资源管理系“百人计划”研究员蒋卓人于线上线下共话“生成式人工智能的挑战与治理”。
活动现常 本文均为 复旦大学 供图
从2011年苹果手机首次推出的Siri语音助手,到今年包揽奥斯卡七大奖项的电影《瞬息全宇宙》,生成式人工智能早已融入人类生活。当下,ChatGPT类工具进一步引爆全球人工智能热潮,赵星和蒋卓人携手带来一场贯穿生成式人工智能前世、今生和未来的学术盛宴,解析生成式人工智能带来的多重挑战,启发我们对其治理问题的思考。
生成式人工智能的前世今生
金色的夕阳被乌云遮住,小草在风雨中摇曳,水珠在叶片上滚动……蒋卓人首先播放了一段名为“Summer showers”(《夏日阵雨》)的视频。这段充满灵动色彩和生动风景的视频,却完全是由生成式人工智能模型创作的。
何为生成式人工智能?
目前,生成式人工智能还没有统一的定义,一般可以理解为一种能够根据提示生成文本、图像或其他媒体信息的人工智能系统。
“这个技术不是像魔法一样凭空出现的,而是有着悠久的历史渊源。”蒋卓人强调。在生成式人工智能90多年的发展历程中,不乏人类智慧闪耀的时刻。
1932年,法国工程师Georges Artsrouni创造了装置“mechanical pain”(机器大脑)。它通过查询多功能词典完成翻译,输入、输出都是一条纸带。蒋卓人认为,虽然它和今天的机器翻译不同,但它完全符合今天对生成式人工智能的定义,即人类输入一段内容,机器产生一段新的内容。
在20世纪中,麻省理工学院创造了最早的生成式人工智能之一Eliza,Judea Peal(朱迪亚珀尔)引入了贝叶斯网络因果分析概念,Yann Lecun(杨立昆)等展示了如何利用卷积神经网络来识别图像……
2006年,华裔计算机科学家李飞飞着手构建数据库ImageNet。该数据库中有超过1400万张手工标注的图片,包含超过2万个类别。“正是有了这样一个庞大数据库的支撑,深度学习才能得以兴起。所以我们总说,好的科研品位,加上持续不断的努力,就能成就一段好的学术生涯。”蒋卓人评价。
ChatGPT何以成为明星产品?
1750亿参数量,3000亿训练单词数,这是ChatGPT的数据。2022年发布后,ChatGPT在短短两个月内吸引了超过1亿的用户,成为有史以来用户增长最快的应用。
蒋卓人认为,要理解ChatGPT,就要理解它的关键技术:大模型基础训练、指令微调、人类反馈强化学习。
“大模型的全称是大型语言模型,”蒋卓人讲道,“它是一种概率模型,能告诉你一个词出现的概率是多少。”
蒋卓人教授
比如,在The students opened their这句英文后面,可以出现books、laptops、exams、minds等词。“但它们出现的概率是不一样的。一个好的语言模型,能精准地预测下一个词是什么。”蒋卓人说。
随着语言模型的发展,它具备了良好的语言理解能力,但如何让其与人类建立对话呢?
研究者们提出的办法是指令微调。通过引入思维链以及代码生成,大模型的推理能力得以提升。“这种能力对于大模型来说至关重要,使其可以在开放领域有很好的表现。”蒋卓人评价。
至此,大模型初步具备了回答人们提出的任何指令的可能,但回答的质量却参差不齐,如何让大模型持续性地输出高质量回答呢?
研究者们又为此设计了一套基于人类反馈的强化学习方法,即通过大模型的微调、奖励函数的训练、以及大规模强化学习的优化来确保高质量回答的生成。“OpenAI就是使用这种方法,大幅度降低了数据集构建成本。”蒋卓人说。
生成式人工智能:新智能面临新挑战
面对生成式人工智能带来的挑战,赵星从资源、技术、应用与社会伦理四个维度进行解读。
从资源维度来看,生成式人工智能需要高质量的数据,而中文世界的数据质量弱于英文。赵星认为,即使有很强大的翻译能力,类ChatGPT工具的中文处理效果也显著弱于英文,核心的原因之一是投喂的中文数据质量较差。另外,硬件技术也是支撑我国人工智能产业高速发展的关键要素。
赵星教授
“科技界曾将人工智能的应用比作炼金术,”赵星打趣道,“人们将数据一股脑往模型里面扔,至于能否炼出有价值的东西,炼出的是什么,却没有明确的预期。”很明显,在技术层面上生成式人工智能存在内生的不确定性。
“当我们准备向全社会投放一种通用性工具,却不能明确它的科学原理是什么,就一定会有内生性的风险。”人工智能风险中最核心的一点在于其结果的不可承受性。“我们很少在治理问题上处于如此无力的状态,”赵星说。在应用层面上,生成式人工智能产业发展的确定性与风险治理的不确定性将长期存在。
而在社会方面,生成式人工智能不仅深陷知识产权与信息泄露问题,或也将塑造真正的信息茧房。“当生成式人工智能24小时都陪伴你身边,潜移默化地,你会误认为一切都是你自己的决定。”
赵星警示,“我们面对的,是一个会在短时间内崛起,或将引起严重后果且后果未知的事物。”
内生安全治理:让危机“已知”
面对生成式人工智能这个新对手,赵星认为不能沿用传统治理“被动回应外在威胁”的方法。相反,他的团队正在着眼于借助复旦大学大数据研究院院长邬江兴院士提出的“内生安全理论”,构建生成式人工智能治理的新模型。
“我们能否在未知的风险爆发之前找到抵抗它的办法?这是生成式人工智能内生安全治理要解决的问题。”赵星说,“我们需要在人工智能风险来临前,给人类社会点亮一棵新的技能树:应对人工智能非传统安全问题的能力。”
生成式人工智能的治理模型涵盖了三个层面。最外层是法律的监督与规约,中间层是管理层的敏捷治理,尤为强调的最内层是教育。在法律和政府治理之前,高等院校应和所有的教育机构一起,完成针对全人类的社会性融合人工智能的教育和训练。
“我们应当在每一位年轻人的成长过程中,让他们学会如何与人工智能良好共处与规避‘信息茧房’,以及如何去做一个智能社会中的‘好人’。”
内生安全治理模型的原理,是基于群体智能将个体“未知的未知”转化为群体“已知的未知”,从而进一步将其转化为“已知的已知”。
“当我们知道可能的风险是什么、产生在何处,生成式人工智能治理便有机会转化为常规性安全问题,我们就能尝试寻求到治理闭环的实现。”赵星说,“然而这仍需要理论、实践上长期的探索。”
赵星团队也开始探索生成式人工智能在科学评价中的应用,创新构建了“客观数据、智能算法、专家评议”三者和谐共生的“数智人”评价与治理新范式。近期团队也在开展利用类ChatGPT工具进行智能评价系统构建的探索实验。
“初步结果显示,虽然现阶段的生成式人工智能远没到能胜任学术评价这样的严肃评价工作的程度,”赵星表示,“但生成式人工智能表现出的“跨学科”评价能力和“涌现”推断预测潜力值得高度关注。”