2022年5月20日,由中华书局和清华大学中国古典文献研究中心联合发起的“《数字人文》专家面对面”系列讲座活动,邀请到了《数字人文》三位主编:来自清华大学的孙茂松教授、刘石教授和中华书局编审周绚隆执行董事,共同给大家带来第一讲《浅谈人工智能背景下的数字人文》。此次讲座采取线上腾讯会议与“伯鸿读书会”直播相结合的方式,共有一千两百余名师生和学者观看并参与讨论。
中华书局朱翠萍老师首先介绍了“《数字人文》专家面对面”系列讲座的活动,旨在讨论跨学科研究领域的数字人文问题,将以《数字人文》学刊发表的论文成果为线索,邀请作者亲身解读研究思路和方法,以期更多专业的人文学者关注数字人文研究成果、利用数字人文方法和手段进行学术研究。
讲座主持人、清华大学人文学院刘石教授介绍了中国数字人文的发展情况,以及《数字人文》的创刊和发展历程。他认为,计算机科学、人工智能和大数据技术的发展使得大数据时代不期而至,技术的发展倒逼我们提出更高和更激荡人心的目标。在深度学习技术的快速发展下,数字人文正在利用从数字化向知识化的转变,从简单的搜索转向更为复杂的分析与研究。《数字人文》的口号是“数字使人文更新”,这个“更”字,既是更加,也是更换的意思。数字人文技术不仅为人文研究带来新的研究材料和研究视野,而且能够更新人文研究的范式和路径。在数字时代,对数字人文的重视需要上升到文化发展战略的高度来看待。
主讲人、清华大学计算机科学与技术系的孙茂松教授首先简单介绍了知识的生产与传播中的一些辩证关系。他提出,知识主要由形式和内容组成,形式包括载体形式和内容形式,而知识的内容主要指知识的思想内涵。从本质上讲,内容决定了知识的深刻度和影响力,形式则对知识的传播度有巨大作用。也就是说,尽管深刻性十分重要,但它不是唯一的标准,知识传播也很有价值。
怎样把人文原始材料提炼转化为适合计算机分析的对象,以及怎样利用计算机的分析结果来辅助解决人文问题,是数字人文所面临的挑战。数字人文所使用的计算机技术涉及的面很广,但可归纳为若干类。从历时角度讲,早期的工作是针对文本,后来逐步扩大到图像、视频、语音、3D等。最早的数字人文工作非常基本、简单,主要是将人文材料数字化,构建数字人文研究的资源基础(这催生了后来的OCR技术),以及利用计算机对已数字化了的文献著作自动建立索引。紧接着是词搜索、排序、词频统计等技术,后来随着计算机相关学科分支的发展,又生发出聚类分析、主题分析、标签标注、自然语言文本分析等与内容有关的分析方法以及可视化设计等数据呈现方法。近些年来,图像、视频、语音以及多模态联合分析方法也取得了长足进步。但总的来说,上述技术手段对内容语义的理解能力存在天然不足,完全解决语义问题目前看是不可能的。现有数字人文项目的经验告诉我们,人工对数据的加工越多,数字人文研究的效果就越好。不过通常数字人文技术主要用于帮助人类专家从难以驾驭的超大规模数字化人文材料中分析宏观趋势,因此语义分析的准确率即使只有七八成,也是很有参考价值的。
深度学习算法主要有两大类:一类是卷积神经网络(CNN),主要用于图像理解;另一类是循环神经网络(RNN)主要用于语言理解。深度学习算法所采用的深层神经网络,结构简洁,规模复杂。神经元节点之间连接的权重最开始都是随机生成的,随后根据训练数据的误差进行梯度反向传播,重新调整权重来降低误差,循环往复,直到训练结果趋于稳定。数学上已经证明,只要神经网络模型规模足够大,就能够逼近求解任何分类问题。同时还有一条基本法则:要训练出规模足够大的好模型,一定要有足够大的训练数据量,两者互为依存、互为条件。深度学习算法和大数据在这个意义上实现了高度的对立统一。
孙茂松认为,深度学习技术在数字人文领域内可以有很多应用。最早进入公众视野的是人工智能写诗,其基本过程是循环神经网络对大量已有诗歌数据进行自动分析,通过其内置的注意力机制算出已生成上文中每个字的重要性,对产生下一个字的概率进行预测。依此逐字向前推进,写出诗歌。所生成诗句的通顺性乃至所生成整首诗的整体一致性是上述机制重点考量的因素。就现有结果而言,计算机在生成短文本方面的性能可圈可点,例如“九歌”对对子,或者是生成集句诗,即从历史文本中寻找已有语义类似的句子来匹配组合,都有不错的表现。但对于生成长文本,如短篇小说、散文等,能力还很差。最近有西方学者对计算机写诗质量进行严肃认真的评价,实验设置为:人从计算机自动生成的诗中挑选若干首,再同人写的若干首诗混起来,让其他被试去甄别哪些诗是计算机写的,哪些诗是人写的。结论是被试难以区分,这表明计算机生成的诗已经差不多可以以假乱真。但该实验观察也表明,被试对计算机所写诗的喜爱度明显低于人写的诗。这里面还涉及一个十分复杂、深刻的问题,即计算机写诗能否具有文学所追求的创新性?从深度学习的机制来看,应该说是有可能的,其原理是基于古代诗歌之大数据,可望让计算机习得古人诗歌各种规律所决定的可能生成空间。这个空间是十分巨大的,古人已经写出来的诗歌,或许只是这个可能空间中的很小一部分,剩余部分应该会有一定机会展现出文学新意。当然,这也取决于智能算法是否足够高明,否则很容易落入已有诗歌的模仿和拼凑的“信息茧房”中。如果采用“机生成+人修改”模式,创新效果更便于发挥出来。深度学习在数字人文的其他应用还有很多,例如生成绘画作品、根据句子生成图像、机器人绘画、AI作曲等等。
图:一个基于改进注意力机制的计算机诗歌生成基本模型(引自清华大学矣晓沅的博士学位论文)
当然关于数字人文还有很多其他问题,例如数字人文中的伦理道德问题:计算机产生的“虚情假意”的艺术能被人类接受吗?或者人类对数字艺术的宽容度问题:人类能够接受受机器启发或者人机共同产生的艺术吗?这些问题有待更多学者探讨。
最后,孙茂松教授总结道,深度学习本质上并没有理解语义,深度学习机制,看穿了就是神经元节点和连接神经元节点之间的权重,其行为呈现出某种智能,但内在机理上却完全没有智能。只有密切结合数字人文的具体问题,妥善使用它,才能够解决一些问题。归根结底,数字人文的核心还是具有深刻性的人文研究,受囿于人工智能技术的局限性,要达到这个目标,依然任重道远。不过,数字人文与人工智能技术的结合在促进文化思想传播方面的巨大作用,倒是顺水推舟的。
讲座结束后,中华书局执行董事周绚隆进行了简短的评议。他十分肯定孙茂松教授的观点,认为文献研究已经自觉或不自觉地借用了一些数字人文的技术和成果,例如中华书局古联公司的中华经典古籍库等。当然他也认同,数字技术是基于历史数据的,不能完全解决语义问题,也不能从根本上实现巨大的突破和创新。但人文创作却需要背叛历史,不断寻求创新。在这方面,人文学术有着数字技术所不能达到的深度和高度。
关于数字人文对学术的影响,他提出,从出版的角度看,近些年来,无论是论文还是书稿,篇幅都比以前要长很多,一个主要原因是目前的可用资料更多了,研究的内容自然也多了。但如果仅仅把数据库和分析工具的结果不假思索地拿来应用到研究成果上,是十分不可取的。基于数据库的分析结果一定要经过人的干预,剔除无用和垃圾信息,基于人的研究和需求,寻求和使用有针对性的数据和材料。
他强调,对完全不了解计算机技术的人文学者来说,孙茂松教授介绍的方法和案例深入浅出,启发性很大。数字人文不是一种学科,而是一种方法,一种意识,有了人文阅读和学习,再通过工具来拓展视野,确实能够提出一些需求,改变一些认识,也能够为人文研究提供新的研究方法和角度。
在提问环节,听众提出了不少有针对性的问题,孙茂松教授也一一做了精彩的解答。
最后,刘石教授总结道,数字人文是工程性项目,需要合作,需要大量的人力与财力的投入,期待通过此次讲座,能有更多人关注数字人文,关注《数字人文》杂志、网站(www.dhlib.cn)以及公众号(DH数字人文),还有即将上线的璇琮数字人文智慧平台,以及古联公司推出的OCR识别系统(ocr.ancientbooks.cn)。当然,更重要是的是期待能够有更多的人投入到数字人文相关研究中,共同为中国的数字人文发展作出贡献。
(光明日报全媒体记者陈雪)