记者 | 彭新
编辑 |
1
算法、数据、算力后,中国人工智能开发的又一环节“AI模型”得到市场关注。
10月底,服务器公司浪潮信息发布了开源人工智能巨量模型“源1.0”,主要针对自然语言处理领域,即语言模型,意在吸引更多开发者进行人工智能自然语言应用探索。
所谓语言模型,就是让机器理解并预测人类语言的技术。源、GPT-3被通称为 “大型语言模型”,指的是一种利用深度学习的算法,通过数千本书和互联网的大量文本进行训练,将单词和短语串在一起。
2020年,美国人工智能非营利组织OpenAI曾发布GPT-3模型,参数量首次突破千亿大关,达到1750亿,采用570GB训练数据集,可以答题、翻译、写文章等,吸引了全球AI行业的目光。《麻省理工科技评论》就评价GPT-3:“人们认为可以写出任何东西:同人小说、哲学辩论、甚至代码。人们甚至就GPT-3是否是第一个通用人工智能展开争论。”
自那以后,国内就在积极推进这类大模型在中文世界的落地。阿里巴巴曾联合清华大学,在今年3月发布了参数规模达1000亿的中文预训练模型M6,可应用于电商产品描述生成、问答、中国诗歌生成等任务。今年4月,华为发布华为云盘古大模型,开发者只需少量行业数据,就可以快速开发出精准度更高、泛化能力更强的AI模型。
本次浪潮发布的源1.0在规格上达到了新高。浪潮表示,源1.0模型参数规模为2457亿,训练采用的中文数据集达5000GB。相比GPT-3模型,源1.0的参数规模领先40%,训练数据集规模领先近10倍。
根据浪潮提供的测试数据,将源1.0模型生成的对话、小说续写、新闻、诗歌、对联与由人类创作的同类作品进行混合并由人群进行分辨,测试结果表明,人群能够准确分辨人与“源1.0”作品差别的成功率已低于50%。
在零样本学习榜单中,“源1.0”超越业界最佳成绩18.3%,在文献分类、新闻分类,商品分类、原生中文推理、成语阅读理解填空、名词代词关系6项任务中获得冠军;在小样本学习的文献分类、商品分类、文献摘要识别、名词代词关系等4项任务获得冠军。在成语阅读理解填空项目中,源1.0的表现已超越人类得分。
企业竞相发布 “大型语言模型”,原因在于AI技术普及的瓶颈。在开发效率上,AI应用开发太慢,阻碍了技术和需求的结合,而大模型被视为可行方向。“目前来看,通过大规模数据训练超大参数量的巨量模型,被认为是非常有希望实现通用人工智能的一个重要方向。”浪潮首席科学家王恩东认为。
“大模型最重要的优势,是进入大规模可复制的产业落地阶段,只需小样本的学习,也能达到比以前更好的效果,而且模型参数规模越大,这种优势越明显,可大大降低各类用户的开发使用成本。”浪潮人工智能研究院首席科学家吴韶华说。
在推广形式上,源1.0采用开源模式,面向高校、科研机构的人工智能方向的团队,以及浪潮合作伙伴和智能计算中心开放。吴韶华设想,源1.0从数据、API、代码这些方面来做开源开放。同时,浪潮还将与合作伙伴推动“源”在国产的芯片上应用的迁移和开发。
浪潮预计,源1.0中文巨量模型的发布,使得中国学术界和产业界可以使用一种通用巨量语言模型的方式,大幅降低针对不同应用场景的语言模型适配难度,并提升在小样本学习和零样本学习场景的模型泛化应用能力。
AI市场应用规模正逐步加大。浪潮信息AI&HPC产品线总经理观察到,对于AI模型的算力需求,每3到4个月就会翻一倍,预计每天会增长一个数量级。“我们可以非常直接的感受到,AI云服务平台已经在为工作生活等方方面面提供包括云识别、图象识别、自然语言处理等非常多AI服务的调动。每天的调动量会超过数万亿次。”
对浪潮信息而言,以“大型语言模型”为代表的AI模型对算力需求巨大,有助于推动智能计算中心等项目落地和推广。事实上,智能计算中心是近期各家中国科技企业都在力推的项目,浪潮、华为、新华三等IT硬件厂商可通过售卖硬件,从中获益。
在AI应用上,人工智能的炫技式应用已经被行业解决方案替代,大算力支持已经不可或缺。例如,部分政府的市民服务热线在使用了自动派单、语义识别、情绪感知等人工智能技术之后,速度从过去的几分钟缩短到了几秒钟。根据浪潮的设想,源1.0模型可涉及运营商智能运维,在智能办公场景自动生成报告,在手机互联网场景自动对话的智能助手,在电商互联网场景中的智能客服及文字识别、文本搜索、翻译等应用场景。
受益于AI巨大市场,浪潮信息相关业务保持增长。根据2020年IDC的全球AI服务器的数据,浪潮、戴尔和HPE,分列全球市场的前三位,其中浪潮市场占有率达到16.4%。IDC还预计,到2025年中国AI服务器的市场规模会达到108亿美元。