原生训练大模型重要性凸显 中科闻歌竞逐AI万亿级赛道

企业新闻11个月前发布 aixure
72 0 0
导读:本报记者 李静 北京报道 12月15日,中国科学院旗下人工智能企业中科闻歌推出全自主知识产权的雅意2.0国产大模型(以下简称雅意2.0),并发布开源技术报告。 据中科闻歌CEO罗引介绍,雅意1.0 大模型于今年6月3日推出,6 个月后推出的 2.0版本,在模型训练、特…

本报记者 李静 北京报道

12月15日,中国科学院旗下人工智能企业中科闻歌推出全自主知识产权的雅意2.0国产大模型(以下简称“雅意2.0”),并发布开源技术报告。

据中科闻歌CEO罗引介绍,雅意1.0 大模型于今年6月3日推出,6 个月后推出的 2.0版本,在模型训练、特色技能、领域应用、测评指标四个方面都有很多突破。首先在模型训练方面,雅意 2.0 实现了从70亿参数量迈向300亿参数量的模型;在训练数据集方面,从200多T丰富的多元数据中萃取出10T左右,一共2.65万亿Tokens的高质量训练数据集,来满足模型训练。

《中国经营报》记者了解到,雅意大模型是一个企业级通用大模型,此前已为政府、中央级媒体、研究机构等多家单位,提供垂直领域专业模型服务。雅意2.0发布后,基于雅意2.0中科闻歌面向安全、媒体、金融、舆情、法律、中医等领域构建了多个行业大模型应用。

中科闻歌董事长王磊表示:“如今,在国内大模型也是百花齐放,然而真正原生的国产化的AI大模型却寥寥可数,人力、人才、算力、算法、数据仍与国际先进水平存在较大差距,国内的AI产业仍处于早期的发展阶段。”

从目前的大模型领域来看,市场上已经有了ChatGPT、LLAM等大模型,但王磊认为,国内仍需要做自己的原生训练大模型,主要是三个方面的答案:第一,当前国内基础原生的大模型极其匮乏,自主研发能力不足,而开源模型的能力又不稳定,中文的支持是相对比较弱的,语种的支持也比较少,安全性不足,无法用于严格的生产环境。第二,很多政企的重要部门需要自主可控、安全可靠的原生模型,因为开源模型是一个黑盒,预训练阶段的时候,数据的来源和质量不可信,就会导致模型在出生时不安全。同时应用到政企场景时,二次训练的可操作性又不强,制约了应用和发展。第三,大模型是大算力、大数据、大算法的融合大工程,是一个庞大的工程,下一代的技术创新需要研发经验的积累,从头预训练可以得到第一手经验,通过积累,可以进行进一步原生创新。

“雅意大模型的研发其实取得了一批硬核的技术成果。首先是全国产化的基础模型,数据模型完全是由我们团队工程师和青年科学家一起自主研发,从头开始预训练。其次非常重要的是,我们积累了两个非常重要的AI数据集,一个是海量的高质量预训练的数据集,一个是领域微调的指令集,我们的AI数据集也参与了智源研究院中国CCI语料数据库的建设,在核心技术的词表压缩、训练加速、意图识别、工具调用等方面取得了一些领先的成果。”王磊说道,“但仍然需要看到的是,在新的一些行业应用里面,多轮对话、长文阅读、多模态智能交互、内容安全可控以及智能插件的自动调用,这些工作还亟待去做一些技术探索。”

“人工智能分为通用和专用,其中通用人工智能分三个层次低等、中等、高等,现在无疑是在低等的层次,但是正在这个层次上逐渐向中等发展和演化,大模型演化趋势是非常明显的。”南开大学经济研究所所长、中国新一代人工智能发展战略研究院首席经济学家刘刚说道,从大模型在各个行业的应用来看,落地时存在着两个重要影响因素。第一个是容错率,内部使用时容错率高,对外用容错率低,容错率决定了这个模型在行业应用的情况。第二个是市场规模,在使用时会先解决头部问题,然后再解决长尾问题。

北京银行首席信息官龚伟华谈到了大模型在银行领域的落地情况,他表示:“当下来看,大模型有自身的优势和一些缺陷。因为大模型中有很多东西是不可解释性的,存在模型黑盒,作为银行来说,如果直接把大模型的能力用于服务客户,风险还是非常大。所以短期来看,大模型直接对外服务会比较少,但是对内我们愿意在各种场景进行训练探索。未来相信随着科技伦理的治理,国家对于模型应用法律法规的逐渐成熟,大模型的应用落地也会更加成熟。”

此外,可以清晰看到的是,人工智能这个万亿级的赛道正在从感知智能向认知和决策智能跨越,以人脸识别等视觉识别技术的企业上市,标志着感知智能的市场已成规模。“而随着ChatGPT的发布,这两年认知智能市场进入了加速的变现期,未来决策智能市场空间更为巨大。”王磊说。

(编辑:张靖超 校对:颜京宁)

赞助本站

© 版权声明

相关文章

暂无评论

暂无评论...