来自清华、北大、上海交大;腾讯、华为、京东、字节跳动,和炙手可热的AI研发机构北京智源人工智能研究院等十多家知名机构的数十名国内AI大牛参与署名的论文,被Google Brain的一名研究员指出严重抄袭。
被指控的论文名为《A Roadmap for Big Model》(下称《大模型》),根据论文发布时,智源社区发布的文章:论文“由悟道大模型研究项目负责人,智源学术副院长,清华大学计算机系教授唐杰牵头,从大模型基础资源、大模型构建、大模型关键技术与大模型应用探索4个层面出发,对15个具体领域的16个相关主题进行全面介绍和探讨。”
名叫Nicholas Carlini的研究员近日在其博客中直接罗列了大量该论文与他更早发布的“Deduplicating Training Data Makes Language Models Better”论文一摸一样的段落。而且讽刺的是,后者这篇被抄袭的论文,研究的主题正是数据去重和查重。
而且,他还表示,被抄袭的可能至少还有其他十余篇论文。
图源:Nicholas Carlini博客
查阅预印本服务器arXiv可以发现,谷歌大脑研究员的论文上传时间为去年七月份,而《大模型》的上传时间在今年三月。两篇文章所讨论的“大模型”,为目前世界AI研究领域最热门的话题之一。
这篇篇幅巨大的论文,作者署名甚至多达百人。该论文长达数十页,并足足用了第一页的篇幅罗列参与的作者。
其中不乏国内AI业界和学界的知名大佬,供职机构更是把中国知名高校和互联网巨头几乎一网打荆
在论文作者介绍部分写到,“唐杰设计了这个大模型路线图”。根据清华官方信息,唐杰2006年在清华大学计算机系获得博士学位。研究兴趣包括社会网络分析、数据挖掘、机器学习和知识图谱。2022年1月,唐杰刚因对信息和社交网络挖掘的贡献而当选国际计算机学会会士。出现在作者栏的还包括诸多与唐杰一样在中国AI业内响当当的名字。
Nicholas Carlini在其博客中表示:“很可能只有少数作者参与了这种抄袭,一小部分作者的不当行为不应该被用来指责大多数行为良好的作者。”
在Nicholas Carlini的曝光博客发酵后,arXiv已在涉及抄袭的“A Roadmap for Big Model”论文页面下添加了文字重合的警示。
图源:预印本服务器arXiv
就在今天中午,负责“A Roadmap for Big Model”论文牵头的北京智源人工智能研究院的官方账号已对该情况做出回应,其表示:“我们已经注意到对《A Roadmap for Big Model》一文的质疑,正在对相关情况进行核实,智源研究院鼓励学术创新和学术交流,对学术不端零容忍,有关进展将尽快通报。”
图源:知乎