划重点:
1生成式人工智能初创公司获得的风险投资越来越多,去年全年融资总额为48亿美元,而今年前五个月就已达127亿美元。
2尽管资金充足,生成式人工智能初创公司却难以获得培训大语言模型所需的数据,更不用说大公司不愿与他们分享专有数据。
3在开发生成式人工智能应用方面,大型科技公司可能比初创公司更有优势,部分原因在于它们已经获得了大客户的信任。
科技新闻讯 6月26日消息,生成式人工智能通常需要大量的数据进行训练,以学习和模拟人类的创造性思维。许多初创公司已经获得数十亿美元融资,但如果无法获得大量数据,它们就有可能走向失败。然而,获取数据并不容易,因为大公司通常不愿与他们分享专有数据,尤其是在开发大语言模型方面。
风险投资公司Primary Venture Partners的联合创始人兼普通合伙人布拉德斯沃卢加(Brad Svrluga)表示:“我们看到很多公司都在人工智能领域寻求机会,但他们无法获得能够构建强大应用的数据,更不用说能够帮助他们在业务中拥有竞争力的专有数据了。”
如今,拥有大量合适数据比以往任何时候都更加重要。投资公司Bullpen Capital驻场首席技术官保罗泰马(Paul Tyma)表示,现在构建实际模型已经趋于商业化,真正的价值就在于数据。
数据库分析平台PitchBook的数据显示,生成式人工智能初创公司在2022年获得的风险投资总额为48亿美元,而在2023年前五个月已达127亿美元。现在,有些初创公司正寻求在金融或医疗保健等领域建立更小众的人工智能模型,但要获得这些领域的训练数据集却并不容易。
有些人工智能初创公司希望能与拥有大量数据的大型公司合作。例如,安永负责税务业务的全球副主席玛娜里克(Marna Ricker)表示,由于该公司拥有海量的交易数据,每天都有生成式人工智能初创公司寻求合作。但安永负责客户服务的全球管理合伙人安迪鲍德温(Andy Baldwin)担心,如果安永的数据被用来训练外部模型,后果可能很难预料。
鲍德温补充说:“到底谁可以拥有这些数据?当我们训练模型时,我们对模型的访问权限有多大?其他人还能如何使用这个模型?数据也是我们知识产权的一部分。”
通过使用特定客户的数据,初创公司可以为它们训练不同的模型,来绕过知识产权问题。创业公司TermSheet正在利用这一策略打造自己的生成式人工智能模型Ethan,以便为房地产开发商、经纪人和投资者解答行业问题。但该公司首席执行官兼联合创始人罗杰史密斯(Roger Smith)表示,即便是让客户同意这样做,也需要竭力说服他们。
法律科技公司Logikcull的联合创始人兼首席执行官安迪威尔逊(Andy Wilson)认为,如何让企业相信你拥有强大的网络安全优势,能够切实保护这些数据,这也是一大挑战。
风险投资公司Primary Venture Partners的联合创始人布拉德斯沃卢加说,大型科技公司在开发生成式人工智能应用方面可能比初创公司更有优势,部分原因在于它们已经获得了大客户的信任,而大客户对它们处理数据的方式也感到满意。
金融服务公司Truist的首席数据官特蕾西丹尼尔斯(Tracy Daniels)表示,在探索生成式人工智能的用例方面,她目前只与大型技术供应商合作,而不是与初创公司合作。丹尼尔斯说,她认为大型供应商更能保证数据的安全。
这意味着,即使是那些能够从公开可用数据中获得领先优势的初创公司,也要面对如何用企业数据集充实其模型的挑战。人工智能初创公司Veesual可以生成人们试穿衣服的图像,该公司最初利用互联网上的公共图像培训模型,但很难让大型零售商同意共享他们的数据来增强模型。
Veesual首席执行官兼联合创始人马克西姆帕特(Maxime Patte)表示,在某些情况下,大型零售商要求Veesual支付巨额款项或出让公司股份,以换取Veesual使用它们的数据,但这些交易最终没有谈成。
PatentPal是一家帮助律师事务所起草专利申请的生成式人工智能初创公司,其首席执行官兼创始人杰克徐(Jack Xu)表示,该公司接受了公开专利申请文件的培训。他说,通过继续对加密或匿名的实际客户反馈进行培训,可能会使该工具变得更加准确。但这个过程很复杂,因为反馈必须与高度敏感和机密的数据(包括商业机密)分离。
杰克徐说:“对于处于早期阶段的创业公司来说,存在品牌认知度和社会认同的问题。”
与此同时,初创公司面临的压力也在不断增加。投资公司Strike Capital的创始人兼管理合伙人亚当斯克雷克(Adam Struck)表示,有些初创公司正在互相竞争,以在某些细分市场获得更多数据,关键看谁的速度更快。
斯克雷克补充说:“如果你知道有一个专有数据集,你就会想要赶在其他人之前得到它,然后再就排他性协议进行谈判。从这个意义上说,这几乎变成了一场军备竞赛。”(金鹿)