原创

【AI】OpenAI将停止对Codex的支持

前言

研究人员依赖于公司创建的机器学习模型进行研究,其中一种模型是OpenAI的Codex,已被用于大约100篇学术论文。和其他OpenAI的模型一样,Codex并不是开源的,因此用户需要依赖于OpenAI来访问该模型。

这周一,OpenAI宣布,将在星期四停止对Codex的支持。数以百计的学术论文将不能在被引用及重现:研究人员将无法评估其有效性并在其结果的基础上进行研究。而使用 OpenAI 模型构建应用程序的开发人员将无法确保其应用程序能够如预期般正常运行。

可重复性研究的重要性

地质学家约翰·克拉伯特 (John Claerbout) 将「可重复研究」定义为“其他科学家复制 (论文) ”的可能性。对于许多研究项目来说,如果该项目的作者为所有其他研究人员提供了用以完全重现论文结果的所有资料 (数据和程序),则该项目被认为是可重复的。科学研究曾经遭受过重复性研究的危机,包括在人工智能方面。

由于模型中的微小变化可能会导致重大的下游影响,因此可重复研究的先决条件是能够访问实验中使用的确切模型。如果研究人员在使用更新的模型时未能重现论文的结果,那么就无法知道这是因为模型之间的差异还是原始论文中存在的缺陷。

为此,OpenAI 对批评进行了回应,表示他们将允许研究人员访问Codex。但是申请过程不透明:研究人员需要填写一份表格,而公司决定谁能获得批准。目前不清楚谁可以被视为研究人员,需要等待多久以及有多少人将获得批准。最重要的是,Codex仅通过研究员计划“在有限的时间内”提供(具体持续时间不详)。

OpenAI定期更新较新的模型,例如GPT-3.5和GPT-4,因此使用这些模型自动成为可重现性的障碍。该公司提供特定版本的快照,以便模型在下游应用中继续以相同的方式运行。但快照也只保持三个月而已。这意味着使用较新的模型进行可重现性研究的前景也很渺茫甚至不存在。

不仅研究人员可能希望重现科学结果。想要使用OpenAI的模型的开发者也被排除在外。如果他们使用OpenAI的模型构建应用程序,在当前模型被停用时,他们无法确定模型的以后行为。OpenAI表示开发者应该转向较新的GPT 3.5模型,但在某些情况下,这个模型比Codex更差。

大模型(LLMs)是研究的基础

人们对OpenAI模型缺陷的担忧将会越来越大,因为LLMs正在成为最基础的内容。研究者与开发者依赖LLMs,基于LLMs再调整各自的程序。OpenAI没有通过提供分版本的模型来负责地维护这个基础设施。

在OpenAI启用Codex之前,有不到一周的时间转向另一种模型。 Codex. OpenAI要求研究人员使用GPT3.5. 但这些模型不具有可比性,之前的工作变得不再具有可确定性。OpenAI这种做法,太匪夷所思了,完全不是成熟公司应该做的,成熟公司通常会提前几个月或者几年发出通知。

开源LLMs有助于重复性

LLMs有一个令人兴奋的的点。使用公开可用的 LLM 可以减少科技公司与学术研究之间的资源差距,因为研究人员不需要从头开始收集数据,培训模型。随着生成式人工智能的研究从开发LLM转向使用它们进行下游任务,确保可重复性非常重要。

OpenAI不经过谨慎考虑就废止Codex的行为表明,在使用来自科技公司的闭源模型时需要保持谨慎。使用开源模型,比如BLOOM,将会避免这些问题:研究人员可以访问该模型而不是依赖于科技公司。. 开源LLM是一个复杂的问题,在决定是否采取这一步骤之前,还有许多其他因素需要考虑。但是,开源LLM可能是确保可重复性的关键一步。

本文来自:【AI】OpenAI将停止对Codex的支持-小码农,转载请保留本条链接,感谢!

温馨提示:
本文最后更新于 2023年03月24日,已超过 400 天没有更新。若文章内的图片失效(无法正常加载),请留言反馈或直接联系我
正文到此结束
本文目录