了解最新公司动态及行业资讯
众所周知,自2020年起,微软与微软就独家获取GPT-3源代码达成协议,GPT-3的模型代码不再对外公开(GPT-1和GPT- 2 个是开源项目)
出于对科技巨头霸权的“反抗”,成立了由研究人员、工程师和开发者志愿者组成的计算机科学家协会,打破了微软和Open AI在大规模NLP模型上的垄断,取得了不错的成绩。
这个协会是电子商务。
以古罗马自由女神之名,流露出对巨人的蔑视与反抗。
与拥有 1750 亿个参数的 GPT-3 相比,GPT-NeoX-20B 的参数显然微不足道。 但是,为这一成就感到自豪。 为什么?
1 来源
首先介绍一下发展历程。
长期以来,人工智能威胁论一直是热门话题。 霍金在《独立报》中表达了人工智能的威胁。 “人工智能的短期影响取决于谁控制它,而长期影响取决于它能否被控制。” “
成立于2020年7月,主要发起人是一群号称自学成才的黑客,主要领导是Leahy、Leo Gao和Sid Black。
当时,微软与 签署了 GPT-3 访问控制协议。 听到风声,反叛的极客开始在(社交媒体平台)上说:“让我们来上一课吧!” “
因此,他们希望在建立的基础上,建立一个可以媲美GPT-3的机器学习模型。
创始人 Leahy 在接受 IEEE 采访时表示。
“它开始是一个非常有趣的爱好,但当瘟疫关闭这座城市时,我们无法做得更好。它很快就变成了一种魅力。” “
“我们认为自己是过去几十年经典黑客文化的后代,但出于好奇和对挑战的热爱,我们在新领域尝试技术。” “
该服务器目前有大约 10,000 名成员,但只有大约 100 或 200 名定期活跃,并且 10 到 20 人的团队正在开发新模型。 自成立以来,其研究团队首先开源了基于GPT-3的60亿参数的NLP模型GPT-J,并于2021年3月发布了27亿参数的模型GPT-Neo级别,可以说是发展迅猛。
今年2月9日,他们与Core 合作发布了GPT-Neo的升级版——GPT-NeoX-20B。 官方代码地址如下it技术工程师,目前可以在天眼之眼公开下载。
代码地址:/
它也是目前最大的可公开访问的预训练通用自回归语言模型。
在发布声明中,Leahy 特别标记了“标准语言建模任务的正确性”和“通过评估衡量的主题组事实知识的零样本正确性”。
2 GPT-NeoX-20B的优势:免费、开放
简而言之,GPT-NeoX-20B 是一个具有 200 亿参数、预训练、通用和自回归的大规模语言模型。
如果您不知道它是什么,请考虑 GPT-3。 这是近两年前震惊世界的大型语言模型,其语言能力浩瀚无边。 文章可以简单地通过编写计算机代码、写诗、生成具有权威色彩、风格难以区分的假新闻,甚至给出标题和句子来生成。 那是因为可以根据非常少的输入信息自己“创建”它。 另外,你创造的东西也可以写成文章(题外话:就像漫威机器人贾维斯一样)
必须承认,该模型大于 1750 亿个参数(模型中编码信息的节点或数字)。 参数越多,模型就越“聪明”,因为它吸收和分解的信息更多。
但是,它是世界上同类产品中最强大的模型,并且可以免费公开获取。
“我们希望更多的安全研究人员能够使用这项技术,”Leahy 说。
此外,它不同于训练大规模模型所需的计算能力。
GPT-3 在未知数量的 V100 核心 GPU 上进行了训练。 合作伙伴 随后开发了一个用于训练大型模型的单一系统,该系统具有多个 CPU 内核、10,000 个 GPU 和 400 Gb/s 的网络连接。 这并没有阻止反 GPT-3 垄断的承诺。 他们最初使用谷歌提供的硬件作为其 TPU 研究云计划的一部分构建了 GPT-J,这是一种具有 60 亿个参数的大型语言模型。 对于 GPT-NeoX-20B,该小组得到了一家致力于基于 GPU 的工作负载的云服务提供商的支持。
它被称为人工智能非营利组织,但目前其本质是一个由科技公司主导的私人模式。
数学家和人工智能研究人员告诉 IEEE:
“这些私人模型限制了我们这些独立研究人员可以访问的内容。如果我们不知道它是如何工作的,科学家、伦理学家和整个社会就无法就如何将这项技术应用到我们的生活中进行必要的对话。” . “”
他的工作推动了大规模语言模型的可描述性、安全性、伦理学等方面的研究it技术工程师,得到了外界的肯定。
机器学习安全领域的关键人物倪教授在最近的一篇论文中表示:“如果没有 The Pile 数据集及其 GPT-Neo 系列模型的全面公开,我们的研究就无法实现。” Pile 数据集是一个 825 GB 的英文文本语料库,用于训练大型语言模型。
文/澜梦IT外包