今天早上,外媒 SemiAnalysis 公布了这份重磅炸弹泄露文件。
据悉,这份文件是一名匿名人士在 Discord 服务器上分享出来的,文件来自谷歌内部的一名研究员,真实性已被确认。
(资料图片仅供参考)
SemiAnalysis 特别强调,这份文件仅代表谷歌员工的意见,不代表整个公司的意见。
内部文件
我们没有护城河,OpenAI 也没有
我们一直在严密监视着 OpenAI。谁将跨越下一个里程碑?下一步将是什么?
但现在,令人不安的事实就是:我们无法赢得这场军备竞赛,OpenAI 也不能。
就在我们两方对战的时候,第三方正在悄悄地吃掉属于我们的好处。
没错,我说的就是开源。说白了,他们已经超越了我们。我们认为的「重大开放问题」如今已经解决,掌握在所有用户手中。几个简单的例子:
手机上的 LLMs:在 Pixel 6 上,以每秒 5 个 token 的速度,就能运行基础模型。
可扩展的个人 AI:只要一个晚上,就能在笔记本电脑上微调出一个个性化 AI。
负责任的发布:这一点倒是没有「解决」,说「避免」会更贴切。现在网上到处都是充满了各种艺术模型的网站,没有任何限制,开源的大语言模型也不甘其后。
多模态:当前的多模态 ScienceQA SOTA,只用一个小时就能训练出来。
虽然我们的模型在质量上仍然略有优势,但差距正在以惊人的速度缩小。
这些开源模型更快、更可定制、更私密,性能也更强大。
他们只用 100 美元和 13B 的参数,就能做到我们用 1000 万美元和 540B 的参数下才能做的事。他们在几周内完成,而不是几个月。
这对我们有着巨大的冲击:
我们没有独家秘密武器了。最大的希望就是,学习其他人正在做的事,与他们合作。我们应该优先考虑允许第三方集成。
当这些免费的、不受限的开源平替具有完全相当的质量,用户不会再为受限的模型付费了。我们应该考虑下,我们真正的增值在哪里。
巨型模型正在减慢我们的速度。从长远来看,最好的模型是那些可以快速迭代的模型。既然我们知道在参数少于 200 亿时模型会有怎样的可能,我们就应该更关注小模型。
发生了什么
3 月初,随着 Meta 的 LLaMA 被泄露给公众,开源社区得到了第一个真正性能强大的基础模型。它没有指令或对话调整,也没有 RLHF。
尽管如此,开源社区立刻明白:他们得到的东西有多么重要。
随后,大量创新的开源平替模型不断地涌现出来。每隔几天,就出现一个大进展。
才短短一个月,就有了指令调整、量化、质量改进、人工评估、多模态、RLHF 这么多功能的变体,许多还是建立在彼此的基础上的。
最重要的是,他们已经解决了规模的问题,现在任何一个人,都可以参与其中。
如今,许多全新的想法都来自普通人。训练和实验的门槛已经大大降低,从前需要一个大型研究机构合力工作,现在,只需要一台功能强大的笔记本,一个人在一晚上就能搞定。
我们本可以预见到这一切
这对任何人来说,都不算什么惊喜。图像生成领域的复兴之后,紧接着就是开源 LLM 的复兴。
许多人说,这就是大语言模型的“Stable Diffusion”时刻。
在这两个领域,让公众能够以低成本参与,都是通过低秩适应(LoRA)来实现的。它让微调机制的成本大大降低,
还实现了模型规模的重大突破。(比如图像合成的 Latent Diffusion,LLM 的 Chinchilla)
在获得足够高质量的模型后,世界各地的个人和机构都开始了一系列对模型的创新和迭代。而这些创新,也迅速超越了大科技公司。
在图像生成领域,这些贡献至关重要,使 Stable Diffusion 走上了与 Dall-E 完全不同的道路。
Stable Diffuision 的开源,导致了产品集成、市场、用户界面的创新,而在 Dall-E 身上,这些却没有发生。
这样做的后果是显而易见的,Stable Diffusion 迅速占据了主流,与之相比,OpenAI 的解决方案已经变得无关紧要了。
同样的事情是否会发生在 LLM 领域?目前还未知,但这两件事,有太多相似之处。
我们错过了什么?
开源社区最近取得成功的很多创新,直接解决了我们还未解决的很多难题。
更多地关注他们的工作,可以帮我们避免重新造轮子。
LoRA 是一种非常强大的技术,我们可能应该对它更加关注。
LoRA 通过将模型更新表示为低秩分解来工作,这将更新矩阵的大小减少了数千倍以上。
这就让模型微调的时间和成本都大大降低。
如果在几个小时内,就能在消费级硬件上微调出一个个性化的语言模型,这件事的意义就太重大了。尤其是,它还可以实时整合许多最新的、多样化的知识。
但这项技术在谷歌内部并未得到充分重视,尽管它直接影响了我们最寄予厚望的项目。
从头开始重新训练模型,是一条艰难的道路
LoRA 如此有效的部分原因在于,与其他形式的微调一样,它是可堆叠的。
可以应用指令调整改进模型,这样在其他贡献者添加对话、推理或工具时,就可以直接使用。
虽然单独的微调是低秩的,但它们的总和不需要,因此模型的全秩更新就可以随着时间的推移而累积。
这意味着,只要有新的、更好的数据集和任务出现,模型就可以以低廉的成本保持最新状态,无需支付完整运行的成本。
相比之下,从头开始训练巨型模型不仅会失去预训练的过程,还会失去在顶部进行的任何迭代改进。
在开源世界中,这些改进很快就会占据主导地位,这使得全面重新训练模型的成本极其昂贵。
我们应该考虑,每个新的应用或想法是否真的需要一个全新的模型?
如果我们真的有重大的架构改进,以至于无法直接重新使用模型权重,那么我们应该去投资更积极的蒸馏形式,来尽可能多地保留上一代模型的功能。
如果我们能够在小模型上快速迭代,那么从长远来看,大模型并不是强到无所不能
LoRA(大型语言模型的低秩适应)是微软提出的一种新颖技术,旨在解决微调大型语言模型的问题。
它的更新对于最受欢迎的模型大小来说非常便宜(约 100 美元),这意味着几乎任何有想法的人都可以生成一个,并分发出去。
以后,一天之内训练一个模型都是平平事。
以这样的速度,用不了多久,这些微调的累积效应很快就会弥补起初的模型大小的劣势。
事实上,这些模型的改进速度远远超过了我们使用最大模型所能做的,而且最好的模型与 ChatGPT 在很大程度上已经无法区分。
专注于研究一些大模型,反而让我们处于不利地位。
要数据质量,不要数据规模
许多项目通过对小型、精选数据集上进行训练来节省时间。这表明数据扩展规律具有一定的灵活性。
这样数据集的存在源于「Data Doesn"t Do What You Think」一文中的思路,它们正迅速成为在谷歌之外进行训练的标准方式。
这些数据集是通过合成方法(比如,从现有模型中筛选出最佳响应)和从其他项目中搜集而构建。谷歌在这两者中都不占主导地位。
幸运的是,这些高质量的数据集是开源的,因此可以免费使用。
与开源直接竞争,是一个失败的命题
AI 新进展对谷歌的商业战略有着直接、即时的影响。如果有一个免费的、高质量、且没有使用限制的替代品,谁会为谷歌产品付费?
而且我们不应该指望能够赶上。现代互联网之所以依赖开源,是有原因的。开放源码有一些我们无法复制的显著优势。
比起他们需要我们,我们更需要他们
我们技术的保密一直是一个脆弱的命题。
谷歌的研究人员正定期离开,前往其他公司。所以我们可以假设他们知道我们所知道的一切。而且只要这条渠道是开放的,他们就会继续这样做。
但是,由于 LLM 的前沿研究成本低廉,保持技术领域的竞争优势变得更加困难。
世界各地的研究机构都在相互借鉴,以广度优先的方式探索远远超出我们自身能力的解决方案空间。
我们可以试着紧紧抓住我们的秘密,而外部创新会削弱了其价值,又或者我们可以尝试着互相学习。
与公司相比,个人受到许可的限制程度较小
近来,模型的创新大多在 Meta 的 LLaMA 模型权重泄露之后进行的。
虽然这肯定会随着真正的开源模型变得更好而改变,但关键是他们不必等待。
「个人使用」所提供的法律保护以及起诉个人的不切实际意味着,个人在这些技术炽热时就能获得这些技术。
作为自己的客户意味着,你理解用例
浏览人们在图像生成领域中创建的模型,从动画生成器到 HDR 景观,创造力源源不断地涌现出来。
这些模型由深入特定子类型的人使用和创建,赋予了我们无法企及的知识深度和共鸣。
拥有生态系统:让开源为我们工作
矛盾的是,大厂竞相争先的背后,赢家就是 Meta。
因为泄露的模型 LLaMA 是他们的,所以相当于他们有效地获得了整个星球价值的免费劳动力。
由于大多数开源创新都基于 LLaMA,所以没有什么能阻止他们直接将其纳入自己的产品中。
拥有生态系统的价值,未来将不可估量。曾经的谷歌已经成功地在其开源产品(如 Chrome 和 Android)中使用了这一范式。
通过拥有创新发生的平台,谷歌巩固了自己作为思想领袖和方向制定者的地位。
我们对模型的控制越严格,开源替代品就越有吸引力。
谷歌和 OpenAI 都倾向于严格控制模型使用,开启一种防御性的反应。
但是这种控制只是虚构的,因为任何试图将 LLMs 用于未经批准的目的的人,都可以选择自由提供的模型。
谷歌应该在开源社区中确立自己的领导地位,通过合作来发挥引领作用。
这可能意味着要采取一些令人不安的步骤,比如发布小型 ULM 变体的模型权重。这必然意味着放弃对我们模型的一些控制。
但这种妥协是不可避免的。我们不能同时做到既推动创新,又控制创新。
结束语:OpenAI 怎么样?
鉴于 OpenAI 目前的封闭政策,所有关于开源的讨论可能让人觉得不公平。
如果他们不愿意,我们为什么要分享呢?但事实是,我们正通过源源不断地被挖走的高级研究人员与他们分享了一切。
在我们阻止这股潮流之前,保密是没有意义的。
最后,OpenAI 并不重要。
相对于开放源代码,他们正在犯同样的错误,他们保持优势的能力必然受到质疑。
除非他们改变立场,否则开源替代品可以,而且最终会超越他们。至少在这方面,我们可以先行一步。
开源时间线
23 年 2 月 24 日,LLAMA 发布
Meta 发布 LLaMA,开源代码,但没有公布权重。此时,LLaMA 尚未进行指令或对话调优。
与许多当前模型一样,它是一个相对较小的模型(参数分别为 7B、13B、33B 和 65B),经过相对较长时间的训练,因此与其大小相比具有相当强大的能力。
23 年 3 月 3 日,不可避免的事情发生了
不到一周,LLAMA 就被泄露给了公众。Meta 现有的许可禁止将 LLAMA 用于商业目的。
突然之间,任何人都可以进行试验。在整个社区,掀起了模型创新的海啸。
23 年 3 月 12 日,语言模型在烤箱上运行
一个多星期后,Artem Andreenko 成功在树莓派上运行模型。当时,模型运行速度非常慢,因为权重必须在内存中分页,实用性不强。
尽管如此,这为一系列缩小模型规模的努力奠定了基础。
23 年 3 月 13 日,笔记本电脑上的微调
第二天,斯坦福发布了 Alpaca,它为 LLaMA 增加了指令调优功能。
然而,重要的是,Eric Wang 的 alpaca-lora 仓库,它使用 LoRA 在单个 RTX 4090 上几小时内完成了这个训练。
从这时起,突然间,任何人都可以对模型进行微调,引发了一场关于低成本微调模型的竞争。
许多铺天盖地的报道称 xxx 模型总共花费了几百美元。
更重要的是,低秩更新可以轻松地与原始权重分开分发,使他们摆脱了 Meta 原始许可的约束。任何人都可以分享和应用它们。
23 年 3 月 18 日,变得更快了
GeorgiGerganov 使用 4 位量化在 MacBookCPU 上运行 LLaMA。
这是第一个「无 GPU」解决方案,速度足够快,实用性很强。
23 年 3 月 19 日,一个 13B 型实现了与 Bard 的「平衡」
第二天,一个跨大学的合作发布了 Vicuna,并使用 GPT-4 驱动的评估对模型输出进行定性比较。虽然评估方法值得怀疑,但该模型实质上比早期的变体更好。
最最重要的是,只用了 300 美元进行训练。
值得注意的是,他们能够使用来自 ChatGPT 的数据,同时规避其 API 的限制
他们只需从像 ShareGPT 这样的网站上获取令人印象深刻的 ChatGPT 对话样本。
23 年 3 月 25 日,选择自己的模型
Nomic 创建了 GPT4All,它既是一个模型,更重要的是,它也是一个生态系统。
所有人第一次看到模型(包括 Vicuna)汇集在一个地方。训练费用: 100 美元。
23 年 3 月 28 日,开源版 GPT-3
Cerebras 使用 Chinchilla 暗示的最佳计算计划和 μ 参数化暗示的最佳缩放(optimal scaling)来训练 GPT-3 架构。
这比现有的 GPT-3 克隆有很大的优势,代表了 μ 参数化在实际应用中的首次使用。这些模型是从零开始训练的,这意味着社区不再依赖 LLaMA。
23 年 3 月 28 日,一小时完成多模态训练
LLaMA-Adapter 采用一种新的参数有效微调(PEFT)技术,在一个小时的训练中引入指令调优和多模态。
令人印象深刻的是,它们只使用了 120 万个可学习参数。该模型在多模态 ScienceQA 上刷新了 SOTA。
23 年 4 月 3 日,人们无法区分 13B 开源模型和 ChatGPT
伯克利发布了 Koala,这是一个完全使用免费数据进行训练的对话模型。
他们采取了衡量真实人类在 Koala 和 ChatGPT 之间的偏好的关键步骤。
虽然 ChatGPT 仍然稍占上风,但超过 50% 的时间,用户要么更喜欢 Koala,要么无所谓。训练费用: 100 美元。
23 年 4 月 15 日,ChatGPT 级的开源 RLHF
Open Assistant 发布了一个模型,更重要的是,发布了一个用于通过 RLHF 进行对齐的数据集。
这一模型在人类偏好方面接近 ChatGPT (48.3%:51.7%)。
除了 LLaMA 之外,他们还展示了这个数据集可以应用到 Pythia-12B 上,为人们使用一个完全打开的堆栈来运行模型提供了选择。
此外,由于数据集是公开可用的,它使得对于小型实验者来说,RLHF 从不可实现变得便宜,且容易。
谷歌筑墙,啪啪打脸
虽说开源是胜利,但现在的谷歌却反身架起城墙,拒绝开源。
今年 2 月,长期担任谷歌人工智能部门负责人 Jeff Dean 对内宣布了一项令人震惊的政策转变:
推迟与外界分享内部工作。
多年来,Dean 一直把部门当作一所大学来管理,鼓励研究人员大量发表学术论文。据 Google Research 显示,自 2019 年以来,他们推动了近 500 项研究。
自 ChatGPT 诞生以来,一路风生水起,显然让谷歌一时慌了神,并就此必须做出改变。
Dean 表示,谷歌在人工智能领域的发现只有转化成产品后,才会共享论文。
Jeff Dean 在谷歌研究部门的季度会议上表示,这家位于旧金山的初创公司 OpenAI,通过学习团队的论文,才跟上了谷歌的步伐。
我们都知道,ChatGPT 中的 T 便指的是谷歌 Transformer 架构,是以 Transformer 架构为核心的大型语言模型。
为了追赶 ChatGPT,谷歌开启了防御模式。这对谷歌来说,是一个重大转变。
这一政策首先是为了抵御一批强大的 AI 竞争对手,另外是为了保护其核心搜索业务、以及可能的未来。
然而正如内部文件泄露所称,谷歌不是胜者,OpenAI 也不是,真正的赢家才是 Meta。
开源的胜利,谷歌曾尝过。现在,是该做些改变了。
-
环球短讯!开源狂潮让巨头惨败,谷歌内部文件曝光:我们和 OpenAI 都没有护城河谷歌的一份名为《我们没有护城河,OpenAI也没有》的内部文件疑似被泄露,今天早上,外媒SemiAnalysis公布了
-
国际原子能机构警告扎波罗热核电站周围存在危险 天天新要闻当地时间5月6日,国际原子能机构总干事格罗西警告称,随着当地官员开始疏散人员,俄罗斯控制的乌克兰扎波罗
-
数字2变成小天鹅的方法(用数字2画白天鹅)|当前热点教小朋友学习数字的同时也能学习简笔画,用数字2能画出一只天鹅来。下面来分享用数字2变成天鹅的简笔画方法
-
世界观察:4月末中国外汇储备32048亿美元 环比升0.66%中新社北京5月7日电(记者夏宾)中国国家外汇管理局7日公布数据显示,截至2023年4月末,中国外汇储备规模为32
-
砍伐林业税1、砍伐林业税指法国为了避免减少国家森林资源,于1969年开征的一种税。2、征税对象是地上被直接或间接砍伐
-
万华化学:烟台工业园乙烯等装置停产检修 对公司生产经营不会产生影响-观速讯万华化学(600309)5月7日晚公告,根据化工企业生产工艺特点,为确保生产装置安全有效运行,按照年度检修计划
-
Failed to connect to zw.gozuowen.com port 80: Timed out_全球热推荐1、【适应症】主要用于短期缓解焦虑、紧张,激动,也可用于催眠,焦虑伴有精神抑郁的辅助用药,并能缓解急
-
观速讯丨金鹏航空公司行李托运价格表_行李托运价格表1、按照超重行李额,按经济舱客票总额的1 5%收取。2、全票价不是折扣价,比如经济舱全票价2400,折扣价1500。3、
-
世界观天下!网传这2地恢复核酸检测,回应来了!01东莞一街道连续8天开展核酸检测回应:常规检测服务5月5日晚,广东东莞东城街道在其官方微信公众号上,发
-
两大美媒预测湖人晋级西决概率超60%!水拉觉醒成要因:减压詹眉北京时间5月7日,湖人以127-97击败勇士,大比分2-1反超。这场比赛丹吉洛-拉塞尔开场就打出了完美表现,4分
-
生态与经济共赢 从卖竹子到卖碳汇 竹产业走出发展新路子 环球热头条央视网消息:目前,全国竹林面积达700万公顷,占全球的五分之一。除了加工利用之外,竹林本身也在为当地创
-
沪尚墨缘向云南广南县捐赠课桌椅并举办公益书画展-每日热文今年,上海市沪尚墨缘书画文化公益中心再次启动对口云南广南县珠街镇树科小学的课桌椅的捐赠。
-
焦点播报:上海启动青少年学生读书行动为了激发学生阅读兴趣、提升学生核心素养,引导青少年学生爱读书、读好书、善读书,上海市青少年学生读书行
-
初夏稻田耕种忙 波光粼粼美如画央广网吉安5月7日消息(见习记者刘培俊)田家少闲月,五月人倍忙。江西省遂川县巾石乡密岭村的稻田波光粼粼
-
南海九段线地图标准_中国南海九段线地图1、请问你得到了吗。2、我也想用。3、不知是否方便分享给我呀。本文到此分享完毕,希望对大家有所帮助。
-
【天天时快讯】第九届中国国际养老服务业博览会在京开展第九届中国国际养老服务业博览会在京开展
-
魂粉碎_关于魂粉碎简述_观热点小伙伴们,你们好,今天小夏来聊聊一篇关于魂粉碎,关于魂粉碎简述的文章,网友们对这件事情都比较关注,那
-
董明珠股票被冻结证实是乌龙,但她曾多次质押格力电器股票-头条焦点近日,格力电器董事长董明珠股票被“冻结”一事引发热议。对此,5月5日晚间,格力电器发布公告《关于2023年
-
身材严重发福!48岁艾弗森来华捞金获追捧 将出席国内街球赛事北京时间5月6日,NBA名人堂巨星艾弗森来华,他抵达上海浦东国际机场,获得诸多球迷围观拍照。对于退役多年
-
李婷宜个人资料(李婷宜个人资料简介)1、李婷宜,1978年9月18日出生于台湾省台北市,中国台湾影视女演员、流行乐歌手。2、1993年,李婷宜被星探
-
88年后入土为安 云南禄劝隆重安葬21具红军烈士遗骸今天(6日)上午,21具红军烈士遗骸安葬仪式在云南省昆明市禄劝县举行。青山埋忠骨,山河念英魂,时隔88年
-
环球要闻:红衣男孩事件_红衣男孩事件是怎么回事1、54岁的匡和他的妻子在重庆江北区工作。因为工作需要,日常通勤不便,就住在附近的江北区。他们有一个独
-
我国首个综合性科学中心建设全面启动App5月6日消息,我国首个综合性科学中心成渝(兴隆湖)综合性科学中心建设6日全面启动。成渝(兴隆湖)综合
-
【独家焦点】吃立夏蛋、喝立夏粥,熊猫饭堂好热闹“立夏”节气如约而至,时令美味让舌尖感受季节交替的韵律……228街坊的睦邻小厨熊猫饭堂推出立夏当日时令
-
丰田皇冠二手车东莞_丰田皇冠二手车1、2010款丰田皇冠二手车如果是2 5排量低配没有发生过大的事故,手续没有问题,车子没有泡过水的情况下应该
-
中国企业亮相巴西农技展 巴中农业合作驶入快车道当地时间5日,巴西圣保罗国际农业技术展览会(AGRISHOW)在圣保罗州里贝朗普雷图市闭幕。这是拉丁美洲最大的
-
消失数月后,雷丁汽车申请破产-环球最资讯消失数月后,雷丁汽车申请破产天眼查显示,近日,雷丁汽车集团有限公司新增一则破产审查案件,案号为(2023)
-
延庆区八达岭东曹营村青年志愿者服务队1、延庆区八达岭东曹营村青年志愿者服务队是由延庆区八达岭青年志愿者服务队领导下的志愿团体。2、成立于19
-
党家街道持续推进“三小一堆”专项治理为进一步改善人居环境,提升城市品质,严格落实“三小一堆”专项治理工作要求,连日来,党家街道城管委坚持
-
进口电饭煲哪个牌子的好用_进口电饭煲哪个牌子的好|环球报道1、虎牌最出名,不过建议买国产的,像美的。2、苏泊尔之类的大品牌都不错,为什么呢?因为维修比较方便。3