谷歌和OpenAI在AI方面的种种积累,最终真的会败给一群隐藏在民间的“草头侠”吗?
(资料图)
最近,正在进行AI大战的各个大厂,被谷歌泄漏的一份内部文件,翻开了窘迫的一面。
这份泄露的内部文件声称:“我们没有‘护城河’,OpenAI 也没有。当我们还在争吵时,第三个方已经悄悄地抢了我们的饭碗——开源。”
这份文件认为,现在的一些开源模型,一直在照搬谷歌、微软这些大厂的劳动成果,并且双方差距正在以惊人的速度缩小。开源模型更快、可定制性更强、更私密,而且功能性也不落下风。
比如,这些开源模型可以用 100 美元外加 13B 参数,加上几个礼拜的时间就能出炉,而谷歌这样的大厂,要想训练大模型,则需要面对千万美元的成本和 540B 参数,以及长达数月的训练周期。
那么,事实是否真的像这份文件所说的那样,谷歌和OpenAI在AI方面的种种积累,最终真的会败给一群隐藏在民间的“草头侠”?
所谓“大厂垄断大模型”的时代,真的要终结了吗?
要回答这个问题,我们就得先了解下目前开源模型的生态,看看这些如雨后春笋般涌现的开源模型,究竟是如何一步步蚕食谷歌这些“正规军”的江山的。
01 异军突起的开源模型
其实,最早的开源模型,其诞生完全是一场“偶然”。
今年2月,Meta发布了自家的大型语言模型LLaMA,参数量从70亿到650亿不等,并仅用130亿的参数,就在大多数基准测试下超越了GPT-3。
但万万没想到的是,刚发布没几天,LLaMA的模型文件就被泄露了。
至此之后,开源模型的浪潮就如决堤一般,变得一发不可收拾。
如八仙过海一般的ChatGPT开源替代品——「羊驼家族」,随即粉墨登场。
与ChatGPT这类大模型相比,此类开源模型最显著的特点,就是训练成本与时间都极其低廉。
以LlaMA的衍生模型Alpaca为例,其训练成本仅用了52k数据和600美元。
然而,如果开源光靠低成本,还不足以让谷歌这类大厂感到威胁,重要的是,在极低的训练成本下,这些开源模型还能屡次达到和GPT-3.5匹敌的性能。
这下谷歌和OpenAI就坐不住了。
斯坦福研究者对GPT-3.5(text-davinci-003)和Alpaca 7B进行了比较,发现这两个模型的性能非常相似。Alpaca在与GPT-3.5的比较中,获胜次数为90对89。
重点来了:这些开源模型,究竟是怎么做到这点的?
斯坦福团队的答案是两点:1、一个强大的预训练语言模型;2、一个高质量的指令遵循数据。
在这里,我们将强大的预训练语言模型(如LlaMA或GPT-3),比喻为一位有着丰富知识和经验的老师。
对于自然语言处理领域的任务,强大的预训练语言模型,可以利用大规模的文本数据进行训练,学习到自然语言的模式和规律,并且可以帮助指令遵循等任务的模型更好地理解和生成文本,提高模型的表达和理解能力。
这就相当于学生使用老师的知识和经验,来提高语言能力,指令遵循等任务的模型可以使用预训练语言模型的知识和经验来提高自己的表现。
除了借助这位“老师”的知识外,开源模型的另一“利刃”,就是指令微调。
指令微调,或指令调优,是指现有的大语言模型生成指令遵循数据后,对数据进行优化的过程。
具体来说,指令微调是指在生成的指令数据中,对一些不合适或错误的指令进行修正,使其更符合实际应用场景。
而指令调优是指在生成的指令数据中,对一些重要、复杂或容易出错的指令进行加重或重复,以提高指令遵循模型对这些指令的理解和表现能力。
凭借着这样的“微调”,人们可以生成更准确、更有针对性的指令遵循数据,从而提高开源模型在特定任务上的表现能力。
如此一来,即使只用很少的数据,开源社区也能训练出性能匹敌ChatGPT的新模型。
然而,又一个问题是:面对自己辛苦打下的江山,被开源社区用“四两拨千斤”的方式步步蚕食,谷歌和OpenAI为何一直没有予以反制呢?
哪怕是如法炮制,以毒攻毒,推出同样快速迭代的小模型,也不失为一种破局之策啊。
02 骑虎难下
实际上,谷歌这样的头部企业,不是没有意识到开源的优势。
在那份泄漏的文件中,谷歌就提到:几乎任何人都能按照自己的想法实现模型微调,到时候一天之内的训练周期将成为常态。以这样的速度,微调的累积效应将很快帮助小模型克服体量上的劣势。
可问题是,身为AI领域巨头的谷歌和OpenAI,既不能,也不愿完全放弃训练成本高昂的大参数模型。
从某种程度上说,这是其保证自身优势地位的必要手段。
作为AI领域的巨头,谷歌和OpenAI需要不断提升自己的技术实力和创新能力。而传统的大参数训练模型,则是提供这一探索和创新的必经之路。
因为大模型的底层技术若想取得突破,AI领域的研究者和科学家,就需要更深入地理解模型和算法的基本原理,探索AI技术的局限性和发展方向,这需要进行大量的理论研究、实验验证和数据探索,而不仅仅是微调和优化。
例如,在训练大参数模型时,AI领域的科学家,可以探索模型的泛化能力和鲁棒性,在不同的数据集和场景下评估模型的性能和效果。谷歌的BERT模型,也正是在此过程中得到了不断强化。
同时,大参数模型的训练,还可以帮助科学家探索模型的可解释性和可视化,
例如,对今天的GPT来说至关重要的Transformer模型,虽然在性能上表现出色,但其内部结构和工作原理却相对复杂,不利于理解和解释。
通过大参数模型的训练,人们可以可视化Transformer模型的内部结构和特征,从而更好地理解模型是如何对输入进行编码和处理的,并进一步提高模型的性能和应用效果。
因此,开源和微调的方式,虽然可以促进AI技术的快速发展和优化,但不足以替代对AI基础问题的深入研究和探索。
但话说到这,一个十分尖锐的矛盾又摆了出来:一方面,谷歌和OpenAI不能放弃对大参数模型的研究,并坚持对其技术进行保密。但另一方面,免费、高质量的开源替代品,又让谷歌等大厂的“烧钱”策略难以为继。
因大模型耗费的巨大算力资源和数据,仅是在 2022 年,OpenAI 总计花费就达到了 5.4 亿美元,与之形成鲜明对比的,则是其产生的收入只有 2800 万美元。
与此同时,开源社区的具有的灵活性上的优势,也让谷歌等大厂感到难以匹敌。
在那份泄漏的文件中,谷歌就认为:开源阵营真正的优势在于“个人行为”。
相较于谷歌这些大厂,开源社区的参与者可以自由地探索和研究技术,不受任何限制和压力,从而有更多机会发现新的技术方向和应用场景。
而谷歌研究和开发新技术时,则必须考虑产品的商业可行性和市场竞争力。这就对人才的研究方向产生了一定的限制和约束。
此外,由于保密协议的存在,谷歌的人才也难以像开源社区那样,与外界充分地交流和分享技术研究的成果。
如果说,低价、灵活的开源模型,终将成为一种不可阻挡的趋势,那么当谷歌等大厂面对这浩瀚的战场时,又该怎样在新时代生存下去呢?
03 另辟蹊径
倘若谷歌这样的头部企业,最终在开源阵营的攻势下,选择了“打不过就加入”的策略,那如何在开源的情况下,找到一条可行的商业路径,就成了一件头等大事。
毕竟,在目前的市场认知下,开源几乎就等于“人人皆可免费使用。”
之前,Stable Diffusion背后的明星公司——Stability AI,就因为在开源后,没有找到明确的盈利途径,目前正面临严重的财政危机,以至于到了快倒闭的地步。
不过,关于如何在开源的情况下实现盈利,业界也不是完全没有先例可循。
例如,之前谷歌对Android系统的开源,就是一个经典的案例。
当年,由谷歌主导开发和推广的Android系统开源后,谷歌仍然通过各种途径,从Android操作系统的设备制造商那里获取了收益。
具体来说,这些途径可分为以下几种:
1.收取授权费用:当设备制造商希望在其设备上预装Google Play商店等谷歌应用和服务时,他们需要遵守谷歌的授权协议,并支付相应的授权费用。
2.推出定制设备:谷歌通过与设备制造商合作,推出一些定制的Android设备,如Google Pixel智能手机和Google Nexus平板电脑等,并从中获得收入。这些定制设备通常具有更高的价值和更好的性能,而且会预装谷歌的应用和服务。
3.销售应用:当设备使用者在Google Play商店中购买应用、游戏或媒体内容时,谷歌会从中提取一定的佣金。
虽然这些途径的收益,也许并不像谷歌的主业——搜索和广告那样让其赚得盆满钵满,但谷歌仍然从中获得了各种“隐性收益”。
因为Android 的存在,避免了某一家企业垄断移动平台的入口,只要互联网是开放的,谷歌就能通过吸引更多人使用Android上的应用,来收集用户的行为数据,对这些数据进行加工,从而使得广告投放可以更加精准。
由此可见,开源模式并非与商业化的盈利模式完全冲突,这对于谷歌和开源社区的参与者而言,都是一种好事。
因为只有通过商业化途径,源源不断地为自身“造血”,谷歌和OpenAI等大厂,才能继续承担起训练大参数模型所需的巨额成本。
而只有大参数模型的持续研发,各大开源社区,才能继续以高性能、高质量的预训练语言模型为基础,微调出种类更多,应用场景更为丰富的开源模型。
基于这样的关系,开源模型与封闭的大模型之间,其实不仅仅只是对立与竞争,同时也是一种互助共生的生态。
关键词:
谷歌和OpenAI在AI方面的种种积累,最终真的会败给一群隐藏在民间的“草头侠”吗?最近,正在进行AI大战的各2023-05-11
2022下半年中国视频云市场规模达到49 8亿美元,与去年同期维持在同一水平,其中视频云基础设施与解决方案市2023-05-11
2023年5月11日,实物黄金富艺珠宝黄金报价591元 克,相比上一个交易上涨2元 克。铂金价格今天报价441元 克2023-05-11
对于绝大多数人而言,要增加运动强度,健步快走就是最好的运动之一。不过,老年人还是要注意安全,不要勉强2023-05-11
早春时节,行走张垣大地,空气清爽,河面解冻,绿意萌发。一幅优美的生态画卷徐徐铺展,既是大自然的馈赠,更是张家口对生态环境潜心保护的2022-03-21
3月19日,由省卫生健康委组织开展的冀康周末大讲堂系列活动举行开班仪式和第一季度培训。活动采取视频会的形式举行,共有250余家机构、26002022-03-21
2500元拿下‘碳排放管理师’证书!考个家庭教育指导师,不仅可以科学育娃,还可改变婚姻家庭状况!收纳整理师不限学历门槛,考证月2022-03-21
从省卫生健康委获悉,从今年起,我省将全省脱贫地区新生儿疾病免费筛查病种由原来的3种(先天性甲状腺功能低下、苯丙酮尿症、听力筛查)扩增2022-03-21
当前正值全省春耕、备耕农忙时节,全省公安交管部门紧跟农时,发动农村地区交通安全专项整治春雷行动,强化农村地区交通安全管控,严查农村2022-03-21
日前,民政部办公厅和财政部办公厅公布了居家和社区养老服务改革试点工作经验和典型案例收集及遴选工作结果。在全国51个优秀案例中,滦南县2022-03-21
你,是啃老族吗?先别急着否认。不同于人们印象中那些已成年且有谋生能力,却赖在家里不工作,只靠父母供养的啃老族,如今啃老有了新形式:2022-03-21
近日,霸州市胜芳镇红光小学学生在排练腰鼓。霸州市不断创新课后服务活动内容,将腰鼓、武术、陶艺等非遗项目融入学生社团活动,让学生感受2022-03-21
3月19日,中国组合王曼昱(左) 孙颖莎在比赛中。当日,在新加坡举行的世界乒乓球职业大联盟(WTT)新加坡大满贯女双决赛中,王曼昱 孙颖莎以32022-03-21
从省体育局冬季运动中心获悉,3月17日,河北省第三届冰雪运动会青少组暨2021—2022赛季河北省青少年自由式滑雪空中技巧锦标赛在内蒙古自治2022-03-21
传统文化是几千年来我们民族理解和表达真善美的习惯和经验。中国文联副主席潘鲁生表示,数字化为传统文化赋予了新时空,数字化条件下,传统2022-03-21
钱阵领衔的“科创3D——开启工业级3D打印的中国造”项目日前荣获七届中国国际“互联网+”大学生创新创业大赛高教2021-12-21
本报讯 近日,北京市石景山区人民法院对一起因电动自行车电池入户充电导致火灾而引发的产品责任纠纷案件进行了宣2021-12-21
本报讯 (记者 蔡 蕾 通讯员 梁 军)溜溜球滚进了邻居家院子,女孩私自进入邻居家院里找球,却不慎掉入枯井2021-12-21
10月27日,东林镇第二小学的学生在心理健康课上参加互动游戏。当日,浙江省湖州市东林镇第二小学开展护航青少年心2021-12-21
近年来,山东潍坊共青团在助力乡村振兴中主动担当、积极作为,充分发挥自身优势,以实施乡村振兴“青动力”为统揽2021-12-21
本报讯 在交通事故案中,如果受害人因交通事故死亡,但其已达到退休年龄,被扶养人要求赔偿义务人赔偿生活费能否2021-12-21
今年5月,世界环境司法大会上,一群向北行进的亚洲象吸引了全世界的目光。无数照片、视频不仅记录着大象的一举一2021-12-21
本报北京12月20日电 (记者 乔文心)12月20日上午,最高人民法院党组理论学习中心组围绕学习贯彻《中华人民共和2021-12-21
日前,中国工商出版社在深圳召开“电商行业盗图抄店行为规制暨反不正当竞争研讨会”。有商家代表在会上诉苦:“我2021-12-21
新华社莫斯科12月20日电(记者李奥)俄罗斯外交部20日宣布两名德国驻俄大使馆工作人员为“不受欢迎的人”,以回应2021-12-21
