机器之心报道
编辑:吴昕
George Hotz:除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些「不那么酷」的东西。
(资料图片仅供参考)
「GPT-4 的参数量高达 100 万亿。」相信很多人还记得这个年初刷屏的「重磅」消息和一张被病毒式传播的图表。
不过很快,OpenAI 的 CEO Sam Altman 就出来辟谣,证实这是一条假消息,并表示,「关于 GPT-4 的谣言都很荒谬。我甚至不知道这从何而起。」实际上,许多人相信并传播这样的谣言是因为近年来 AI 社区不断在增加 AI 模型的参数规模。谷歌在 2021 年 1 月发布的 Switch Transformer 就把 AI 大模型参数量拉高到了 1.6 万亿。在此之后,很多机构也陆续推出了自己的万亿参数大模型。据此,人们有充分的理由相信,GPT-4 将是一个万亿参数的巨量模型,100 万亿参数也不是不可能。
虽然 Sam Altman 的辟谣帮我们去掉了一个错误答案,但他背后的 OpenAI 团队一直对 GPT-4 的真实参数量守口如瓶,就连 GPT-4 的官方技术报告也没透露任何信息。
直到最近,这个谜团疑似被「天才黑客」乔治霍兹(George Hotz)捅破了。
乔治霍兹因 17 岁破解 iPhone、21 岁攻陷索尼 PS3 而闻名,目前是一家研发自动驾驶辅助系统的公司(comma.ai)的老板。
最近,他接受了一家名为 Latent Space 的 AI 技术播客的采访。在采访中,他谈到了 GPT-4,称 GPT-4 其实是一个混合模型。具体来说,它采用了由 8 个专家模型组成的集成系统,每个专家模型都有 2200 亿个参数(比 GPT-3 的 1750 亿参数量略多一些),并且这些模型经过了针对不同数据和任务分布的训练。
在这段播客播出之后,PyTorch 创建者 Soumith Chintala 表示自己似乎听过同样的「传闻」,很多人可能也听过,但只有 George Hotz 在公开场合将其说了出来。「混合模型是你在无计可施的时候才会考虑的选项,」George Hotz 调侃说,「混合模型的出现是因为无法让模型的参数规模超过 2200 亿。他们希望模型变得更好,但如果仅仅是训练时间更长,效果已经递减。因此,他们采用了八个专家模型来提高性能。」至于这个混合模型是以什么形式工作的,George Hotz 并没有详细说明。为什么 OpenAI 对此讳莫如深呢?George Hotz 认为,除了苹果之外,大部分公司保密的原因都不是在隐藏什么黑科技,而是在隐藏一些「不那么酷」的东西,不想让别人知道「只要花 8 倍的钱你也能得到这个模型」。对于未来的趋势,他认为,人们会训练规模较小的模型,并通过长时间的微调和发现各种技巧来提升性能。他提到,与过去相比,训练效果已经明显提升,尽管计算资源没有变化,这表明训练方法的改进起到了很大作用。
目前,George Hotz 关于 GPT-4 的「爆料」已经在推特上得到了广泛传播。
有人从中得到了灵感,声称要训练一个 LLaMA 集合来对抗 GPT-4。还有人说,如果真的像 George Hotz 说的那样,GPT-4 是一个由 8 个 2200 亿参数的专家模型组合的混合模型,那很难想象背后的推理成本有多高。需要指出的是,由于 George Hotz 并未提及消息来源,我们目前无法判断以上论断是否正确。有更多线索的读者欢迎在评论区留言。George Hotz 采访内容。GPT-4 相关内容在 49:00 前后。视频来源:https://www.youtube.com/watch?v=K5iDUZPx60E&t=3030s
参考链接:https://twitter.com/soumithchintala/status/1671267150101721090
THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
标签:
机器之心报道编辑:吴昕GeorgeHotz:除了苹果之外,大部分公司保密的原
1、题临安邸宋-林升山外青山楼外楼,西湖歌舞几时休。2、暖风熏得游人
烧光84亿,憋不出一辆车!最会“耍大牌”的网红车企,创始人出局
1、彭格列的7种属性是大空,雷,岚,雨,雾,晴,云。2、爾与之相对的
1、东北师大是师范类学院。2、人文学院是借了一个名字。3、不是师范类
智通财经APP讯,新明中国(02699)发布公告,于本公告日期,可换股债券项
深爱居装饰集团南京分公司运营总经理崔禾伟先生、南京广播电视广告有限
首先,打开浏览器,进入到百度首页,点击右上角的登陆。嘿嘿,就会进入
6月20日晚间,恒力石化发布公告称,公司拟分拆所属子公司康辉新材,通
美记:珀尔特尔不希望自己下赛季待在一支重建球队,珀尔特尔,美国篮球,
为扎实推进包头市创建国家食品安全示范城市和食品安全“两个责任”...
未能约束员工炒股,香港券商太平证券遭点名罚款。6月19日,香港证监会
暗黑破坏神3账号解锁教程,暗黑3账号被锁定。首先,请确认你的账号是否
1、心身统一的观点:一个完整的个体应包括心、身即精神与躯体两个部分,
阿斯利康对网传中国业务拆分消息表态。 昨日,《金融时报》称,几个月
中国教育报-中国教育新闻网讯(通讯员岳莉)近日,山东省滕州市举办中
据北京市规自委网站消息6月20日京投以50亿元底价摘得北京市丰台区地铁
据韩联社报道,当地时间20日,韩国海洋水产部副部长宋相根在出席
新华社杭州6月18日电题:从这里看见未来乡村的模样——浙江美丽乡村...
IT之家6月20日消息,Beta版LinuxMint21 2“Victoria”于今天发布,用户
首届“河西人才节”系列活动之“才智交汇闪耀河西”——无人机表演...
学考是高中学业水平考试的简称,就是说文科生要考物理、化学、生物三科
贷款市场报价利率(LPR)结束连续多月的“按兵不动”,迎来自去年8...
1、一、孩子主动学习的层次! 前苏联的一个教育家说:“家长和教...
【大河财立方消息】6月20日,据郑州航空港经济综合实验区建设局消息,
豪恩汽电是一家汽车前装市场产品生产研发商,旗下拥有行车安全记录系统
1、位于山东烟台的庙岛北部,南北长200米,东西宽90米。2、庙岛,古称
厦门象屿:拟开展供应链资产支持商业票据-6月19日,厦门象屿(600057 S
端午临近,礼品市场热闹起来,“无需炖煮、开盖即食”的滋补品受到...
6月中上旬是黄淮海夏玉米集中播种的关键时期,今年持续的高温对玉米播