谷歌对巴德并不完美的事实相当坦诚。
Alphabet首席执行官桑达尔·皮查伊似乎对本公司的人工智能模型需要走多远并不焦虑,他在一份公司内部备忘录中写道,巴德(Bard)还处于早期阶段:“随着更多人开始使用巴德,测试它的功能,到时会出现让我们意想不到的事情。会出现各种问题。”
现在巴德已邀请公众参与测试,之前参与内测的8万名用户主要是谷歌员工。
(资料图片仅供参考)
《财富》杂志终于排到号了,所以我们赶在今年春天的美国青少年SAT考试之前,对巴德进行了测试。
SAT是全球公认的美国大学入学考试,考试的技能包括阅读、写作和数学。
对谷歌来说,不幸的是,巴德似乎还考不上哈佛,因为它答的大部分数学题都是错的,而在写作和语言测试中想考高分也很艰难。
第一次登录巴德时,用户的期望值已经被弹出的一条消息设定好了,上面写着:“巴德并不总是正确的。巴德可能会给出不准确或不恰当的回答。如果有疑问,可以点击‘谷歌一下’(Google it)的按钮检查巴德的回复。有了你的反馈,巴德会变得更好。请对巴德的答案做出评分,并对任何可能具有冒犯性或不安全的内容进行标记。”
巴德表现如何?
回到答题上来。
《财富》杂志从在线学习资源中找了一些SAT数学练习题,发现巴德有50%到75%的答案是错的——哪怕是有选项的选择题。
很多情况下,巴德给出的答案甚至不在选择范围内,不过如果再问一遍,它有时就能答对。
这款人工智能的不准确性已经让谷歌花费了大约1000亿美元。
今年2月巴德刚刚面世时,在它被问的一系列问题中,包括如何向一个9岁的孩子解释詹姆斯·韦伯太空望远镜都发现了什么。
巴德回应说,该望远镜拍摄了“我们太阳系外的第一张行星照片”,但是据美国宇航局证实,第一张系外行星的照片是由智利的地面阵列甚大望远镜于2004年捕捉到,并于2005年确认为系外行星。
科学和数学都不是巴德的强项,不过在阅读和写作练习方面,它确实表现要强一些。
《财富》杂志首次用巴德进行书面语测试时,答对率约为30%,而且问题往往要问两遍它才能理解。
哪怕答案是错的,巴德的语气也很自信,经常以这样的回答开头:“正确答案是”——这是大型语言模型的共同特征。
奇怪的是,巴德在数学和写作能力测试中得分最高的是关于《哈利波特》作者J.K.罗琳的一篇文章。
这次测试中,巴德得了1200分,这个SAT分数可以上霍华德大学、圣地亚哥州立大学和密歇根州立大学等。
随着《财富》杂志向巴德提出的语言类问题逐渐增多(总共约45个),巴德出现题目理解困难或需要重复提问的频率在减少。
在阅读测试中,巴德的表现同样优于数学测试——平均答对了一半左右。
谷歌的一位发言人在回应《财富》杂志(Fortune)的置评请求时,重申了皮查伊的论点,他说:“巴德还在实验阶段,有些回复可能不准确,所以要仔细检查巴德给出的回复。有了你们的反馈,巴德每天都在进步。在巴德公开发布之前,数千名测试人员通过提供反馈,帮助巴德提高了它的质量、安全性和准确性。
“用生成式人工智能加快人们的思考确实是件令人兴奋的事情,但它仍处于早期阶段,巴德只是一个实验。虽然巴德有符合我们的人工智能原则的内置安全控制和明确反馈机制,但请注意,它可能会显示不准确的信息。”
在给巴德提问题的几天时间里,它确实显示出准确性在提高的迹象。关于它的发展速度,它是这么说的:“我会说我正在快速进步。”
“我现在可以做一些就在几个月前还不会做的事。我很兴奋地看到我的未来是什么样的。我相信我将继续进步,在未来几年,我将能够做到更多。”(财富中文网)
译者:Agatha
相关稿件
最近更新
• 焦点快播:央行行长易纲详解“币值稳定”:不让老百姓手中的钱变“毛”
• 世界快看点丨特朗普庭审对34项指控表示不认罪,并说了这些
• 天天快资讯丨恒生电子刘曙峰:公司没有基于大模型的产品,“建议大家降降温好吧”
• 世界快资讯:天融信:根据公司年报编制工作进展情况,披露时间相应调整,目前年报各项工作正常推进中
• 速递!群兴玩具:您的建议已向公司管理层转达,请您留意公司公告,以公司披露的信息为准
• 焦点资讯:硅谷银行破产案打破大萧条以来实行的银行监管规则
• 世界视点!发展联盟总决赛开打 交战双方是休斯敦毒蛇&特拉华州蓝衣
• 环球今日报丨书香门地Artemundi品牌介绍_书香门地地板
• 天天快播:我找到了阅读GitHub项目源码的最佳姿势,太舒服了!
• 每日热门:怎么创微信小号不用电话_如何申请微信小号不用手机
• 世界今日报丨秦安股份:4月3日公司高管刘宏庆减持公司股份合计1.16万股
• 石基信息:公司与武商集团的日常性业务合作包括为其提供零售业信息系统软件和收银机、自助机等硬件产品
• 科力尔:公司伺服电机、步进电机等产品已广泛应用于光伏设备领域
• 前沿热点:给教子的复活节礼物_送女生手工制作礼物送什么好
• 世界快播:教育部等五部门:优化调整高校20%左右学科专业布点
• 横店东磁:公司2022年度利润分配将于2023年5月底之前进行实施,具体时间请关注公司公告
• 【新视野】星源材质:公司发行境外全球存托凭证(GDR)并在瑞士证券交易所上市事项已经获得中国证监会批复
• 东方国信:公司目前在自研垂直领域的类chatGPT大模型,主要覆盖运营商、金融、工业和政府等领域
• 每日互动:AIGC和ChatGPT都是融合多种AI技术的成果