Allen Institute的Arist道琼斯工业指数成分股o AI系统终于通过了八年级的科学测试

不是吗?这个特别的系列探讨了人与机器之间不断发展的联系,研讨机器人,人工智能和自动化对咱们作业和日子的影响。

在已故的西雅图亿万富翁保罗艾伦应战研讨人员提出一项智能足以经过八年级科学检验的人工智能方案五年之后,这项豪举现已宣告完结 – 由家园团队完结。

艾伦人工智能研讨所(AI2)今日宣告其Aristo软件在针对八年级学生的多项挑选检验中的得分高于90%,而关于高中毕业生的检验则高于80%。

Allen Institute的Arist道琼斯工业指数成分股o AI系统终于通过了八年级的科学测试

当然有一些正告:该考试根据纽约摄政学院的才能检验,扫除了依赖于解说图片或图表的问题。这些问题需求没有编入Aristo的视觉解说技能。需求直接答复的问题(即论文问题)也被扫除在外。而关于它的价值,Aristo在练习它的科学范畴之外是无用的。

尽管如此,这次演习仍是说明晰自2016年以来人工智能现已走了多远,其时一切参与8万美元艾伦AI科学应战赛的方案都不及格。

“这是一个打破,由于它在规范化检验问题上取得了明显效果,需求必定程度的自然言语了解,推理,乃至是常识,”AI2首席履行官Oren Etzioni在一封电子邮件中告知GeekWire。 “这与规范研讨基准和Go等棋盘游戏十分不同。就在一年前,没有人会预料到8年级和12年级科学问题的这种快速发展!“

AI2科学检验:与Aristo相匹敌,大约2016年

这项作业建立在一系列言语解说,问答人工智能署理的根底之上,包含AI2的ELMo程序和在西雅图的Google研讨机构开发的BERT程序。 Aristo利用了八种类型的问题处理署理 – 从仅在数据库中查找答案的署理到查看相关概念列表的署理(称为元组),到履行定性推理的署理。

每个问题处理者都会为首选的多项挑选答案产生分数,而Aristo会对不同的分数进行加权以挑选最或许的挑选。该方案经过多轮训练和校准优化其绩效。

例如,有一个问题是:“当块体熔化时,铁块中的颗粒是怎么受到影响的? (A)颗粒添加质量。 (B)颗粒含有较少的能量。 (C)粒子移动得更快。 (D)颗粒体积添加。“

为了答复这个问题,Aristo得知粒子的热量跟着粒子的热量添加而移动的常识,将术语“消融”与“热量”联系起来,将术语“更快”与“更快”联系起来,并将C评分为正确挑选。

结合不同的处理问题的办法为Aristo将检验分数从2016年的大约60%提高到八年级检验的91.6%扫清了路途。在12年级考试中,该方案得分率为83.5%。

在一份关于该项意图研讨论文中,Etzioni和其他AI2研讨人员 – 包含项目Aristo的高档司理Peter Clark表明,该方案的经过等级“仅仅迈向一台对科学有深刻了解并完成的机器的绵长路途上的一步。保罗艾伦开始的数字亚里士多德愿望。“

研讨人员的方针是将Aristo的技能扩展到包含根据图表的问题和论文问题。终究,该技能应该在供给自然言语答案时提高现有技能水平,这些问题会对成年人和八年级学生的大脑产生担负。

这或许会导致数字助理比亚马逊的Alexa,微软的Cortana和Apple的Siri当时的迭代更聪明 – 以及全新的AI使用程序和草创公司。

在别的的电子邮件中,Etzioni和Clark都向保罗·艾伦表明敬意,他上一年10月逝世,享年65岁。他们都说他想要更多。

“保罗会很快乐,但不会让咱们满足于现状,”Etzioni告知GeekWire。 “他会问:你了解言语的下一步是什么?”

克拉克赞同:“我会幻想他说”祝贺!下一步是什么?” ”

更新时刻为下午1:25 PT 9月4日:我经过电子邮件向克拉克发送了一些后续问题,这里有一些答案能够扩展研讨的重要性。 Q&A的修改简洁明晰(尤其是Q版):

GeekWire:这种办法与IBM的Watson有何不同?假如Aristo要与Watson竞赛,谁会赢?

克拉克:“这两个体系是针对不同类型的问题而规划的。 Watson专心于百科全书式的“factoid”问题,答案清晰写在文本的某个当地,一般很屡次。相比之下,Aristo答复科学问题,答案并不总是写在某处,或许触及对场景的推理,例如:

“奥托把一辆玩具车推到了地板上。轿车在木头上快速行进,但它在地毯上停了下来。哪个最好地解说了轿车抵达地毯时产生了什么? (A)冲突添加(B)冲突削减……“

“城市管理者能够经过以下办法鼓舞节能:(1)下降停车费(2)制造更大的停车场(3)下降汽油本钱(4)下降公交车和地铁票价。”

“开箱即用,沃森或许会在科学问题上挣扎,而亚里士多则会选用’风险’问题的奥秘办法。他们各自都失利了。

“在引擎盖下,它们也彻底不同。特别是,Watson没有运用深度学习(它是在深度学习技能之前创立的),而Aristo则许多运用深度学习。 Watson有许多模块测验了不同的办法来寻觅答案。 Aristo有几个(8个)模块能够测验各种办法来答复问题,包含查找,几种推理办法和言语建模。“

问:请传递一般的正告。例如,没有运用带图片的问题,由于他们需求计算机视觉。还有其他正告吗?

答:“除非在一些特别状况下,不然Aristo无法很好地处理图表问题。例如,Aristo能够答复关于食物链的问题,但它无法答复那些需求阅览地图或研讨条形图的问题。它也难以处理假定状况。例如,Aristo挣扎着提出以下问题:“假如你将树叶从植物上拉下来,成果会是什么?”一个好的答案便是植物将不再能够自己制造食物。可是,阿里斯托正在尽力处理这个问题,由于它要求体系发明一个虚拟的国际,并幻想在那个国际会产生什么。最终,咱们的基准是多项挑选检验,另一个约束。“

问:你能否谈谈潜在的使用?您是否看到像Watson这样的“问答”程序,或许您是否看到了更多新颖的使用程序?

答:“Aristo的长时间方针不仅仅是经过科学检验,还包含创立一个对科学有更深入了解的体系,以及许多潜在的使用。特别是有三个范畴看起来很有期望。第一个是教育和个性化教育范畴,Aristo能够经过供给个人教导协助孩子了解科学。第二是协助科学家。我能够幻想Aristo向实验室的科学家供给有关科学概念和从前作业的布景信息。最终,从长远来看,Aristo或许有助于科学发现自身,将人们曩昔无法完成的点,医学或工程学等范畴联系起来。当然,Aristo现在还有很长的路要走这些方针,但在Regents Science考试中体现如此之好是一个巨大的前进。“

发布于 2023-04-04 15:04:48
收藏
分享
海报
26
目录