包括圖靈在內(nèi)的大部分研究者都認為人能夠按照自己的經(jīng)驗做出正確的決定,而智能機器也應(yīng)該和人類一樣來完成這些決定,因此我們的工作就簡化成為在智能測試中去判斷智能機器是否完成了和人類一樣的決定。
但是在某些情況下,哪怕是人類也很難確定什么是正確的,例如著名的鐵軌問題:你是一輛剎車失靈的火車司機,在你前面的鐵軌上有5個人被綁在軌道上,你可以選擇切換到另外軌道,另外那條軌道上只有1個人綁在鐵軌上,那么請問你會選擇撞死5個人還是切換軌道撞死1個人?對于這個問題本文中不做更多的討論,即使是人類,在這個問題上都很難做出“正確的”決定,更何況智能機器?所以在本文中我們不去討論這些問題,我們也不會為倫理問題設(shè)置智能性測試。
4.2. 測試結(jié)果的自動實時分析
圖靈測試和現(xiàn)在很多新的智能測試的區(qū)別在于,圖靈測試用人來做判定,而新的智能測試使用的是機器來做判定。之所以這么做的原因在于我們清晰的定義了任務(wù),同時很多情況下沒有機器的幫助人很難完成正確的判定。
以智能車測試為例,為了節(jié)約成本,我們往往在某一條測試路線上設(shè)置了多個測試任務(wù),車輛需要不停歇的完成多個測試任務(wù)。
例如在中國智能車未來挑戰(zhàn)賽中就設(shè)置了14個測試任務(wù),分別是U-Turn,通過T字型路口,通過十字路口,避讓作業(yè)車,隧道,停止標(biāo)志,避讓行人,右轉(zhuǎn),鄉(xiāng)村道路,避讓自行車,施工區(qū)域,限速,停車。車輛需要連續(xù)通過這些任務(wù)點,為了能夠自動測評,我們需要使用V2X設(shè)備連接車輛上的傳感器和數(shù)據(jù)中心,上傳車輛數(shù)據(jù)到數(shù)據(jù)中心來完成自動測評。
圖9. 智能車比賽測試項
青島慧拓智能機器有限公司聯(lián)合清華大學(xué)一起開發(fā)了自動測評系統(tǒng)并成功應(yīng)用于此次比賽中。如圖10所示,左邊展示的是正在比賽中的5輛車的實時軌跡和實時排名,右邊屏幕里是實時的視頻回傳數(shù)據(jù),展示著裁判車數(shù)據(jù),比賽車輛數(shù)據(jù),以及場邊攝像頭數(shù)據(jù)。這些數(shù)據(jù)通過V2X或者4G的方式傳回數(shù)據(jù)中心。
在2009年-2015年的比賽中,比賽由裁判來人工打分,這種方式比較主觀,也非常耗時。在2017年比賽中,大部分的任務(wù)可以通過回傳過來的數(shù)據(jù)實現(xiàn)自動打分。我們同樣能夠通過深度學(xué)習(xí)的方式用視覺的方式來檢查車輛是否有壓線,來實現(xiàn)自動打分,如圖11所示。
圖10. 智能車比賽實時評測
圖11. 實時壓線檢測
4.3. 駕駛員在環(huán)測試
按照上文中說到,我們最終的目的是讓機器代替人來評價智能性測試結(jié)果。但是目前階段,這種情況卻難以完全實現(xiàn)。
首先,測試任務(wù)的描述需要由人類專家來完成。所有的任務(wù)描述都是使用人類語言,目前也并沒有一種計算機語言能夠更好的完成該任務(wù)。機器的智能水平往往受限于它的設(shè)計者,所以我們最終總是還是需要用人類的智慧來在衡量測試結(jié)果的基礎(chǔ)上提升機器的智能性水平。
其次,人類專家能夠按照自己的經(jīng)驗更好的幫助機器設(shè)計那些極限的測試任務(wù)。
最后,人類是智能性測試的最后決策者,往往由機器做出的判斷還要由人類來檢查。就像在2017年中國智能車未來挑戰(zhàn)賽中視頻回傳系統(tǒng)就是方便人類專家隨時能夠監(jiān)督智能車的表現(xiàn),這能夠讓人類和自動打分系統(tǒng)同時以對方的判斷為基礎(chǔ)改善自己的評判能力。
4.4. 用測試來進行智能水平分級
SAE把汽車自動化水平分為從無自動化到完全自動化六個級別,但是在該分級體系中并沒有給出明確的需要完成的任務(wù)。現(xiàn)在有更多人認為,只有明確了分級系統(tǒng)中的測試任務(wù),才能更好的對汽車智能性水平進行分級。