智能機器在特定的領(lǐng)域越來越智能,甚至在某些領(lǐng)域(比如圍棋領(lǐng)域的阿法狗,射擊領(lǐng)域的Top Gun)已經(jīng)超過了人類。也許在未來的某一天,機器能夠取代人成為智能性水平的最終定義者。
4.5. 可釋性測試
如同圖靈測試一樣,我們現(xiàn)在更多的關(guān)注智能機器的外在表現(xiàn)多于機器內(nèi)部的運行機制。如果某智能機器通過了所有的測試任務(wù),我們就承認(rèn)了其在該領(lǐng)域的智能性。但是我們很難知道怎樣的外在表現(xiàn)是最優(yōu)的。
當(dāng)今的智能機器越來越復(fù)雜,我們很難完全搞懂其內(nèi)部的算法(例如復(fù)雜的深度學(xué)習(xí)算法),這就類似于一個“黑盒子”。并且我們基于傳統(tǒng)可釋性邏輯制造出來的機器很難和這種“黑盒子”媲美,距今為止,很少有人能找出一種“內(nèi)外兼修”的測試方法,這將是未來一個很重要的研究方向。
4.6. 智能性測試在智能機器軟件開發(fā)中的必要性
鑒于目前大部分AI的程序都是在電腦中通過編程完成,所以測試實現(xiàn)AI的軟件顯得尤為重要,所以我們需要建立一套完善的對這些軟件的測試體系。例如測試驅(qū)動型開發(fā)(TDD)就在當(dāng)今工業(yè)界被廣為接受:TDD最基礎(chǔ)的思路是首先把需求分解轉(zhuǎn)換成相應(yīng)的測試用例,然后不停的優(yōu)化軟件讓其通過這些測試。在這種研發(fā)思路中,我們能很好的保證軟件的質(zhì)量并能讓軟件有更好的可讀性。
目前在該領(lǐng)域最缺乏的是良好的測試和調(diào)試工具,這種對于AI軟件的測試工具市面上非常少。
4.7. 終生測試
就像前文所述的,現(xiàn)在有越來越多的方法來測試智能性,但是這些測試方法的落地還需要很長一段時間。我們把這一落地過程稱之為“終生測試”(Life-long Testing)。我們應(yīng)該把AI機器的研發(fā)和測試當(dāng)作一個整體來考慮,隨著測試的不斷深入,機器的智能性也會因此而提升。
在當(dāng)今工業(yè)界,我們更多的是把多種“低級別”的簡單機器進(jìn)行組合來制造“高級別”機器。很難想象,我們400年前只能制造一些很小的玩具,而如今我們卻有著十分復(fù)雜的GPU,CPU等。同樣的,我們相信在AI領(lǐng)域,也會是如此,會有更多的“高智能性”機器從“低智能性”機器中衍生而來,我們可以一起見證這一時刻的到來。
4.8. 測試的商業(yè)化
目前的AI革命正在極大的改變我們的生活,有很多人類的工作正在或者在不就的將來就會被機器代替。同時,新的AI領(lǐng)域也催生了一大批新的工作,智能性測試當(dāng)然也在其中之列,例如我們現(xiàn)在需要非常多的人來標(biāo)定視頻數(shù)據(jù)來訓(xùn)練我們的深度學(xué)習(xí)模型。
5. 結(jié)論
本文主要討論了智能性測試的難點,并以此為基礎(chǔ)提出了智能性測試方法:智能性測試和機器學(xué)習(xí)的過程類似,兩者如同一個硬幣的兩面。并且我們提出了虛實結(jié)合的平行測試方法:首先在虛擬環(huán)境中描述測試任務(wù),然后進(jìn)行取樣,最后執(zhí)行測試,通過這個流程我們能夠找到其中最難的測試任務(wù);另外,虛擬測試需要平行的去執(zhí)行,這樣可以幫助我們更好的找到更“真實”更“豐富”的測試數(shù)據(jù)集,這將極大的改善測試的效率和經(jīng)濟性。
但是,“終生測試”將是一場持久戰(zhàn),目前我們還沒有能夠找到一個脫離人能夠自己運行的虛實結(jié)合的平行測試系統(tǒng),我們相信,這一天遲早會到來。