在機(jī)器人和計(jì)算機(jī)視覺(jué)領(lǐng)域,光學(xué) 3D 距離傳感器已經(jīng)得到了廣泛應(yīng)用,比如 RGB-D 攝像頭和 LIDAR 傳感器,都在 3D 環(huán)境繪制和無(wú)人駕駛等任務(wù)中扮演了重要角色。
盡管它們性能十分強(qiáng)大,兼具高敏感度、高精度和高可靠性等特質(zhì),但在識(shí)別透明物體上卻不盡如人意。想要破壞這些傳感器的成像效果,或者讓機(jī)械手臂無(wú)從下手,只需要在它們面前放上玻璃杯一類(lèi)的透明物體就可以了,因此難以在不使用其他傳感器的情況下獨(dú)立完成特定任務(wù)。
這是因?yàn)楣鈱W(xué)傳感器的算法假設(shè)所有表面均是理想散射的 (Lambert),即物體會(huì)在各個(gè)方向和各個(gè)角度均勻地反射光線(xiàn)。在 Lambert 光照模型中,無(wú)論觀(guān)察者的視角如何,其表面亮度都是相同的。
現(xiàn)實(shí)中的絕大多數(shù)物體符合這一假設(shè),除了透明物體,因?yàn)樗鼈兊谋砻婕日凵溆址瓷涔饩€(xiàn)。這樣一來(lái),光線(xiàn)傳播的復(fù)雜性大幅提升,表面亮度與視角無(wú)關(guān)的假設(shè)被破壞了,基于 Lambert 模型的算法也就失效了,導(dǎo)致傳感器收集的透明物體的大多數(shù)深度數(shù)據(jù)都是噪聲或者無(wú)效的。
圖 | 透明物體在傳統(tǒng)算法眼中是噪聲(來(lái)源:谷歌 AI)
為了改善這一問(wèn)題,讓機(jī)器可以更好地感知透明表面,谷歌 AI,Synthesis AI 和哥倫比亞大學(xué)的研究人員合作開(kāi)發(fā)了一種名為 ClearGrasp 的機(jī)器學(xué)習(xí)算法,能夠從 RGB-D 圖像中估算透明物體的準(zhǔn)確 3D 數(shù)據(jù)。
根據(jù)谷歌 AI 介紹,在設(shè)計(jì)之初,ClearGrasp 算法就考慮到了兼容性。它可以與任何標(biāo)準(zhǔn) RGB-D 相機(jī)捕捉的數(shù)據(jù)配合使用,借助神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)來(lái)準(zhǔn)確地重建透明物體的景深數(shù)據(jù)。
圖 | ClearGrasp 算法的工作原理(來(lái)源:谷歌 AI)
與目前所使用的技術(shù)不同,ClearGrasp 算法不依賴(lài)于對(duì)透明物體的先驗(yàn)知識(shí),比如預(yù)先對(duì)透明物體進(jìn)行 3D 建模,還要補(bǔ)充觀(guān)察視角和光線(xiàn)數(shù)據(jù)。在神經(jīng)網(wǎng)絡(luò)的幫助下,它可以很好地泛化到從未見(jiàn)過(guò)的全新物體身上。
在測(cè)試過(guò)程中,研究人員將新算法集成到了一套現(xiàn)有的拾取機(jī)器人控制系統(tǒng)中,最終發(fā)現(xiàn)它對(duì)透明塑料物體的抓取成功率有了非常顯著的提升,最多可以提升 6 倍。未來(lái)有望在拾取機(jī)器人和自動(dòng)駕駛等領(lǐng)域應(yīng)用。
透明對(duì)象的可視數(shù)據(jù)集
無(wú)論是什么樣的深度學(xué)習(xí)模型,訓(xùn)練時(shí)都要依賴(lài)于大量數(shù)據(jù),比如訓(xùn)練自然語(yǔ)言模型 BERT 需要維基百科,ClearGrasp 也不例外。然而目前廣泛使用的 3D 數(shù)據(jù)集,包括 Matterport3D 和 ScanNet,都會(huì)忽略透明表面和物體,因?yàn)闃?biāo)記過(guò)程過(guò)于復(fù)雜和耗時(shí)。
這讓研究人員不得不自己創(chuàng)建訓(xùn)練集和測(cè)試集,專(zhuān)門(mén)針對(duì)透明對(duì)象設(shè)計(jì)。
在訓(xùn)練數(shù)據(jù)集中,他們創(chuàng)造了 5 萬(wàn)多個(gè)符合真實(shí)物理原則的渲染圖,每張圖片最多包含 5 個(gè)透明物體,放置于平面上或者開(kāi)放式容器中,視角、背景和光線(xiàn)各不相同。每個(gè)物體還有配套的表面法線(xiàn)(曲率)、分割蒙版、邊緣和深度等信息,用于訓(xùn)練各種 2D 和 3D 物體檢測(cè)任務(wù)。
至于測(cè)試集,研究團(tuán)隊(duì)選擇用真實(shí)場(chǎng)景創(chuàng)建圖片和數(shù)據(jù),方便最大程度上測(cè)試算法的真實(shí)表現(xiàn)。這是一個(gè)十分痛苦的過(guò)程,因?yàn)閷?duì)于每個(gè)場(chǎng)景都要在保證視角、光線(xiàn)和場(chǎng)景布置完全一致的情況下照兩遍:第一遍用透明物體,第二遍用一模一樣的非透明物體替換它們(必須保證位置完全一樣)。
圖 | 布置真實(shí)場(chǎng)景(來(lái)源:谷歌 AI)
最終他們得到了 286 個(gè)真實(shí)場(chǎng)景測(cè)試圖,其中不僅包括透明物體本身,還有各種不同的背景貼圖和隨機(jī)不透明物體。圖片中既包含訓(xùn)練集中存在的已知對(duì)象,也包括從未出現(xiàn)過(guò)的新物體。
在數(shù)據(jù)集的問(wèn)題解決之后,下一步是思考如何收集透明物體的深度數(shù)據(jù)。