雖然在透明物體上,RGB-D 經(jīng)典的深度估算方法無(wú)法給出準(zhǔn)確數(shù)據(jù),但仍然有一些蛛絲馬跡暗示了物體的形狀。最重要的一點(diǎn)是,透明表面會(huì)出現(xiàn)鏡面反射,在光線(xiàn)充足的環(huán)境中會(huì)顯示成亮點(diǎn),在 RGB 圖像中非常明顯,而且主要受到物體形狀的影響。
因此,卷積神經(jīng)網(wǎng)絡(luò)可以利用這些反射數(shù)據(jù)推斷出準(zhǔn)確的表面法線(xiàn),然后將其用于深度估算。
另一方面,大多數(shù)機(jī)器學(xué)習(xí)算法都嘗試直接從單眼 RGB 圖像中估計(jì)深度,不過(guò)即使對(duì)于人類(lèi)而言,這也是一個(gè)困難的任務(wù)。尤其在背景表面比較平滑時(shí),現(xiàn)有算法對(duì)深度的估計(jì)會(huì)出現(xiàn)很大的誤差。這也會(huì)進(jìn)一步加大透明物體深度的估算誤差。
基于此,研究人員認(rèn)為與其直接估算透明物體深度,不如矯正 RGB-D 相機(jī)的初始深度估算數(shù)據(jù)。這樣更容易實(shí)現(xiàn),還可以通過(guò)非透明表面的深度來(lái)推算透明表面的深度。
ClearGrasp 算法
ClearGrasp 算法使用了三個(gè)神經(jīng)網(wǎng)絡(luò):一個(gè)用于估計(jì)表面法線(xiàn),一個(gè)用于分析受遮擋邊界(深度不連續(xù)),另一個(gè)給透明對(duì)象罩上蒙版。蒙版負(fù)責(zé)刪除透明對(duì)象的所有像素,以便填充上正確的深度數(shù)據(jù)。
研究人員使用了一種全局優(yōu)化模塊,可以預(yù)測(cè)表面法線(xiàn)并利用其來(lái)引導(dǎo)形狀的重建,實(shí)現(xiàn)對(duì)已知表面深度的拓展,還可以利用推算出的遮擋邊界來(lái)保持不同物體之間的分離狀態(tài)。
由于研究人員創(chuàng)建的數(shù)據(jù)集存在局限性,比如訓(xùn)練圖片只包含放在地平面上的透明物體,因此初期的ClearGrasp 算法判斷墻壁等其他表面法線(xiàn)的表現(xiàn)很差。為了改善這一問(wèn)題,他們?cè)诒砻娣ň€(xiàn)估算訓(xùn)練中加入了 Matterport3D 和 ScanNet 數(shù)據(jù)集中的真實(shí)室內(nèi)場(chǎng)景,雖然沒(méi)有透明物體,但針對(duì)真實(shí)場(chǎng)景的訓(xùn)練有效提高了算法估算表面法線(xiàn)的準(zhǔn)確率。
圖 | 三套神經(jīng)網(wǎng)絡(luò)各有不同分工(來(lái)源:谷歌 AI)
為了系統(tǒng)分析 ClearGrasp 的性能,研究人員分別利用 RGB-D 數(shù)據(jù)和 ClearGrasp 數(shù)據(jù)構(gòu)造了 3D 點(diǎn)云。點(diǎn)云顯示了算法所生成的 3D 表面形狀干凈且連貫,沒(méi)有原始單眼深度估算法中常見(jiàn)的鋸齒狀噪聲,而且還可以分辨復(fù)雜圖案背景下的透明物體,以及區(qū)分相互遮擋的透明物體。
最重要的是,ClearGrasp 輸出深度數(shù)據(jù)可以直接控制依賴(lài)于 RGB-D 圖像的機(jī)械臂。
研究人員使用了 UR5 工業(yè)機(jī)械臂進(jìn)行測(cè)試,將其原始傳感器數(shù)據(jù)替換成 ClearGrasp 輸出深度數(shù)據(jù)后,它的透明物體抓取成功率得到了顯著改善:平行夾爪的成功率從 12% 大幅提升到 74%,吸爪的成功率從 64% 提升到 86%。
圖 | UR5 機(jī)械臂拾取透明物體(來(lái)源:谷歌 AI)
雖然分辨透明物體的準(zhǔn)確率已經(jīng)有了大幅提升,但新算法仍然有很大的進(jìn)步空間。
研究人員認(rèn)為,受到訓(xùn)練數(shù)據(jù)集和傳統(tǒng)路徑跟蹤及渲染算法的局限性影響,ClearGrasp 仍然不能準(zhǔn)確分辨散焦線(xiàn),經(jīng)常會(huì)把明亮的散焦線(xiàn)和物體陰影混淆為獨(dú)立的透明物體。這將是未來(lái)的重要研究方向之一。
研究人員相信,這項(xiàng)研究成果證明了,基于深度學(xué)習(xí)的深度數(shù)據(jù)重建方法足以勝過(guò)傳統(tǒng)方法,使機(jī)器能夠更好地感知透明表面,不僅有望提高 LIDAR 無(wú)人駕駛等技術(shù)的安全性,而且還可以在多變的應(yīng)用場(chǎng)景中開(kāi)啟新的交互方式,讓分類(lèi)機(jī)器人或者室內(nèi)導(dǎo)航等技術(shù)更加高效和可靠。