2019.03.24 11:30 臺北時間

加州大學柏克萊分校最新研究　教機器人學會「摸物辨形」

國際

電影《艾莉塔：戰鬥天使》中，一幕Alita與人類肌膚接觸（圖片來源：20th Centur）

發布時間：2019.03.24 11:30 臺北時間

更新時間：2023.09.12 20:29 臺北時間

文

DeepTech深科技

攝影

DeepTech深科技

已複製連結

贊助本文

機器人深科技加州大學

今年的《麻省理工科技評論》十大突破性技術中有一項就是靈巧機器人，今日的機器人普遍仍表現得頗為笨拙，若能提高其手部的靈活性，將可勝任更多的任務。

目前在機器人手的領域有幾個趨勢，一是改善其敏捷程度，人類的手指跟手掌相當靈巧，機器人手在抓握的速度、準確性仍有很大空間，科學家們通過優化機器人的手部結構，比如增加手的自由度（關節），利用AI演算法進行類比訓練等，不過想要增加機器手的自由度，成本就會大幅提高。

此外，則是自主學習，舉例來說，工業的機器人手臂大多是重複執行任務，總體性能取決於其控制器跟蹤預定軌跡的準確性，軌跡路線是仰賴工程師事先程式設計及測試，此法難適用於複雜的環境或複雜的動作，比如機器人打乒乓球，因此許多研究機構利用強化學習（Reinforcement Learning）或無監督學習來訓練機器人，自主學習抓取、移動東西等。
再來就是感知，視覺、觸覺都有不少研究，通過攝像頭，機器人可以知道自己正在抓取的物體是什麼，進而判斷該施予多大的力量強度，或是讓抓手本身擁有觸覺，像是使用傳統的壓力感測器或是柔性的電子皮膚，先前卡內基梅隆大學（CMU）的研究人員就教導機器人通過觸摸來學習，像嬰兒會抓、推、戳東西來主動觀察物體。
另外，上個月麻省理工學院（MIT）也發佈了一項研究：讓有視覺和觸覺的機器人學習玩疊疊樂（Jenga）遊戲，該機器人配備了軟性的手指夾具、手腕上則有力量感測器，玩疊疊樂遊戲涉及力量的判斷，讓機器人有觸覺將有助於機器人在生產線上組裝手機和其他小零件。參與該研究的MIT機械工程系助理教授Alberto Rodriguez就表示，「在手機組裝線上大多數的步驟，如鎖螺絲，這些對力的感受都來觸摸，而不是視覺」。
觸覺除了可用於執行更複雜的任務之外，觸摸往往也是互動、情感交流的管道，對未來人類與機器人互動、關係建立是很重要的一個元素，因此發展機器人觸覺無疑是行業趨勢之一。

近日，加州大學柏克萊分校電氣工程與電腦科學系助理教授、同時也是該校機器人人工智慧與學習實驗室（Robotic Artificial Intelligence and Learning Lab）負責人的Sergey Levine與其他研究者及科學家，在arxiv.org上連續發表兩篇以機器人觸覺（the sense of touch）為主題的研究，他們提出了視覺＋觸覺的跨模態識別系統，讓機器人用摸的就能辨識物體，接著又開發出一個以觸覺為基礎的控制模型，讓機器手可以執行複雜的任務，像是把小球推到用戶指定的位置。
在《Learning to Identify Object Instances by Touch: Tactile Recognition via Multimodal Matching》研究中，他們指出，許多關於機器人感知的研究都集中在視覺模態上。視覺提供了對場景的全域觀察，在廣泛的場景下很有用處，不過，在機器人操控領域，單靠視覺有時是不夠的，在光線不足或遮擋的情況下，就很難識別出物體，觸覺將提供機器人另一個識別物體的機制。
舉例來說，人類很自然會將物體的外觀、材料特性聯繫起來，比如當我們在玩恐怖箱遊戲，看不到物體，靠觸摸去猜想大概是什麼東西，或是在抽屜找一把剪刀，摸到尖尖的、涼涼的金屬表面、彎曲的手柄，人類很自然就會判斷是不是剪刀，這就是一種多模態關聯（multi-modal）的觸覺能力。
機器人可以用摸的來辨識物體（來源：arxiv.org）因此，Sergey Levine他們的目標就是訓練機器人學習類似人類多模態關聯（multi-modal association）的能力，打造一個主要依靠觸覺而非視覺的感知框架，使機器人能夠通過觸摸來識別物體。
觸覺的挑戰首先是觸覺感測器不像視覺，可得到一個全域的視圖，僅能透過物體局部表面的特性來做，其次，觸覺的讀數較難解釋。為了解決這些限制，他們在機器人的兩指抓手（a two-fingered gripper）上配置2個高解析度GelSight觸摸感測器，並與攝像頭結合，當抓手與物體接觸時，攝像頭會拍下抓手拾取物體時，凝膠受力而產生的壓痕，然後GelSight產生讀數（reading），這些資料登錄到CNN裡。通過收集98個不同物體的樣本，並讓機器抓手反覆學習，他們的實驗結果表明，所訓練出的AI能夠從觸覺中正確推斷物體是什麼，即使對於沒看過的新物體，檢測率也不差。
另外，研究人員表示，先前已有其他探討多模態關聯的研究，例如視覺和聽覺的匹配、視覺和語言的匹配等，他們則是受到一篇開發雙流分類器來預測圖像和音訊是否來自同一視頻的研究所啟發，另外，先前的機器人觸覺研究多是識別“材料屬性”，他們的研究則可以通過觸摸識別“物體”。未來機器手觸覺可以應用在倉庫自動化機器人，通過手指來感覺、檢索貨架上的物體等。
如果要進行細緻的操控時，人類主要依靠觸摸，例如手指遮擋了視線（左）。研究人員利用觸摸感測器訓練出機器控制模型（右）（來源：arxiv.org）另一篇論文《Manipulation by Feel: Touch-Based Control with Deep Predictive Models》則是上述研究的延伸，利用配置GelSight觸覺感測器的機器人操控球，進行無監督的自主學習，進而開發出一個基於觸覺的控制模型，並且利用該觸覺預測模型，執行3個複雜的觸覺控制任務，包括將物體重新推移到指定位置、懂得操作遊戲搖杆、把一個具有20個面的骰子推到指定面。
不過，他們也表示研究方法仍有局限性，例如，短距離的控制，有些任務只需要幾十個步就可以達到目標，也就是說，執行簡單任務時有效，但若任務需要重新排列多個物件、或重複執行更複雜的手指步態時，模型就需要改進。此外，該研究只使用一根手指，可執行的範圍僅限於簡單的重新排列，未來將展開多隻手指的研究，以擴展研究結果。
本文係由DeepTech深科技授權刊登。原文連結：加州大学伯克利分校最新研究，教机器人学会 “摸物辨形”