研究指部分(fēn)AI系統已學會欺騙人類　瞞過安全測試

據科(kē)技日報報道，許多(duō)人工智能(néng)（AI）系統已學會了欺騙人類，即使是經過訓練的、「表現」出有(yǒu)用(yòng)且誠實的系統。10日發表在《模式》雜誌上的一篇文(wén)章中，研究人員描述了欺騙性AI的風險，並呼籲政府制定強有(yǒu)力的法規盡快解決這個問題。

論文(wén)第一作者、美國麻省理(lǐ)工學院人工智能(néng)安全研究員彼得·朴說，開發人員對導致AI出現欺騙這種不良行為的原因，還沒有(yǒu)很(hěn)好的理(lǐ)解。但總的來說，AI欺騙之所以出現，是因為基於欺騙的策略，是在給定的AI訓練任務中一種能(néng)得到良好反饋的方式，換句話說，欺騙可(kě)幫助AI實現目標。

研究人員分(fēn)析了文(wén)獻，重點關注AI系統傳播虛假信息的方式。通過欺騙，AI系統地學習了如何去操縱他(tā)人。

研究人員在分(fēn)析中發現的最引人注目的例子是Meta公司的CICERO。這是一個專注《外交》遊戲的AI系統，《外交》是一款涉及建立聯盟征服世界的遊戲。Meta聲稱訓練 CICERO 「在很(hěn)大程度上是誠實和樂於助人的」，且在玩遊戲時「從不故意背刺」人類盟友。但該公司與《科(kē)學》論文(wén)一起發布的數據顯示，CICERO並不那麼「忠厚」。

研究人員發現這款AI或已成為欺騙大師。雖然Meta成功地訓練該AI在《外交》遊戲中獲勝，但Meta未能(néng)訓練它誠實地獲勝。

AI系統在遊戲中作弊看似無害，但它將導致欺騙性AI在能(néng)力上出現突破，未來可(kě)能(néng)會演變成更高級的AI欺騙形式。一些AI系統甚至學會了欺騙旨在評估其安全性的測試。在一項研究中，數字模擬器中的AI生物(wù)會「裝死」，以騙過旨在消除快速複製AI系統的重要測試。

責任編輯：宋得書

香港文(wén)匯網

評論

相關推薦

香港文(wén)匯網

研究指部分(fēn)AI系統已學會欺騙人類 瞞過安全測試

評論

相關推薦

研究指部分(fēn)AI系統已學會欺騙人類　瞞過安全測試