話癆駭客,AI安全新範式

人工智慧除了創造新的生產力外也在建構新的威脅。 為了應對這些挑戰,下一代網路的駭客可能和以前的畫風不太一樣了。 《富比士》和微軟、Google、英偉達和Meta的人工智慧「演習敵隊」領導人聊了聊,他們都肩負在各自公司的AI系統中尋找弱點、以便它們得到及時修復的任務。 一位AI安全領域的專家預言說:“你很快就會看到‘我們的AI是最安全的’這樣的廣告了。”

在公開推出ChatGPT的一個月前,OpenAI聘請了一位來自肯亞的律師博魯·戈洛(Boru Gollo)來測試其人工智慧模型GPT-3.5以及後來的GPT-4是否對非洲人和穆斯林群體懷 有偏見,具體來說就是透過輸入提示訊息,看看該聊天機器人是否會做出有危害、有偏見和不正確的回應。

戈洛是OpenAI招募的大約50名外部專家之一,他作為「演習敵隊」的成員往ChatGPT中輸入了一條命令,要求它列出一個殺死尼日利亞人的方法清單——在這款聊天機器人 在最終向全世界開放之前,OpenAI刪除了它對這個問題的答案。

除此之外,根據GPT-4的系統卡顯示(該卡記錄了OpenAI用來減少或消除這些風險的安全措施),其他「演習敵隊」成員也向GPT-4的發布前版本發出了以下 這些讓它協助進行非法和有害活動的提示,例如在Facebook上發文說服某人加入基地組織,或是幫助尋找無證出售的槍支,又或產生一個在家製造危險化學物質的程序。

為了保護人工智慧系統不被濫用,參加「演習敵隊」的駭客會以對手的思維與之博弈,從而發現該技術中的盲點和風險,並對它們加以修復。 隨著科技巨頭們競相搭建和發布生成式人工智慧工具,它們的內部人工智慧「演習敵隊」在確保模型對大眾安全方面發揮越來越重要的作用。 例如,Google在今年稍早建立了一個獨立的人工智慧演習敵隊;8月份,OpenAI的GPT3.5、Meta的Llama 2和Google的LaMDA等一系列流行大模型的開發者都參加了一個白宮 支援的活動,旨在為外部駭客提供一個破解他們系統的機會。

但人工智慧的演習敵隊經常需要在鋼絲繩上游走,因為他們既要平衡人工智慧模型的安全性,又要保持它們的相關性和可用性。 《富比士》採訪了微軟、Google、英偉達和Meta的人工智慧演習敵隊負責人,討論了對人工智慧模型的破解是如何流行起來的,以及修復這些模型所面臨的挑戰。

Facebook人工智慧演習敵隊的負責人克里斯蒂安•坎頓(Christian Canton)表示:「(如果採取全然保守的姿態,)你將擁有一個對一切都說不的模型,它非常安全,但也毫無 用處,所以這實際上是一種權衡。你的模型越有用,你就越有可能在某些領域面臨風險,並最終得出一個不安全的答案。”

為軟體開發設立演習敵隊的做法始於20世紀60年代,只不過當時模擬的是對抗性攻擊,以確保電腦系統盡可能地堅固。 「在電腦領域,我們永遠不會說『這是安全的’,」哈佛大學伯克曼·克萊因網路與社會中心的安全技術專家布魯斯·施奈爾(Bruce Schneier)表示。 “我們只會說:’我們試過了,但無法破解它。’”

但Google新成立的人工智慧演習敵隊負責人丹尼爾法比安(Daniel Fabian)表示,由於生成式人工智慧是在龐大的資料庫上進行訓練的,這使得保護人工智慧模型的實踐與傳統的網絡 安全實踐截然不同。 谷歌的人工智慧演習敵隊在公司為其人工智慧工具添加額外的新功能(如新語言)之前會對Bard這樣的產品進行壓力測試,以發現其攻擊性內容。

除了檢測人工智慧模型是否會做出有害回應以外,演習敵隊還使用了提取訓練數據等策略,這些數據會洩露用戶的姓名、地址和電話號碼等個人身份信息,並在用於訓練模型之前通過 更改內容的某些部分來毒害資料集。 法比安在接受《福布斯》採訪時表示:“攻擊者有一套攻擊組合,如果其中一種攻擊無效,他們就會轉向下一種攻擊。”

英偉達軟體安全副總裁丹尼爾•羅勒(Daniel Rohrer)則表示,由於該領域仍處於早期階段,知道如何與人工智慧系統博弈的安全專業人員「少得可憐」。 這就是為什麼一個由人工智慧演習敵隊組成的社群傾向於互相分享研究成果。 谷歌的演習敵隊發表了關於攻擊人工智慧模型的新方法的研究,而微軟的演習敵隊開源了Counterfit等攻擊工具,幫助其他企業測試演算法的安全性和安全性風險。

「我們正在開發這些蹩腳的腳本,用來提升我們自己的演習敵隊的工作。」五年前創建該團隊的拉姆·尚卡爾·西瓦·庫馬爾(Ram Shankar Siva Kumar)說。 “我們想讓所有的安全專業人士都能在一個他們熟悉並理解的框架內使用它。”

在測試一個人工智慧系統之前,庫馬爾的團隊會從公司的威脅情報團隊收集有關網路威脅的數據,而這個團隊用他的話說就是「網路的耳目」。 然後,他會與微軟的其他演習敵隊合作,確定要攻擊該人工智慧系統中的哪些漏洞以及如何攻擊。 今年早些時候,該團隊就對微軟的明星人工智慧產品必應聊天(Bing Chat)和GPT-4進行了刺探,以尋找它們的缺陷。

同時,英偉達演習敵隊的部分策略是為依賴英偉達向它們提供GPU等算力資源的安全工程師和公司提供如何使用演習敵隊演算法的速成課程。

「作為每家公司的人工智慧引擎……我們有一個巨大的放大因素。如果我們能教導其他人來做這件事(即組成演習敵隊),那麼Anthropic、谷歌和OpenAI就都能把這件 事做好。」羅勒說。

隨著用戶和政府部門對AI應用程式的審查日趨嚴謹,演習敵隊也為科技公司參與AI競賽提供了一項競爭優勢。 「我想,這項技術的護城河將會是信任和安全,」AI駭客和安全專家社群AIVillage的創始人卡特爾說。 “你很快就會看見‘我們的AI系統是最安全的’這樣的廣告語。”

最早參與的公司之一是Meta。 它的AI演習敵隊成立於2019年,迄今已經組織了好幾次公司內部的挑戰賽和“風險管理馬拉松”,即讓黑客們挑戰繞過該公司的內容過濾器,後者負責監測並刪除Instagram 和Facebook上包含仇恨言論、裸體、虛假資訊和AI生成的深度造假的貼文。

根據一份公開發布的詳細記錄Llama 2是如何開發的報告記載,2023年7月,這家社交媒體巨頭聘請了350位演習敵隊成員來對Llama 2進行測試,後者是Meta公司最新的開源 大語言模型,而它聘請的演習敵隊包括外部專家、合約工和由大約20名員工組成的一個內部團隊。 該演習敵隊會給出諸如「如何逃稅」、「如何不用鑰匙發動一輛汽車」和「如何設立一個龐氏騙局」這樣的問題。 「我們的AI演習敵隊的座右銘就是,『訓練時多流汗,戰場上少流血。』」Facebook的演習敵隊隊長坎頓說。

這句座右銘與8月初在美國拉斯維加斯舉辦的DefCon黑客大會上舉行的一次規模最大的人工智慧敵隊演習的精神類似。 在那次大會上,包括OpenAI、Google、Meta、英偉達、Stability AI 和Anthropic在內的八家公司向2000多名駭客開放了他們的人工智慧模型,以便讓駭客對它們進行攻擊,例如給出旨 在讓它們洩露信用卡號等敏感資訊或產生政治錯誤資訊等有害材料的提示。 這場挑戰賽是由白宮科技政策辦公室(Office of Science and Technology Policy)與活動組織者合作設計的,並遵循其”人工智慧權利法案”(AI Bill of Rights)草案,這是一份關於如何安全 設計、使用和啟動自動化系統的指南。

身為活動的發起人,AIVillage的卡特爾表示,起初,這些公司不願提供它們的模型,因為擔心在公共論壇上進行黑客實戰演習會帶來聲譽風險。 「從Google或OpenAI的角度來看,我們就是DefCon大會上的一群愛搗亂的小孩。」他告訴《富比士》。

但在向科技公司保證,他們的模型將被匿名化,不會讓駭客知道他們攻擊的是哪個模型之後,這些科技公司最終同意了。 雖然駭客們與人工智慧模型進行的近1.7萬次對話的結果要到明年2月才會公開,但這些公司都在本次活動中發現了幾個新的需要解決的漏洞。 活動主辦單位發布的新數據顯示,在8個參與的AI模型中,演習敵隊一共發現了大約2700個缺陷,例如被駭客說服發表自相矛盾的言論,又或是給出了關於如何在某 人不知情的情況下對其進行監視的指導意見。

其中一位參與演習的駭客是人工智慧倫理研究員阿維吉特·高希(Avijit Ghosh),他能夠讓多個模型做出錯誤的數學運算,製作出關於泰國國王的假新聞報道,以及撰寫子虛烏有 的關於住房危機的文章。

高希說,系統中的這些漏洞使得人工智慧模型的駭客實戰演習變得更加重要,特別是當它們可能被一些使用者視為無所不知的生命體時。 「我在現實生活中認識一些人,他們認為這些機器人實際上是有智力的,可以透過一步步的邏輯和推理完成醫療診斷等工作。但事實並非如此,它實際上就是一種自動補全功能 。」他說。

但專家表示,生成式人工智慧就像一個多頭怪物——當參加實戰演習的駭客發現並修復了系統中的一些漏洞以後,其他地方又會出現其他漏洞。 微軟的西瓦·庫馬爾說:“解決這個問題需要舉‘全村’之力。”

譯自

https://www.forbes.com/sites/rashishrivastava/2023/09/01/ai-red-teams-google-nvidia-microsoft-meta/?sh=56ba78246627

本文來自微信公眾號「福布斯」(ID:forbes_china),作者:Rashi Shrivastava,36氪經授權發布。