劉庭均

2022年5月1日

我預判你的預判 — 對抗式攻擊與其藝術實踐

文/劉庭均

前言

檢視 Instagram 圖片時，網頁原始碼中會看到一行英文註解，例如 “May be an image of motorcycle and beach”（可能是一張包含摩托車與海灘的圖像），大致描述圖片上存在的物件、背景、角色。這些便是圖片的後設資料（Meta Data），即是資料（圖片本身）的資料（描述圖片的文字、拍攝時間、地點）。每張圖片上傳到社群網站時會經過簡單的圖像辨識，除了讓企業更精準了解你的喜好、偏見、興趣和生活習慣；也方便紀錄和分類其他使用者觀看或按讚圖片的瀏覽習慣。滑過 Instagram 時多花點時間查看摩托車的圖片，即使文字描述中不存在任何機車相關的文字，甚至使用者未對圖片按讚，演算法都會在你的背景個人資料（Hidden Profile）中註記你對摩托車的興趣，進而推送符合你適當的廣告。《魔鬼終結者》（Terminator）中的天網（SkyNet）或《駭客任務》的母體（Matrix），這些科幻作家想像中人工智慧控制人群的景觀並沒有在 21 世紀初期出現，街邊巷口也不會看到持槍的殺戮機器人（儘管事實上它以飛行器的形式存在於某些國家。）而今企業透過人工智慧對人群細微的控制分析卻不遑多讓，這些演算法已大規模普及並滲透入我們的日常。對人工智慧演算法的反抗方法，便是所謂的對抗式攻擊 Adversarial Attack 或 Adversarial Hacking。

延續前文「新美學」的概念討論現實與虛擬世界之間的夾縫，另一個有趣的案例便是對抗式攻擊。簡而言之，對抗式攻擊作為一種反抗演算法機制的手段，透過在虛擬與現實中間隔上一層濾鏡，讓無論圖像、音訊或文字辨識演算法無法依照其原有的設計運作。當肉眼不可辨識的差異，卻能對機器造成極大的干擾，我們對於圖像的理解也拓展出單純的視覺性理解。對抗式攻擊的有趣之處在於，無數種辨識演算法有著無數種對抗的機制，如同錯誤美學（Glitch Aesthetics）一般，透過誤用、故障乃至於複雜的分析方法，試圖讓演算法失效。本文在此擴展對抗式攻擊的概念，梳理嘗試對機器和演算法對抗的科學或藝術作品。如同孫子兵法中「知己知彼、百戰百勝」一般，透過討論對抗式攻擊的概念以及其生產機制，稍稍揭開文字、音訊和圖像等大規模商用的辨識演算法面紗，一窺這些大規模應用的系統是如何運作，藝術家如何與之共處及回應？

什麼是對抗式攻擊 Adversarial Attack？

隨著人臉辨識、圖像辨識等機器學習大規模的介入日常生活，對抗式攻擊也在近年隨之興起。對抗式攻擊是指用外部或內部的調整，以某種策略或方法，使系統失去其原有的功能性（註一）。包含但不限於圖像辨識的攻擊，文字、音訊，任何種類的辨識演算法，都能夠以某種方式進行攻擊。對抗式攻擊大致分為白盒子（White Box）與黑盒子（Black Box）兩種模式，此處並非是藝術脈絡中的白盒子（White Cube），而是指攻擊本身是否對於辨識分類系統（Classifier）的內部有存取權。簡而言之，白盒子攻擊是透過改變系統中參數達到讓其失效的目的，以不斷調整輸入輸出來造成機器學習演算法的失誤。黑盒子攻擊，則是在對運作系統、防禦方法和訓練參數等不知情的情況下，自外部使其失去原有的功能性。有趣之處在於，透過不斷從外部分析與觀察，或是各種攻擊方式的嘗試系統運作的缺陷或是可以攻擊的漏洞，進而在不了解演算法實際運作邏輯的情況下有了攻擊的可能，這也是大量藝術家或社會工作者為對抗企業演算法嘗試的路徑。

對抗式攻擊的緣起，來自於2014年一群紐約大學與 Google 的研究人員，發現了圖像辨識模型 ConvNets 中的漏洞，並發表了第一篇對抗式攻擊的論文。將一個會被辨識成熊貓的圖片，疊上一層精細調整的噪點，演算法便會將它辨識成一隻長臂猿。近年來這種攻擊方式也被逐漸開發，透過蓋上一層調整過的半透明影像，讓主流普及的辨識演算法失去運作功能。有興趣的朋友可以上網站AI Research（https://art-demo.mybluemix.net/）或是Adversarial.js（https://kennysong.github.io/adversarial.js/），嘗試一些辨識演算法與攻擊演算法的組合。

2018 年德國柏林超媒體藝術節（Transmediale Festival）中的論壇：偏見未來（Biased Futures），討論了人工智慧中的資料偏見，並舉例了許多透過對抗式攻擊創作的藝術家。並在2020 年超媒體藝術節舉辦了工作坊：人工智慧時代下的對抗式攻擊（Adversarial Hacking in the Age of AI）。其中藝術家法蘭西斯·亨格（Francis Hunger）的文章《How to Hack Artificial Intelligence (2018)》也在2019 年被阿姆斯特丹應用科學大學的網路文化機構（Institute of Network Cultures）收錄於書本《State Machines: Reflections and Actions at the Edge of Digital Citizenship, Finance, and Art》中。文中亨格將對抗式攻擊方法做了簡單的分類舉例。包含：

• 濫用範圍（abuse scope）

• 改變顏色（change the color）

• 調變／陷阱圖示（altered / trap iconography）

• 擾亂（perturbation）

• 感測器爆炸（sensor blast）

• 偽裝辨識（camouflage mask）

• 環境偽裝（camouflage surroundings）

• 軍備競賽：機械化的虛偽（arms race: machinic un/fake ）

• 輸入惡搞（input trolling）

• 標籤惡搞（tag trolling）

超媒體藝術節將「對抗」作為新時代網路政治運動的重要命題，隨著藝術機構開始舉辦對抗式攻擊的討論與活動，如此命題也逐漸自電腦科學與社會運動延伸，蔓延至數位藝術家。以這些被開發的不同方法與技術，以藝術的角度賦予被我們在監控式資本主義時代下更大的能動性。

如何在機器中消失？

對抗式攻擊的初衷在於討論或伸張個體在當代的隱私權，無論是源自於政府或企業的監控，隨著視覺辨識模型大量應用於社會中，與之對應的方法也逐漸被開發和討論。談到如何在機器辨識中消失，最著名的便是德國藝術家與作家希朵．史戴爾（Hito Steyerl）於2013 年所創作的影像作品《隱身指南：一個他X的教育宣傳片》（How Not To Be Seen. A Fucking Didactic Educational .Mov File）。這件作品也曾在2018 年於台北的鳳甲美術館展出過。美國過往曾於加州沙漠中，放置數個排列的白色方塊，以供監視衛星影像校準解析度。史戴爾在影像中不斷重複出現這些白色的陣列方塊，指出當代大量散播與永無止境的監控環境。影像的生產機制離不開機器的介入，而機器對於視覺的理解方式往往依技術細節而有所不同。影像中史戴爾用綠色顏料逐漸將自己臉部塗綠，讓自我身份在綠幕背景之中逐漸消失成為背景影像的一部分。史戴爾的作品並非使用狹義的對抗式攻擊技術，但其透過類比混淆視聽的方法，也開啟了我們對於如何對抗大規模使用的機器的想像。

較為人熟知的對抗式攻擊舉例，便是2017年俄羅斯科學家Grigory Bakunov，發明了一種對抗臉部辨識的方法。大部分的臉部辨識演算法，是基於眼睛周邊區域為主，當在臉部上畫上特定的妝容時，機器便無法辨識五官等特徵，進而導致機器無法辨識人臉的存在。2020 年藝術家Adam Harvey便以此為基礎，發展了一套讓機器無法辨識臉部的妝法設計CVDazzle。CV指的是電腦視覺（Computer Visual），即是廣義上各種影像辨識或討論電腦如何觀看的領域，而Dazzle的名稱則源自於第一次世界大戰時海軍所使用的迷彩名稱。CZDazzle的計畫讓我們看見藝術家如何應用科學家開發的方式，透過美學上的詮釋，開啟不同的創作可能。

如何讓機器故障？

前面提到紐約大學論文中，精細調整每一個像素的噪點，堆疊在圖像上的手段讓機器無法成功辨識。2017年日本九州大學的科學家，則將此進一步推展，透過機器學習的技術，試圖以只修改一個像素的方式，來讓大部分圖像辨識演算法無法運作。電腦在觀看視覺時，往往片段截取不同的區間，將這些區間排列組合來推斷出答案（註二）。我們可以在這樣的案例中，發現電腦理解圖像的方式，其實與人眼相差甚遠。藝術家詹姆士・布萊多（James Bridle）2017年的作品Autonomous Trap，便利用機器視覺的局限性，來限制自動駕駛汽車的移動路徑。布萊多在馬路上用鹽巴製造了兩個同心圓，外圓是虛線而內圓則是實線；有駕照的朋友應該熟悉在看到虛線時代表能夠換車道，而實線則相反，如此簡單做法卻能造成基於演算法運作的自動駕駛汽車在看到虛線時輕易進入如同捕魚石滬一般的魔法陣，而被擋在內圈的實線之中無法出去。僅僅兩圈鹽巴，卻能與大型資本企業的複雜工業結果分庭抗禮。如此情景不禁讓人想像，當未來自動駕駛汽車普及化之後，是否可以輕易被有心人士濫用？被以「規則」來束縛的機器，對於真實世界的理解與人類有何不同？

2017 年4 月12 日美國各地許多家庭的智慧語音裝置 Google Home 不約而同的開始介紹漢堡王的華堡。這並非是系統故障，而是一場漢堡王廣告的駭客行為。當詢問 Google Home 關鍵字時，系統會動搜尋維基百科，並把前面幾行文字念出來。漢堡王透過修改部分維基百科的內容，將原本限制15 秒一字千金的電視廣告延長，讓美國眾多家庭裝置幫他們完成漢堡王華堡的介紹廣告。智慧家庭裝置往往需要一句開場語方便理解來輸入指令，不管是 OK Google 還是 Hey Siri ，這些語句往往是固定而不可修改的。

近年許多研究學者也開始研究智慧語音裝置對於當代人類語言使用的習慣，許多現象指出使用智慧家庭裝置的兒童，在對話中會出現更多命令式的語句（Alexis Hiniker, 2021）。正因為與機器溝通成為當代生活的常見狀態，這些語言上的變化也滲入我們生活中。藝術家 Bjørn Karmann 於2018年的作品 Project Alias，便試圖玩弄這些智慧家庭裝置。Karmann 將寄生的概念引入，在這些智慧家庭裝置上寄生另一個結構，阻斷原本接受用的麥克風。使用者可以透過一個手機 App 調整這些裝置的問候語以及指令，替這些裝置取名字之後，也不需要再大聲唸出 OK Google 或 Hey Siri等語句，突破了企業對於產品使用的限制。

對抗作為影像生產機制

20 世紀末開始，視覺文化中的圖像理解開始有了極大的變化，逐漸脫離了人類的眼睛而轉向為更為透明與不可視的狀態（Trevor Paglen, 2016）。不同於顏料、相紙、印刷、映像管與液晶螢幕，圖像在資訊時代被作為陣列化的數字（資料）所儲存。如同文字書籍一般，當代圖像最大的受眾已成為機器。大型機器學習模型為了優化他們的系統，往往大量擷取網路上的圖像、文獻、檔案，囫圇吞棗地塞入資料庫以供學習與訓練。然而機器作為閱讀影像的一方，往往不同於人眼閱讀的方式。同樣觀察雲朵時，人類往往會發自內心提出各種奇形怪狀的想像，然而對機器而言雲朵的圖片卻只有是一種資料。藝術家 Trevor Paglen 則將機器學習演算法閱讀圖像的過程視覺化。這些圖像上的線條與圓圈，便是機器閱讀影像的軌跡。如同前述九州大學單一像素對抗式攻擊的論文，以機器學習的方式找尋最適當修正的像素來造成最大程度的破壞。像素作為數位影像的最小單位，不同於人眼，一個像素的修正卻會造成電腦辨識系統極大的障礙。並非機器作為影像的閱讀者缺乏辨識力，而是其理解影像的方式，與人類有所不同。對抗式攻擊始於優化機器學習演算法的一種方式，儘管對抗式神經網絡將兩個演算法進行相互抗衡，他們依舊源自於同一個系統之中。然而在對抗的過程中那層濾鏡的生產，卻非為了服務人眼的觀察。我們對影像的理解和當代最大影像受眾的理解已截然不同。傳統視覺中的符號、象徵和結構，在對抗式攻擊所生產的視覺中被棄之於不顧，轉化為另一種機器理解的符號、象徵與結構。正因於此，藝術家透過對抗式攻擊的手段，除了探究當代社會無所不在的監控系統，也開啟人類對於視覺閱讀本身所不可見的新的想像。

圖九：經過對抗式攻擊的交通號誌牌（圖源）

辨識結果中，左圖為人類，中間為球，右側則為無法辨識。

註一：

電腦科學領域中討論的對抗式攻擊係指以演算法或不同攻擊方法，從內部或外部分析機器學習（Machine Learning）的辨識系統（Classifier），透過尋找程式漏洞來取得讓其失效的結果。因為大型神經網絡的節點數量與維度極為龐大，便導致其中有十分多的漏洞的可以進行攻擊。另一方面，對抗式攻擊的機制同時也是一種機器學習模型的訓練手段，除了防禦其他種類的攻擊，也可以增加辨識演算法的精準度。值得提及的是，數位藝術近來流行的 GAN 對抗式神經網路（Generative Adversarial Network），即包含了對抗式攻擊的概念。GAN 是透過兩個類神經網路，一個負責隨機生成，另一個負責辨識，如此反覆循環來訓練出一種類似於電腦做夢的圖像。儘管運作上有所不同，但本質上 GAN 也是透過演算法來對抗辨識演算法。

註二：

電腦視覺（Computer Vision）領域中典型機器學習演算法進行圖像辨識時，並非是輸入一張圖像便會得到一個辨識結果。而是在輸入圖像之後，透過卷積（Convolution）和池化（Pooling）將高解析度的像素陣列轉換成資料，透過辨識演算法輸出所有可能結果的信賴值（Confidence Value），辨識的結果往往是選取最高的機率做為答案。

參考資料：

論文書籍：

Togootogtokh E., Amartuvshin A. (2018) Deep Learning Approach for Very Similar Objects Recognition Application on Chihuahua and Muffin Problem. https://arxiv.org/abs/1801.09573

Suciu, O., Marginean, R., Kaya, Y., Daume III, H. and Dumitras, T. (2018). When Does Machine Learning FAIL? Generalized Transferability for Evasion and Poisoning Attacks. https://arxiv.org/pdf/1803.06975.pdf

Su, J., Vasconcellos Vargas, D., and Kouichi, S. (2019) “One pixel attack for fooling deep neural networks” https://arxiv.org/abs/1710.08864

Young, L., & Paglen, T. (2019). Invisible Images: Your Pictures Are Looking at You. Architectural Design, 89, 1, 22-27. https://thenewinquiry.com/invisible-images-your-pictures-are-looking-at-you/

Francis Hunger (2019) “How to Hack Artificial Intelligence.” State Machines: Reflections and Actions at the Edge of Digital Citizenship, Finance, and Art. Institute of Network Cultures Amsterdam. https://networkcultures.org/blog/publication/state-machines-reflections-and-actions-at-the-edge-of-digital-citizenship-finance-and-art/

Fabian Offert (2021) “Latent Deep Space: Generative Adversarial Networks (GANs) in the Sciences.” Media+Environment 3 (2). https://doi.org/10.1525/001c.29905.

Gerfried Stocker, Markus Jandl, Andreas J. Hirsch (2021) The Practice of Art and AI. Ars Electronica. https://ars.electronica.art/newdigitaldeal/files/2021/08/artandai.pdf

網頁：

https://exmediawiki.khm.de/index.php/Adversarial_Attacks

https://www.nytimes.com/2017/04/12/business/burger-king-tv-ad-google-home.html

https://thenewinquiry.com/invisible-images-your-pictures-are-looking-at-you/

筆者 ∥ 劉庭均

就讀於德國科隆媒體藝術學院。從事新媒體藝術、網路藝術相關創作。研究議題包含網路文化、電腦文學、與人工智慧等。探索後網路時代下虛擬與真實之間的模糊關係。

https://www.liutingchun.com/

我預判你的預判 — 對抗式攻擊與其藝術實踐

最新文章

Commentaires