2020.07.03 06:00 臺北時間

【性別S01E06】連AI也厭女？　數據黑盒子如何默默強化社會不平等

文化

AI人工智慧就夠智慧了嗎？這集要告訴你，NONO！連亞馬遜曾經開發一款求職履歷審查的人工智慧，也被發現有其偏見與喜好，究竟這是AI的錯，又或是社會的錯呢？（pixabay）

發布時間：2020.07.03 06:00 臺北時間

更新時間：2023.09.12 20:35 臺北時間

文

康庭瑜

主播

康庭瑜

聲音｜康庭瑜

已複製連結

贊助本文

鏡文學鏡好聽性別好好玩

當我們使用Google把土耳其文翻譯成英文的時候，當時的Google的AI系統，會傾向把刻板印象中適合男性的事情（比方：工程師），自動連結到男性的代名詞（比如：He is an engineer，他是工程師），而把刻板印象中適合女性的事情（比方：護理師、保母），自動連結到女性的代名詞（比如：She is a nurse，她是護理師）。

【性別S01E06】連AI也厭女？　數據黑盒子如何默默強化社會不平等
哈囉大家好，我是政治大學新聞系的副教授康庭瑜。歡迎收聽鏡好聽製作播出的性別好好玩，和大家一起探索性別的故事和議題。

2018年，一篇路透社報導稱電商龍頭亞馬遜研發了一款用來評量求職者的AI。而這個AI並不喜歡女人。
根據路透社，這個AI負責審閱求職者的履歷。亞馬遜使用過去10年他們收到的履歷來訓練AI系統，讓AI學習過去亞馬遜評價這些求職者的模式，然後據此標準來評價新的求職者。
漸漸的，亞馬遜發現這個AI系統好像不太喜歡女生。
任何履歷包含「女子的」、「女子棋藝隊隊長」等字眼，都會被視為扣分事項（儘管棋藝隊長對人資工作者來說通常是加分事項，棋藝精良暗示擅長競爭策略，擔任隊長暗示人和與領導力。）除此之外，兩所知名的女子大學學歷，也成為履歷被降評等的原因。

根據路透社，亞馬遜最終只好放棄這項AI雇用系統的發展。
不只是亞馬遜，同一時間的新聞媒體和社群媒體中，也開始討論Google翻譯所使用的AI系統所隱含的性別偏見。
2018年，富比士的報導就指出，當時的Google翻譯的AI系統，可能幫忙傳播了許多性別刻板印象。
有些語言的代名詞區分男性與女性（如：英文的he/she），有些語言的代名詞不分男性與女性（比如：土耳其文）。而當我們使用Google把土耳其文翻譯成英文的時候，當時的Google的AI系統，會傾向把刻板印象中適合男性的事情（比方：工程師），自動連結到男性的代名詞（比如：He is an engineer，他是工程師），而把刻板印象中適合女性的事情（比方：護理師、保母），自動連結到女性的代名詞（比如：She is a nurse，她是護理師）。
儘管土耳其文原文中根本沒有暗示這個人的性別是什麼。
性別與種族交織的AI偏見
當妳是一個非白人女性的時候，AI偏誤判讀的狀況可能會更惱人。
一個AI圖像辨識系統在辨認婚禮圖片時，可以成功的把穿西式白色婚紗的女人辨認為「新娘」，然而，穿著北印度傳統紅色婚服的女人，卻被辨認為「表演藝術」或「表演用服裝」。
許多人臉辨識系統都最不易誤判白人男性，而深膚色的女性又比白人女性更容易被誤判。一個研究分析了許多商用的人臉辨識系統後發現，針對白皮膚男性的人臉辨識誤判率僅有0.8％，而深膚色女性的誤判率卻高達35％。
AI不只可能系統性的做出對女性不利的判斷，它也時常系統性的作出對非白人不利的決定。
比方Nikon曾經出過一款智慧相機，讓系統可以判讀被攝者是否正在眨眼而閉上了眼睛，希望藉由這個功能的提醒，可以拍出更理想的人像攝影。這個設計看似立意良好，然而實際使用後卻發現，它會持續不斷的問亞洲人「請問你是不是閉眼睛」？
有些對種族的不利判斷只是有點惱人，然而有些不利的判斷卻會威脅生命與安全。
比方當AI被使用在醫療診斷時，白人的皮膚癌傾向比深膚色的人更容易被正確的診斷出來。
由於影像判斷系統對於非白人的判讀能力較低，而無人車的自動駕駛系統又採用這一類的AI影像判讀系統，一個美國的研究就發現，這可能使得無人車比較容易撞上黑人或深膚色的人，而比較不易撞上白人。
又或者當AI使用於司法系統，來預測犯罪者的再犯可能性，黑人比白人更容易被錯誤的判斷為高度可能再犯，但實際上卻沒有再犯。而在此同時，白人比黑人更容易被錯誤的判斷為不易再犯，但實際上卻再犯了。
而當這些以白人為中心的判讀，遇上性別間的刻板判讀，就促成非白人女性性別與種族交織的雙重不利處境。
哪裡出了錯？被資料庫遺忘的臉孔
到底是哪裡出了問題才導致這些偏誤的判讀？
其中一個常見的原因是資料庫的問題。要讓機器代替人類做判斷，一個方式是把過去人類社會的資料拿來訓練機器。
然而，這些被選擇拿來訓練機器的資料庫，常常會遺漏了某類型的人的資料，而傾向多收錄另一些類型人的資料。許多資料庫都收錄男性影像多過於女性影像，白人影像多過於非白人影像。若是使用這樣的影像資料來訓練機器，那麼機器當然就比較擅長正確判斷男性和白人的影像，而比較不擅長正確判斷其他人的影像。
比方全球機器學習都常用的影像資料庫ImageNet，這個最初始於美國普林斯頓大學的影像資料庫裡面，在2018年前後，大概有45％的影像來自美國，儘管美國人只佔了全世界4％的人口。而來自中國和印度的影像只佔了ImageNet當中的3％，儘管它們其實構成了世界上接近40％的人口。
其他的資料庫也有類似的問題。
有些機器學習會用維基百科上的資訊作為資料庫，來訓練機器。然而，在2018年，維基百科上有關人物的介紹，被發現只有不到18％是關於女性人物。而且女性人物的介紹頁面常常會連結到男性人物的介紹頁面，而男性人物的介紹頁面則較少會連結到女性人物的頁面。
一個關於健康的手機APP被發現，由於過去心血管疾病被認為是男人的疾病，所以疾病資料多為蒐集男性病患的資訊，當女性使用者出現心血管疾病症狀的時候，這個APP比較常會建議她觀察幾日再去醫院，而當男性使用者有同樣症狀時，這個APP比較容易正確的建議他這可能是心臟病，需要立即就醫。
大型數據庫中，女性缺席的例子族繁不及備載。
總之，許多常用來訓練機器的資料庫，都高度收錄了某些特定背景的人的資料，而低度收錄了其他背景的人的資料。這一類不均等的資料庫組成，可能解釋了為什麼很多影像判斷系統對非白人女性族群的判斷最不準確，也解釋了為什麼西方白紗會被判讀為新娘，而印度紅色婚紗則成了表演藝術與娛樂性衣著了。
數據複製社會偏見：兩種方式
資料庫的問題可以再細分為兩種。
一種問題是，資料並沒有等比且充分的反映真實世界多元的樣貌。比方剛剛提到的美國圖片佔了45％，印度和中國的圖片加總起來只有3％，或女性的人物故事只佔所有人物故事的大約20％。要解決這個問題，第一步我們可以做的，是讓不同身分的人，都能在資料庫裡得到充分的代表性，讓不同性別、種族、地理位置、文化、年齡等身分的人，都能充分的被收錄在資料庫中。
另一種資料的問題則可能更棘手。它的資料的確充分反映了真實世界的數據分佈，然而，令人遺憾的是，這種數據分佈本身就是社會不平等的產物。
比如一個AI翻譯軟體若容易將「醫生」、「工程師」連結到男性的代名詞（他／he），將「護理師」、「保母」連結到女性的代名詞（她／she），這常常是因為它用人類社會真實使用的語言資料來訓練機器。而當我們人類使用語言講述醫生和工程師時，的確比較常指的是男醫生和男工程師，當我們人類語言講述護理師和祕書時，的確比較常指的是女護理師和女祕書。這些語言資料真實的反映了人類社會的語言使用的狀況，也一定程度的真實反映了我們社會中職業分布的確是男醫師多於女醫師等等情況。這些狀況雖然是真實的，但它同時也是社會偏見和不平等的產物。
若我們用這種資料去讓機器學習，那麼我們只是教導機器去複製我們社會過去對性別、種族、年齡等偏見和不平等，讓機器對這些社會上比較弱勢的人繼續做出不利的判斷，讓不平等被繼續的維持。
特別是當我們把這類資料用在關於健康、求職和司法領域的決策時，一不留意，它有可能讓本來已經不易翻身的族群，更長久的留在弱勢的位置。這些領域是決定人們是否能夠幸福生活的重要面向，但如大家所知的，這些領域的過往資料，時常是由帶有社會偏見的判斷所組成。
以求職來說，AI履歷審查系統若看見有關「女子的」字眼就扣分，這通常被認為是因為當這個公司使用它過去10年評審履歷的資料來訓練機器時，機器發現，這個公司過往的錄用決定的確一向是偏好男性。
以司法資料來說，從量刑到假釋，許多國家已經開始要AI系統告訴我們，根據過去的資料，我現在手上這個案子會被怎麼判斷，或該怎麼判斷。然而，要使用過去司法資料庫訓練系統時，要小心的是，我們已知社會偏見會影響司法決定。過去司法判斷的資料，可能本身便是社會不平等的產物。
以性別來說，有些國家的研究指出，女性容易被想像成溫柔順從的弱者，當一樣犯下嚴重的犯行，女性比男性不容易被判死刑，「女生怎麼可能有能力殺人」，「如果她真要殺人，一定是有什麼苦衷吧」。又比如，女性通常被想像為較無性慾的性別，近期的研究傾向發現，女性性侵加害者遠比男性性侵加害者不容易被判刑入獄，若她們被判刑，刑期也較男性加害者短。有時這些性別的刻板印象會跟種族刻板印象交織。比方黑人由於被想像成高度性化的一種種族（hypersexualized），黑人女性若成為性侵案件被害者，她的控訴會更不容易被相信為真，也比較容易被認為她受的傷害不嚴重（她一定是自己想要的，黑人不是都很熱愛性嗎？）社會中的刻板印象可以影響法官的判斷、陪審團的判斷，甚至可能影響這些人對自己的想法，以及他出獄後回歸社會的適應和再犯罪機率。
這類的數據信手捻來即是。不只有性別，從經濟階級、種族到年齡，社會的各種不平等都普遍反應在各種決定的資料當中。
以目前常見的狀況來說，即便隱去資料中性別和種族等標籤，機器都仍然可能一定程度學習到過往社會對於弱勢族群不利的判定模式，而做出複製這些不平等的預測。
比如若把履歷中求職者的性別資訊都抹去，再讓機器學會評分，則機器仍會挑出男性常用的字詞，比如：執行（executed）、捕捉（captured），給予含有這類字樣的履歷較高的評價。
明天會更好嗎？科技研發者的努力
權威科學期刊《自然》在討論AI資料庫的偏誤時，要大家問自己一個問題：當我們說資料庫應該要能充分反映社會樣貌，我們要的是它反映目前實際的社會樣貌，還是要它反映一個我們理想中希望可以達成的社會樣貌？
有一些科技研發者已經察覺到這個問題，並且開始做出改變。比方Google翻譯系統已經改變了男性／女性代名詞的使用方法，而更衡平的使用它。水能覆舟亦能載舟，研究者也已經著手發展可以偵測數據中偏見的AI系統。
然而需要做的努力還有更多。
在未來，AI系統所使用的數據和演算法，應該變得更透明，而可受公開檢驗，特別是當它關係到人們求職、健康、安全、司法處遇的時候。而科技研發的過程也可以招募更多元背景的參與者，包括多元的社會身分和多元的專業訓練背景，讓多樣的聲音能被聽見。
延伸閱讀
Dastin, J. (2018) Amazon scraps secret AI recruiting tool that showed bias against women. Reuters. 9 October 2018.
Hao, K. (2019) This is how AI bias really happens—and why it’s so hard to fix. MIT Technology Review. Feb 4 2019.
Olson, P. (2018) The algorithm that helped Google Translate become sexist. Forbes. 15 Feb 2018.
Zou, J. & Schiebinger, L. (2018) AI can be sexist and racist—it's time to make it fair. Nature, 559(7714): 324–326.
🕺想聽更多聲音節目？2019年10月鏡週刊推出全新聲音平台《鏡好聽》，聽記者聊採訪幕後，聽作家談創作，還有聽名人朗讀好書。讓我們的聲音，陪你度過各個你通勤、跑步、洗碗的零碎時間。
用Apple 訂閱：https://apple.co/2M5rF0y
網站桌機簡單聽：https://voice.mirrorfiction.com/
最多獨家更新內容只在《鏡好聽》：https://mirrormediafb.pros.is/LY67K
若為Android系統使用者，可下載Google Podcasts或其他聆聽Podcast的軟體，並搜尋「知識好好玩」