中央政法委機關報法治日報社主辦

您所在的位置:首頁  > 文學·副刊

合成數(shù)據(jù)的虛假承諾與真實風險

2024-10-17 15:23:34 來源:法治日報·法治周末

智道

欄目主持人:於興中

即便技術企業(yè)在創(chuàng)建合成數(shù)據(jù)時實施的收集和處理數(shù)據(jù)的行為可能侵犯隱私,監(jiān)管者也難以有效識別,甚至可能面臨審查上的“不能”


黎娟 詹凱漫

合成數(shù)據(jù),也被稱為虛擬數(shù)據(jù),是通過模擬現(xiàn)實數(shù)據(jù)的統(tǒng)計特性和結(jié)構(gòu)特征,或者依據(jù)現(xiàn)有的模型和專業(yè)知識而創(chuàng)造的數(shù)據(jù)。在生成式人工智能迅猛發(fā)展、全球高質(zhì)量語料資源日益稀缺的時代,合成數(shù)據(jù)備受青睞。

合成數(shù)據(jù)具有兩大核心優(yōu)勢:一是能夠豐富訓練數(shù)據(jù)的多樣性,二是有利于隱私保護。合成數(shù)據(jù)技術不僅能夠創(chuàng)造出傳統(tǒng)數(shù)據(jù)收集方法難以獲取的各類訓練數(shù)據(jù),包括罕見病例和極端氣候條件數(shù)據(jù)等,還能夠在生成過程中利用匿名化技術切斷數(shù)據(jù)與個人身份之間的直接聯(lián)系,從而確保個人隱私安全。

然而,當數(shù)據(jù)涉及身份識別信息、生物識別信息、行為信息等敏感信息時,人們對合成數(shù)據(jù)技術的安全性會有更高的期待。因此,合成數(shù)據(jù)治理領域涌現(xiàn)出一些新的議題:合成數(shù)據(jù)如何在敏感信息領域內(nèi)確保數(shù)據(jù)的實質(zhì)多樣性,從而有效預防算法歧視?怎樣確保合成數(shù)據(jù)在敏感信息領域內(nèi)的隱私保護是合法、充分的?

合成數(shù)據(jù)的技術機遇與虛假承諾

谷歌DeepMind在《自然》期刊上發(fā)表的一項最新研究成果表明,在不涉及敏感信息的領域,合成數(shù)據(jù)技術的應用為提升模型能力開辟了新的可能性。該研究展示了一款完全依托合成數(shù)據(jù)集訓練而成的歐幾里得平面幾何定理證明器——AlphaGeometry。

在面對包含30個最新奧林匹克級幾何問題的測試集時,AlphaGeometry成功解決了其中的25個問題。這一成績超越了此前的最優(yōu)方法。這也意味著,AlphaGeometry的表現(xiàn)幾近于國際數(shù)學奧林匹克(IMO)金牌獲得者的平均水準。

然而,當合成數(shù)據(jù)被應用于與“人”相關的敏感信息領域時,它卻帶來了數(shù)據(jù)多樣性和隱私保護上的“虛假承諾”。

以微軟的FaceSynthetics合成數(shù)據(jù)集為例,微軟聲稱該數(shù)據(jù)集是基于511個真實人臉特征的掃描而構(gòu)建,但在樣本構(gòu)成中,黑人男性樣本僅占5.9%,其他族裔樣本的占比更少。這種樣本選擇意味著數(shù)據(jù)集潛藏算法歧視的風險,微軟所標榜的多樣性其實名不副實。

另外,盡管該合成數(shù)據(jù)集聲稱在技術上實現(xiàn)了對原始數(shù)據(jù)的匿名化處理,但僅憑這一處理手段并不足以全面保障數(shù)據(jù)主體的隱私權益。隱私保護不應僅依賴于匿名化技術的應用,而應該涵蓋更廣泛的方面,包括數(shù)據(jù)集的合法獲取、數(shù)據(jù)處理的透明度,以及在收集和處理數(shù)據(jù)時獲得數(shù)據(jù)主體的充分知情同意。

合成數(shù)據(jù)制造的“多樣性欺騙”

“多樣性欺騙”衍生于合成數(shù)據(jù)的生成過程。合成數(shù)據(jù)由原始數(shù)據(jù)派生而來,在此過程中,原始數(shù)據(jù)本身存在的多樣性不足或者內(nèi)含偏見等問題,可能在生成合成數(shù)據(jù)集時被復制,并在使用合成數(shù)據(jù)集訓練AI模型時被進一步強化。

具體而言,一些數(shù)據(jù)集數(shù)量龐大、類別豐富,為生成合成數(shù)據(jù)提供了多樣性基礎,但這種多樣性無法抵銷其固有的數(shù)據(jù)偏見。ImageNet是機器學習和計算機視覺領域中最著名的數(shù)據(jù)集之一,包含了超過1400萬張標記圖像,這些圖像被細致地分為超過兩萬個類別。其中,“Person”類別包含了數(shù)千個子類別,涉及種族、國籍、職業(yè)等多樣化信息。

然而,ImageNet數(shù)據(jù)集是根據(jù)圖像內(nèi)容的表面特征進行標注的,而不是以更深層次的語義理解作為標注依據(jù),這導致一些標簽與圖片內(nèi)容不匹配,或者過于簡化原本復雜的人類特征和行為。

例如,一個微笑的女性被錯誤地標記為“蕩婦”,一個喝啤酒的年輕人被標記為“酗酒者”,而一個戴墨鏡的孩子被標記為“失敗者”??梢灶A見,當ImageNet數(shù)據(jù)集用于生成合成數(shù)據(jù)集時,原始數(shù)據(jù)本身含有的偏見將不可避免地在創(chuàng)建后的合成數(shù)據(jù)復現(xiàn),甚至在應用中被進一步放大。

值得注意的是,技術企業(yè)常以“全新合成”“中立”“無歧視”等語言來描述合成數(shù)據(jù)集,以突顯合成數(shù)據(jù)與原始數(shù)據(jù)無關。然而,這種刻意的渲染恰恰可能是為了掩蓋合成數(shù)據(jù)可能繼承原始數(shù)據(jù)存在的偏見的事實,從而導致固有偏見的加劇。

正如社會學家魯哈·本杰明在批判“技術中立性”假象時指出,現(xiàn)代技術常被標榜為客觀和進步的象征,但往往通過原始數(shù)據(jù)、生成方式等媒介,使原本根深蒂固的種族偏見和社會歧視被復制甚至放大。

合成數(shù)據(jù)誘發(fā)的“隱私侵犯”

對合成數(shù)據(jù)所聲稱的“匿名化”特性的過分強調(diào),可能引發(fā)隱私侵犯的風險。當前,不少技術企業(yè)宣稱,通過匿名化技術處理的合成數(shù)據(jù)與原始數(shù)據(jù)不存在直接關聯(lián),因此,在創(chuàng)建合成數(shù)據(jù)的過程中,沒有必要獲取數(shù)據(jù)主體的明確同意。

然而,這種將“匿名化”等同于隱私安全的觀點是站不住腳的。事實上,合成數(shù)據(jù)的匿名化并不是確保數(shù)據(jù)主體隱私安全的充分必要條件。確保隱私安全還應當保障數(shù)據(jù)主體對個人信息收集情況及使用情況的知情權。任何未經(jīng)數(shù)據(jù)主體同意處理個人信息的行為,包括將其用于生成合成數(shù)據(jù)的行為,都是對數(shù)據(jù)主體隱私權的侵犯。

不過,即便技術企業(yè)在創(chuàng)建合成數(shù)據(jù)時實施的收集和處理數(shù)據(jù)的行為可能侵犯隱私,監(jiān)管者也難以有效識別,甚至可能面臨審查上的“不能”。這具體表現(xiàn)在:

第一,監(jiān)管者難以追蹤原始數(shù)據(jù)的同意狀態(tài)。這一難題的根源在于算法處理的復雜性,它使得合成數(shù)據(jù)的屬性和來源變得難以辨認。當原始數(shù)據(jù)的收集未能獲得數(shù)據(jù)主體的明確同意,或者同意的對象不夠明確時,合成數(shù)據(jù)的生成可能會進一步混淆同意的界限。這種模糊性導致監(jiān)管者難以確定數(shù)據(jù)同意的具體范圍,進而無法準確判斷原始數(shù)據(jù)的同意狀態(tài)。在數(shù)據(jù)濫用或隱私泄露等事件發(fā)生時,監(jiān)管者若無法依據(jù)同意規(guī)則來追究過錯方的責任,并對受害者提供適當賠償,將嚴重削弱數(shù)據(jù)保護法規(guī)的效力。

第二,監(jiān)管者難以審查數(shù)據(jù)處理的混淆行為。由于技術企業(yè)可以將合成數(shù)據(jù)設計得與真實數(shù)據(jù)極其相似,并將合成數(shù)據(jù)與真實數(shù)據(jù)混用,這使得部分未經(jīng)同意的真實數(shù)據(jù)被濫用,從而引發(fā)隱私侵犯的風險。在沒有額外信息的情況下,監(jiān)管者無法區(qū)分真實數(shù)據(jù)與合成數(shù)據(jù),也難以對合成數(shù)據(jù)背后的混淆行為作出有效的審查。相比之下,技術企業(yè)則可以利用真實數(shù)據(jù)與合成數(shù)據(jù)難以驗證的特性,混用兩種數(shù)據(jù),以規(guī)避監(jiān)管者的審查。

第三,監(jiān)管者難以確認技術企業(yè)已徹底刪除侵權數(shù)據(jù)。美國《聯(lián)邦貿(mào)易委員會法》規(guī)定,模型創(chuàng)建者如果通過不公平行為或者欺騙性行為收集與公民個人信息相關的數(shù)據(jù),將面臨模型刪除、數(shù)據(jù)刪除、罰款等處罰。相應地,聯(lián)邦貿(mào)易委員會不僅可以要求刪除侵權數(shù)據(jù)并通知受影響的數(shù)據(jù)主體,還可以要求刪除所有“受影響的工作產(chǎn)品”,包括基于該數(shù)據(jù)訓練的模型。該規(guī)定表明,監(jiān)管者意圖采用“模型刪除”的方法,阻礙技術企業(yè)從不公平、欺騙性的數(shù)據(jù)收集行為中獲利,并從根本上杜絕對侵權數(shù)據(jù)的二次使用。不過,在實踐中,由于合成數(shù)據(jù)的生成與應用通常涉及多個模型,并且模型之間存在復雜的依賴關系,這就使得監(jiān)管者難以準確定位哪些模型使用了侵權數(shù)據(jù)。另外,隨著數(shù)據(jù)集的不斷擴充以及數(shù)據(jù)的多次處理,侵權數(shù)據(jù)逐漸變得“無跡可尋”,因此,即便技術企業(yè)宣稱已經(jīng)刪除了涉及侵權數(shù)據(jù)的模型,監(jiān)管者也無從復查和確認。

構(gòu)建群體參與的數(shù)據(jù)治理框架

合成數(shù)據(jù)的生成與應用不是一個單向的過程,而是一個多方群體共同參與、共同決策的過程。在此過程中,數(shù)據(jù)主體作為關鍵的利益相關者,應當充分參與到合成數(shù)據(jù)生成與應用的各個環(huán)節(jié),以維護其正當?shù)臄?shù)據(jù)權利和利益。技術企業(yè)作為數(shù)據(jù)處理者,必須遵守數(shù)據(jù)治理規(guī)則,并在數(shù)據(jù)主體的授權和控制下負責任地處理數(shù)據(jù)。

然而,當前合成數(shù)據(jù)生成和應用中一個突出的問題是數(shù)據(jù)主體參與不足。研究表明,合成數(shù)據(jù)生成與應用過程往往由大型技術企業(yè)主導,而數(shù)據(jù)主體在此過程中常常被邊緣化。這種狀況的出現(xiàn),部分原因是大型技術企業(yè)掌握了合成數(shù)據(jù)生成的關鍵技術和大量數(shù)據(jù)資源,從而占據(jù)了優(yōu)勢地位。與此同時,數(shù)據(jù)主體由于缺乏必要的信息和參與渠道,難以充分參與到這一過程中。

盡管如此,數(shù)據(jù)主體不應被排除在外。作為合成數(shù)據(jù)的信息所有者,數(shù)據(jù)主體有權參與合成數(shù)據(jù)的生成、應用和決策過程,以維護其合法的數(shù)據(jù)權益。為了實現(xiàn)這一目標,需要確立以群體參與為治理理念的數(shù)據(jù)治理框架。

一方面,群體參與有助于建立對合成數(shù)據(jù)的信任,消解“多樣性欺騙”風險。群體參與的治理理念要求不同背景和身份的群體參與合成數(shù)據(jù)的生成過程,尊重并體現(xiàn)多元文化特征,以更加真實地刻畫社會的多樣性,從而增加合成數(shù)據(jù)集的實質(zhì)多樣性。

另一方面,群體參與有助于獲取明確同意。群體參與對數(shù)據(jù)收集、使用和處理的要求更高,技術企業(yè)需要明確數(shù)據(jù)處理的目的和方式,使得數(shù)據(jù)主體在充分理解合成數(shù)據(jù)的前提下作出同意與否的決定,從而確保數(shù)據(jù)的使用建立在數(shù)據(jù)主體充分知情同意的基礎上。

(作者分別為中南大學法學院副教授、中南大學法學院碩士研究生)

責編:尹麗

聯(lián)系我們 | 誠聘英才 | 廣告征訂 | 本站公告 | 法律聲明 | 報紙訂閱

版權所有 Copyrights ? 2014-2023 helpmore.com.cn ALL RIGHTS Reserved 《法治周末》

京ICP備10019071號-1 京報出證字第0143號

京公網(wǎng)安備 11010502038778號