中央政法委機關(guān)報法治日報社主辦

您所在的位置:首頁  > 法治中國

訓(xùn)練生成式人工智能須注意風(fēng)險防控

2024-07-11 11:05:53 來源:法治日報·法治周末

《法治周末》記者 孟偉

“AI給我生成的工作匯報,比我自己寫得還要細(xì)。它整合了我電腦的文件,能把我這半年的工作內(nèi)容都放進去,我只要自己再更改一些細(xì)節(jié)就可以了?!痹诒本┠称髽I(yè)工作的張力(化名)告訴《法治周末》記者,生成式人工智能可以幫他完成很多瑣碎的事情,工作效率有了顯著地提高。

生成式人工智能是一種能夠基于學(xué)習(xí)到的數(shù)據(jù)和模式,生成新的內(nèi)容的人工智能技術(shù)。它通過對大量的文本、圖像、音頻等數(shù)據(jù)進行學(xué)習(xí)和分析,理解其中的規(guī)律和特征。然后,利用這些理解和學(xué)到的知識,生成與訓(xùn)練數(shù)據(jù)相似但全新的內(nèi)容。

隨著生成式人工智能的快速發(fā)展,國內(nèi)外涌現(xiàn)出大批AI軟件,迅速被大眾所接受和使用。寫工作總結(jié)、做PPT、做旅行攻略、剪輯視頻……AI軟件成了打工人的“私人助理”。

雖然生成式人工智能的出現(xiàn)為許多領(lǐng)域帶來了創(chuàng)新和變革。然而,生成式人工智能也面臨一些法律風(fēng)險。對此,記者專訪了中國政法大學(xué)數(shù)據(jù)法治研究院教授、聯(lián)合國高級別人工智能咨詢機構(gòu)中方專家張凌寒。

《法治周末》:大量個人數(shù)據(jù)被用于訓(xùn)練人工智能模型會產(chǎn)生哪些風(fēng)險?

張凌寒:首先是隱私數(shù)據(jù)保護問題。大模型使用的大量訓(xùn)練數(shù)據(jù)通常來自維基百科、書籍、期刊和社交媒體等互聯(lián)網(wǎng)公開數(shù)據(jù)。如果這些訓(xùn)練數(shù)據(jù)未取得授權(quán),可能會引發(fā)數(shù)據(jù)隱私保護和數(shù)據(jù)合規(guī)問題。例如,對話式人工智能大模型在訓(xùn)練過程中使用的基于人類反饋的強化學(xué)習(xí)(RLHF)算法會將用戶反饋用于優(yōu)化模型參數(shù),以提高模型與人類的對齊度,增強對話機器人的性能。然而,訓(xùn)練后的模型中很難刪除相關(guān)信息。如果這些數(shù)據(jù)沒有得到充分保護,可能被不法分子獲取,增加隱私數(shù)據(jù)泄露的風(fēng)險。

還需要注意黑箱模型的可解釋性問題。人工智能大模型通常采用深度學(xué)習(xí)和其他機器學(xué)習(xí)技術(shù)進行訓(xùn)練和推理,內(nèi)部存儲了千萬億的模型參數(shù),因而其工作方式和決策過程非常復(fù)雜,缺乏可解釋性和透明度。這類特征的模型被稱為黑箱模型,給數(shù)據(jù)安全治理帶來了挑戰(zhàn)。監(jiān)管機構(gòu)往往難以理解和評估這類模型的內(nèi)部運作機制,因此難以制定合適的監(jiān)管政策和標(biāo)準(zhǔn)。例如,歐盟《通用數(shù)據(jù)保護條例》(GDPR)規(guī)定數(shù)據(jù)所有人有權(quán)要求數(shù)據(jù)持有人和處理人刪除與其相關(guān)的個人數(shù)據(jù),但由于人工智能大模型存儲信息的方式,企業(yè)難以像檢索數(shù)據(jù)庫一樣定位相關(guān)信息,簡單刪除個人信息難以實現(xiàn)。黑箱模型還增加了識別其內(nèi)部潛在數(shù)據(jù)安全漏洞的難度。如果黑箱模型出現(xiàn)錯誤或被惡意攻擊,往往難以發(fā)現(xiàn)和處理,從而影響數(shù)據(jù)安全。

《法治周末》:應(yīng)如何防止此類風(fēng)險的發(fā)生?

張凌寒:一是進行定期審查評估。包括在數(shù)據(jù)標(biāo)注、清洗等訓(xùn)練數(shù)據(jù)處理環(huán)節(jié)針對數(shù)據(jù)結(jié)構(gòu)和內(nèi)容安全性進行審查評估,對模型架構(gòu)和算法魯棒性、穩(wěn)定性的審查評估,以及提示詞和生成內(nèi)容的辨別過濾等。審查評估應(yīng)當(dāng)堅持可信、公平、準(zhǔn)確原則,同時避免過度干預(yù)模型開發(fā)和服務(wù)提供,阻礙產(chǎn)業(yè)發(fā)展。

二是以制度形式提升模型服務(wù)的透明度。推動企業(yè)探索研發(fā)穩(wěn)定、不可篡改的數(shù)字水印技術(shù),設(shè)置在生成圖片或視頻中嵌入顯性水印和隱性水印的法律義務(wù)。前者提示用戶辨別虛假信息,后者則用于追蹤虛假內(nèi)容、版權(quán)侵權(quán)來源等。此外,還應(yīng)建立訓(xùn)練數(shù)據(jù)來源、評估結(jié)果和模型權(quán)重等信息的披露制度,加強政企間風(fēng)險交流和互動,允許企業(yè)在不完全公開訓(xùn)練數(shù)據(jù)集的情況下接受監(jiān)督。

《法治周末》:訓(xùn)練數(shù)據(jù)是生成式人工智能發(fā)展中至關(guān)重要的原材料,現(xiàn)有的法律法規(guī)在促進企業(yè)獲取訓(xùn)練數(shù)據(jù)方面有哪些可以繼續(xù)完善的地方?

張凌寒:著作權(quán)的合理使用制度是否適用于線下數(shù)據(jù)仍不明確。對于人工智能訓(xùn)練數(shù)據(jù)而言,如果不依托授權(quán)制度而是借助著作權(quán)中的合理使用豁免而獲取和利用,可以降低訓(xùn)練數(shù)據(jù)成本,提高語料庫構(gòu)建和更新效率。然而,合理使用條款的適用范圍在立法上的表述封閉,難以直接適用于人工智能訓(xùn)練數(shù)據(jù)語料庫建設(shè)?!吨腥A人民共和國著作權(quán)法》第二十四條規(guī)定了合理使用的條件,其中包括使用作品的目的必須是出于非商業(yè)用途。在當(dāng)今“產(chǎn)學(xué)研”結(jié)合大趨勢下,人工智能技術(shù)的進步和商業(yè)主體創(chuàng)新能力及社會責(zé)任承擔(dān)能力不斷提升,科學(xué)技術(shù)研究不再僅發(fā)生在大學(xué)實驗室,而將更多地發(fā)生在企業(yè)中。此種情形下“非商業(yè)性主體”的限制,極大地壓縮了合理使用的空間。數(shù)字時代下,傳統(tǒng)著作權(quán)合理使用的條件在適用主體方面有限且對是否適用于線下數(shù)據(jù)仍不明確。

領(lǐng)域數(shù)據(jù)主要是指在垂直領(lǐng)域開展行業(yè)活動中收集和產(chǎn)生的數(shù)據(jù),已成為人工智能領(lǐng)域發(fā)展的核心基建和關(guān)鍵驅(qū)動,對工業(yè)生產(chǎn)、科學(xué)教育、自動駕駛、金融醫(yī)療等行業(yè)的發(fā)展至關(guān)重要。但是領(lǐng)域數(shù)據(jù)面臨確權(quán)困境。首先,數(shù)據(jù)權(quán)屬不明確導(dǎo)致數(shù)據(jù)資源利益分配沖突?!皵?shù)據(jù)二十條”提出要“推動數(shù)據(jù)產(chǎn)權(quán)結(jié)構(gòu)性分置和有序流通”,但我國在數(shù)據(jù)權(quán)屬問題上尚無明確細(xì)致的規(guī)定。一方面,領(lǐng)域數(shù)據(jù)的權(quán)利性質(zhì)尚未明確。領(lǐng)域數(shù)據(jù)不同于有體物和知識產(chǎn)權(quán),其權(quán)利性質(zhì)需要進一步厘清。另一方面,領(lǐng)域數(shù)據(jù)涉及多方利益主體,權(quán)屬分配規(guī)則不清。從數(shù)據(jù)交易的角度看,至少有數(shù)據(jù)來源主體、數(shù)據(jù)控制者、數(shù)據(jù)需求方三方可以主張權(quán)利。由于缺乏合理的收益分配機制和完善的數(shù)據(jù)供給激勵機制,數(shù)據(jù)供給意愿不高。其次,領(lǐng)域數(shù)據(jù)可能包含個人數(shù)據(jù)、重要數(shù)據(jù)等,存在多層法律風(fēng)險。以地理數(shù)據(jù)為例,這些數(shù)據(jù)關(guān)系到國家主權(quán)、安全和發(fā)展利益。

責(zé)編:戴蕾蕾

聯(lián)系我們 | 誠聘英才 | 廣告征訂 | 本站公告 | 法律聲明 | 報紙訂閱

版權(quán)所有 Copyrights ? 2014-2023 helpmore.com.cn ALL RIGHTS Reserved 《法治周末》

京ICP備10019071號-1 京報出證字第0143號

京公網(wǎng)安備 11010502038778號