作者簡介:王雪蕾,女,湖南醴陵人,北京航空航天大學法學院博士研究生,研究方向:民法、知識產權法。
摘要:人工智能時代,著作權法需為數(shù)據(jù)挖掘行為提供制度便利以促其發(fā)展。具體到合理使用制度的設計上,應明確數(shù)據(jù)挖掘行為包含“數(shù)據(jù)獲取”與“數(shù)據(jù)分析”兩階段。在“數(shù)據(jù)分析”階段,應明確人工智能對作品數(shù)據(jù)的利用行為處于著作權法應然規(guī)制范圍外,無合理使用制度適用空間。依據(jù)“有閱讀權即有挖掘權”理念,人工智能在合法獲取作品數(shù)據(jù)后,即可對其進行自由利用,無需得到著作權人的特別授權。但作為配套措施,人工智能主體需建立數(shù)據(jù)保護機制,以保障數(shù)據(jù)安全與隱私權益。在“數(shù)據(jù)獲取”階段,法律應對商業(yè)性質和非商業(yè)性質的人工智能主體做出區(qū)分,僅對非商業(yè)性質人工智能的數(shù)據(jù)獲取行為適用合理使用制度。在進行合理使用制度細則設計時,我國可考慮先將此合理使用情形納入《著作權法實施條例》的修改,以此實現(xiàn)與《著作權法》的有效銜接和制度閉環(huán),最終完成該制度的現(xiàn)階段建立。
關鍵詞:人工智能;大數(shù)據(jù);數(shù)據(jù)挖掘;合理使用;制度設計
引言
在數(shù)字經濟蓬勃發(fā)展的時代背景下,海量數(shù)據(jù)作為驅動社會進步的核心要素,展現(xiàn)出體量龐大、類型多樣、價值密度低及處理速度迅捷的四大顯著特征,被譽為推動時代前行的“新石油”。鑒于這些數(shù)字化科學信息源自全球互聯(lián)的數(shù)十萬個多元來源,海量數(shù)據(jù)價值的深度挖掘與實現(xiàn),主要依賴于先進的信息挖掘技術。而作為數(shù)字時代的標志性科技成果,生成式人工智能通過大規(guī)模復制材料并精準提取相關數(shù)據(jù),進行智能識別與重組,從而生成精確答案,其高效運作同樣植根于強大的數(shù)據(jù)挖掘技術之上。以OpenAI公司研發(fā)的GPT模型為例,從2018年GPT-1的5GB數(shù)據(jù)集,至2023年GPT-4的1PB數(shù)據(jù)集,實現(xiàn)了五年內209 715.2倍的驚人增長(1PB=1048576GB),且增長勢頭仍在持續(xù)。由此可見,數(shù)據(jù)已成為決定生成式人工智能發(fā)展速度的關鍵因素。
然而,著作權的存在,是橫亙在人工智能數(shù)據(jù)挖掘過程中不容忽視的一個重要問題。在生成式人工智能的數(shù)據(jù)輸入環(huán)節(jié),由于對著作權狀態(tài)進行識別的經濟成本與時間成本高昂,機器往往會在未充分辨識目標對象權利狀態(tài)的情況下即啟動數(shù)據(jù)挖掘,但此舉潛藏著巨大的著作權侵權風險,將給研發(fā)工作帶來沉重的經濟負擔。為規(guī)避此風險,部分研發(fā)者轉向使用公共領域的數(shù)據(jù),將數(shù)據(jù)來源局限于20世紀上半葉之前。但優(yōu)質的訓練數(shù)據(jù)集對于構建高性能人工智能系統(tǒng)至關重要,若訓練數(shù)據(jù)來源單一或過于陳舊,將導致生成結果不準確、帶有時代偏見與歧視性,進而無法貼合現(xiàn)階段用戶的需求,最終阻礙生成式人工智能的持續(xù)發(fā)展。
因此,生成式人工智能的價值實現(xiàn),有賴于受著作權保護的作品數(shù)據(jù)的有效利用,我國法律對此必須給予積極回應。本文認為,為權利人提供合法、合理的制度保護是著作權法的固有職責,但同時也應避免成為新技術發(fā)展的絆腳石。面對新的作品使用類型,法律需適時調整著作權范圍,以平衡社會發(fā)展與權利人利益。鑒于數(shù)字技術與人工智能代表著未來新技術的發(fā)展方向,我國已于2017年頒布《新一代人工智能發(fā)展規(guī)劃》,將大力發(fā)展人工智能的規(guī)劃納入國家公共政策體系,足以證明其重要程度。然而,2020年新修訂的《著作權法》未將文本與數(shù)據(jù)挖掘行為納入著作權合理使用范疇,導致學界與實務界對于生成式人工智能未經授權使用受著作權保護作品的行為是否構成侵權、侵犯何種權利、能否適用合理使用制度免責等問題存在諸多爭議。具體而言,主要形成了三種不同的觀點:最主流的觀點主張對人工智能的數(shù)據(jù)挖掘行為適用合理使用制度,以推動人工智能技術的發(fā)展;部分學者則持更為謹慎的態(tài)度,認為人工智能需就整個數(shù)據(jù)利用行為單獨獲得著作權人的特別授權,僅憑復制權無法有效規(guī)避著作權侵權的風險;而持有較為開放態(tài)度的學者則提出,人工智能對數(shù)據(jù)的挖掘與訓練行為不應納入著作權法的規(guī)制范疇,依據(jù)“有閱讀權即有挖掘權”的邏輯,人工智能在獲取作品數(shù)據(jù)后應有權對其進行利用。眾說紛紜之下,人工智能的作品使用行為缺乏明確的法律指引,若此爭議持續(xù)處于未決狀態(tài),無疑將嚴重阻礙人工智能技術的廣泛應用與社會文化藝術的繁榮發(fā)展。
基于上述考量,本文旨在深入探討人工智能使用作品數(shù)據(jù)的著作權歸屬狀態(tài),并嘗試通過采取“有閱讀權即有挖掘權”這一理論路徑,來規(guī)制人工智能數(shù)據(jù)挖掘行為。值得注意的是,該路徑并非完全排除合理使用制度的適用,而是為不同性質的人工智能主體提供了共存的空間。通常而言,商業(yè)性人工智能主體需通過購買、訂閱等方式合法獲取作品數(shù)據(jù);而非商業(yè)性人工智能主體則可依據(jù)合理使用制度免費獲取。本文的觀點將為人工智能數(shù)據(jù)挖掘行為提供一個較為寬松的環(huán)境,但這并非是一種過于激進的觀點,因為從最終結果上來看,“有閱讀權即有挖掘權”說與學界主流的“合理使用”說將達成近乎一致的效果,即人工智能無需著作權人的特別授權即可利用其作品進行機器訓練。甚至相較于完全無償?shù)摹昂侠硎褂谩敝贫龋坝虚喿x權即有挖掘權”還在一定程度上兼顧了作者的利益訴求,避免了市場秩序的混亂。在清晰界定并闡釋上述問題的基礎上,本文將特別針對非商業(yè)性人工智能主體利用作品數(shù)據(jù)的行為,提出一套既能有效保障著作權人權益,又能有力促進科技發(fā)展的人工智能數(shù)據(jù)挖掘適用合理使用制度的系統(tǒng)性建議。
一、人工智能數(shù)據(jù)挖掘行為適用合理使用制度存疑
(一)人工智能運行過程及對應的著作權問題
人工智能的運行機制可被大致劃分為三個核心階段:數(shù)據(jù)輸入、數(shù)據(jù)分析以及生成物輸出。在數(shù)據(jù)輸入階段,人工智能需接觸并提取數(shù)據(jù),實現(xiàn)數(shù)據(jù)的復制與錄入;進入數(shù)據(jù)分析階段,人工智能會篩選與用戶需求相匹配的信息,經過文本轉換、詞句等效識別、信息符號化處理等環(huán)節(jié),完成對事件的識別與歸納;最終,進入生成物輸出階段,人工智能將進行語言組織,并輸出其學習成果。
在生成物輸出階段,著作權問題清晰簡明:若人工智能未經著作權人授權,其創(chuàng)作成果在“表達”上與原作品存在實質性相似,則構成對原作者復制權的侵犯;若人工智能基于原作品內容,通過改變表現(xiàn)形式或用途的方式,創(chuàng)作出具有獨創(chuàng)性的新作品,則可能侵犯原作者的改編權或翻譯權;若人工智能將多個作品或作品片段進行選擇、編排,形成具有獨創(chuàng)性的匯編作品,則原作者的匯編權將受損。此外,由于人工智能軟件通常通過無線方式向公眾提供其生成結果,因此還可能面臨侵犯原作者信息網絡傳播權的風險。簡而言之,生成物輸出階段所涉及的著作權問題及其表現(xiàn)形式,均已被現(xiàn)行著作權法所規(guī)制,故本文對此不再贅述。本文將重點聚焦于人工智能的數(shù)據(jù)輸入與數(shù)據(jù)分析階段,深入剖析這兩階段所涉及的著作權問題。
數(shù)據(jù)輸入與數(shù)據(jù)分析階段,實質上是人工智能為執(zhí)行用戶指令,通過互聯(lián)網搜索作品數(shù)據(jù),將有價值的數(shù)據(jù)復制并輸入機器內部,以提取信息與知識的計算機處理流程,這一過程通常被稱為數(shù)據(jù)挖掘行為。當前學界普遍主張,為支持人工智能的發(fā)展,數(shù)據(jù)挖掘行為應適用合理使用制度。然而,本文對此持有一定保留意見,認為應將數(shù)據(jù)挖掘行為拆解為不同階段分別進行考量。
在數(shù)據(jù)輸入階段,人工智能需要對識別到的作品進行大量掃描和存儲,并將其轉換為機器可讀的標準數(shù)據(jù)格式,以供后續(xù)深度學習使用。此存儲行為導致作品被穩(wěn)定地固定在芯片、硬盤、服務器等有形載體上,且可隨時再現(xiàn),根據(jù)詞意,此行為應被視為“復制”。鑒于2020年修訂的《著作權法》已明確將“數(shù)字化”納入復制類型,因此人工智能的這一存儲行為無疑被納入到法定的復制權涵蓋范圍內。若存儲的數(shù)據(jù)屬于著作權法保護的范疇,則生成式人工智能可能構成對原作者復制權的侵犯。在此階段,一方面,為避免侵權后果的發(fā)生,人工智能需要通過合法手段獲取作品數(shù)據(jù);另一方面,由于其行為處于著作權應然規(guī)制范圍內,因此仍有適用著作權合理使用制度的空間。
至于人工智能內部的數(shù)據(jù)分析行為,在探討其是否適用著作權合理使用制度之前,應首先明確:一項法律行為的著作權狀態(tài)可能存在三種情況:一是屬于著作權法規(guī)制范圍且需獲得著作權人授權;二是雖屬于著作權法規(guī)制范圍,但因合理使用等權利限制因素而無需獲取著作權人授權;三是超出著作權法規(guī)制范圍。因此,即便為了支持人工智能技術的發(fā)展,認為其使用作品數(shù)據(jù)進行分析的行為不應受著作權人授權的限制,也并不能直接將其歸入“合理使用”的范疇,因為還存在第三種可能性,即人工智能使用作品的行為完全超出了著作權的管制范圍。對此,本文將在后續(xù)部分對“著作權人當然具有壟斷智能化利用作品的權利”這一前提提出質疑,并對人工智能數(shù)據(jù)分析行為的著作權狀態(tài)進行深入的理論探討。
(二)人工智能數(shù)據(jù)分析行為超出著作權法規(guī)制范圍
1.數(shù)據(jù)分析行為超出著作權應有范圍邊界
首先,數(shù)據(jù)分析行為所針對的對象與著作權法所保護之客體在本質上并不具有一致性。人工智能在數(shù)據(jù)分析過程中的核心目標,在于從海量的作品中發(fā)掘出數(shù)據(jù)間的內在聯(lián)系與普遍規(guī)律。換言之,其聚焦點在于作品所蘊含的“事實性信息”,而非對單一作品中獨創(chuàng)性表達的模仿與學習。依據(jù)“思想與表達二分法”原則,著作權僅對“具備獨創(chuàng)性的表達”予以保護,而對于數(shù)據(jù)分析過程中所觸及的事實信息、語言規(guī)律等要素,通常被視為已超出“表達”的范疇,歸入公有領域之中。因此,從保護客體的維度審視,數(shù)據(jù)分析所依托的數(shù)據(jù)信息已然超越了著作權的應有規(guī)制范疇,不應被納入作者合法利益的范疇之內。
其次,人工智能的生成物并非對原作品的表達性使用,其與原作品之間不構成演繹性關系,著作權的保護基礎出現(xiàn)連接關系的斷裂。演繹性權利,諸如翻譯權、改編權、攝制權等,均建立在對原作品內容基本保持不變的基礎上,對作品的藝術表達形式進行再創(chuàng)作。盡管演繹性作品的本質特征在于其“獨創(chuàng)性的新作品”屬性,但由于其與原作品在內容上保持關聯(lián)性,并在獨創(chuàng)性特征上呈現(xiàn)出相似性,且未改變原作的創(chuàng)作主旨,故而被視為對原作品的表達性使用,理應受到著作權法的庇護。然而,人工智能的生成物雖亦源于原作品提供的數(shù)據(jù)信息,但其更像是通過對眾多作品提煉而得出的一般性表達規(guī)律的探索與總結,具有高度的獨立性,因而不再承載演繹性權利中所蘊含的與原作品的關聯(lián)意義。換言之,數(shù)據(jù)分析過程生成的產物屬于對作品的非表達性使用,應當被排除在著作權的保護范圍之外。
最后,數(shù)據(jù)分析行為不屬于著作權法所保護的傳統(tǒng)市場,作者現(xiàn)有或潛在的經濟利益不會因數(shù)據(jù)分析行為而受到影響。著作權交易中,作者與讀者進行思想交流的基礎在于作品可通過“在讀者眼前原樣呈現(xiàn)”的方式滿足讀者的精神或物質需求。回溯著作權的制度變遷史,從18世紀初的“印刷版權時代”到20世紀的“電子版權時代”再至當下的“網絡版權時代”,技術的革新不斷拓展作品的傳播渠道,同時也推動了著作權外延邊界的拓展。然而,無論著作權的種類如何細化與發(fā)展,其權利內涵始終如一,即指向“向讀者原貌呈現(xiàn)作品”這一核心要義。可以說,“作品的原貌呈現(xiàn)”正是諸多著作財產權得以承認的根基,亦是著作權法所致力于保護的傳統(tǒng)市場。然而,在數(shù)據(jù)分析行為過后,人工智能生成物不但早已不具備“作品的原貌呈現(xiàn)”這一基本特點,反而更像是與任何原作品都無關的全新內容,原作的受眾和市場也因此很難被替代。因此,在作品的正常商業(yè)化利用未受影響的情境下,著作權人主張對人工智能的數(shù)據(jù)分析行為施加特別授權以強化自身利益的訴求,便缺乏了正當性基礎。當然,鑒于人工智能生成物的數(shù)據(jù)來源可能涉及多個受著作權保護的作品,本文并不否認將人工智能使用納入著作權潛在市場的可能性。但鑒于潛在市場并非作者在創(chuàng)作之初便能依據(jù)當時的社會認知水平所預見,不具備現(xiàn)實的可期待性,因此,為激發(fā)市場活力、防止權利人壟斷,對潛在市場的探索與發(fā)掘不應被納入著作權人的權利范疇之內。
2.數(shù)據(jù)分析過程中的復制行為不受復制權控制
復制行為,作為人工智能數(shù)據(jù)分析技術得以順利開展并發(fā)揮其效能的基石,是其系統(tǒng)內部不可或缺的基本關鍵技術之一。盡管從表象觀之,數(shù)據(jù)分析中的復制行為似乎全然契合“以物化方式再現(xiàn)作品”及“以物化載體固定作品”這兩項復制權的構成要件,然而,本文仍主張此類復制行為不應被納入著作權法的規(guī)制范疇。究其根本,在于數(shù)據(jù)分析行為的整體流程并不導致作品以“原貌展現(xiàn)”的形式直接面向讀者群體。
復制權的設立初衷,在于通過賦予著作權人積極與消極雙重權能,確保其能夠壟斷性控制作品上可預期利益的傳播途徑。此處的可預期利益,特指能夠通過作品的“原貌展現(xiàn)”直接獲取的經濟或精神回報。值得注意的是,這種“原貌展現(xiàn)”不僅涉及展現(xiàn)的形式,更明確了展現(xiàn)的對象,即廣大讀者群體。然而,在人工智能數(shù)據(jù)分析的語境下,人工智能對作品的復制行為具有顯著的內部性與技術性特征,其更類似于機器內部的數(shù)據(jù)流轉與處理過程,而非傳統(tǒng)意義上的作品傳播。此種復制僅作為后續(xù)數(shù)據(jù)訓練與模型優(yōu)化的基礎素材,其存在形式與目的均與傳統(tǒng)復制存在顯著差異。進一步而言,當人工智能系統(tǒng)攝入作品時,會立即將其內容轉換為“機器語言”進行存儲與處理。這一過程不僅使得作品內容對于人類讀者而言變得無法直接解讀,同時也意味著即便是負責管理這些數(shù)據(jù)庫的人員,也無法直接閱讀、欣賞或傳播這些被轉換后的作品內容。這一現(xiàn)象深刻反映了人工智能處理下的作品與原始作品在可感知性上的根本性差異。
因此,盡管數(shù)據(jù)分析過程中的復制行為確實實現(xiàn)了作品數(shù)據(jù)在芯片、硬盤、服務器等有形載體上的相對持久且穩(wěn)定的固定,表面上看似符合現(xiàn)行《著作權法》中關于“數(shù)字化”復制類型的定義,但實質上,這種復制與著作權法所規(guī)范的、旨在面向公眾傳播并產生直接影響的復制行為存在本質區(qū)別。數(shù)據(jù)分析過程中的復制結果并未流入消費市場,也未削弱人類讀者基于閱讀、欣賞等目的對作品原件的需求。換言之,它并未觸及著作權法保護的核心利益——即作品與讀者之間的直接聯(lián)系與互動。
3.數(shù)據(jù)分析行為保護有悖著作權創(chuàng)設目的
嚴格來說,知識產權的設立,其本質意義在于扮演一種工具性角色,作為通往提升整體社會福利、促進全人類文化蓬勃發(fā)展這一宏偉目標的橋梁與途徑。人工智能在創(chuàng)作過程中的運作機理,核心在于對海量作品進行自動化且無偏見的深度剖析,以挖掘其中潛藏的普遍規(guī)律與核心邏輯。在此背景下,對于人工智能而言,任何單一作品的直接使用價值均顯得極為有限,幾乎可忽略不計。相應地,這種學習過程對個別作者經濟利益的波及,也往往微乎其微,難以構成實質性影響。因此,賦予人工智能數(shù)據(jù)挖掘的權限,并不會導致著作權人喪失其本應獲得的任何經濟回報,更不會挫傷創(chuàng)作者們的積極性與創(chuàng)造力。相反,此舉將有助于文學資源在新時代技術浪潮中實現(xiàn)更為高效、合理的配置,為文化的持續(xù)繁榮注入新的動力。故而,從法律層面考量,基于保護著作權人利益的立場,對數(shù)據(jù)挖掘行為施加特殊的授權要求或額外的經濟補償,顯然缺乏充分的合理性依據(jù)。
進一步而言,若將數(shù)據(jù)分析行為納入著作權法的嚴格規(guī)制范疇,視其為一種經許可方可使用的財產性權利,那么在實際操作中,必將面臨一系列棘手的挑戰(zhàn)。鑒于數(shù)據(jù)需求的海量性與即時性特征,嚴格遵循許可制度,無疑將在交易市場中引發(fā)諸多不必要的障礙與拖延。正如莫杰思教授在其著作中所深刻剖析的那樣,過度的控制取代了資源的合理分配,已成為數(shù)字時代知識產權領域亟待破解的一大難題。當獲取許可成為著作權交易的沉重負擔,其所帶來的實際價值遠低于因繁瑣程序而產生的成本時,這無疑與知識產權作為推動社會文化進步工具性權利的初衷相悖。
因此,在當下大數(shù)據(jù)盛行的時代背景下,將人工智能的數(shù)據(jù)分析行為納入著作權管理的框架之內,不僅會徒增實施過程中的復雜性與負擔,更有違于知識產權促進人類文化進步的根本宗旨。數(shù)據(jù)的價值在于使用而非保護,人們應當賦予人工智能更多的自由空間與探索機遇,使其在遵循基本法律原則的前提下,充分發(fā)揮其在數(shù)據(jù)處理與知識創(chuàng)造方面的獨特優(yōu)勢。
二、“有閱讀權即有挖掘權”:作為人工智能數(shù)據(jù)挖掘的指導規(guī)則
基于前文之論證,人工智能在數(shù)據(jù)分析階段對作品的使用,實則超越了著作權法的應然規(guī)制范疇。因此,在人工智能實施數(shù)據(jù)挖掘的進程中,著作權規(guī)制的核心環(huán)節(jié)應當聚焦于數(shù)據(jù)輸入階段之作品獲取路徑。若人工智能通過合法途徑獲取作品數(shù)據(jù),則無需承擔侵權責任,此合法途徑既涵蓋購買、訂閱等商業(yè)交易方式,亦包含通過合理使用制度獲取作品數(shù)據(jù)的準入路徑。由此觀之,合理使用制度在此階段才有進一步討論的必要及適用空間。
人工智能主體依據(jù)其性質差異,可被劃分為商業(yè)性主體及非商業(yè)性主體,然無論其性質如何,皆具備規(guī)模宏大、資金充裕、前景廣闊等特質,均擁有較強的經濟效益轉化能力,因此需承擔更為嚴格的數(shù)據(jù)保護職責。具體而言,人工智能在數(shù)據(jù)獲取過程中,若欲通過合法途徑獲取作品數(shù)據(jù)以取得使用分析之權,除需滿足獲取方式合法這一基本前提外,還需構建完備的數(shù)據(jù)保護機制,以確保在數(shù)據(jù)處理與利用全過程中,著作權人權益得到充分地尊重與保障。
(一)前提條件:通過合法途徑獲取作品數(shù)據(jù)
在作品數(shù)據(jù)進入人工智能的數(shù)據(jù)庫之前,數(shù)據(jù)獲取階段的重要性便已然凸顯,此階段實為人工智能是否獲取數(shù)據(jù)分析權之關鍵。人工智能務必遵循合法、正當之途徑以獲取作品數(shù)據(jù),此原則既為道德倫理之要求,亦系法律明文規(guī)定之責任。歐盟頒布的《數(shù)字化單一市場版權指令》便是對此原則的有力背書,其第3條第1款與第4條第1款均明確界定了對“合法獲取的作品或其他內容”進行文本與數(shù)據(jù)挖掘的合法性邊界,為人工智能的數(shù)據(jù)獲取行為勾勒出了清晰的法律框架。
具體而言,對于那些已歸入公有領域,不再受著作權法庇護的作品,人工智能可充分利用技術手段,自由且無障礙地進行獲取。此類作品,作為人類文明的共同瑰寶,理應成為驅動科技進步與創(chuàng)新的重要源泉。然而,對于仍受著作權法嚴格保護的作品,人工智能則需采取更為審慎與規(guī)范的獲取方式,這包括但不限于通過正規(guī)渠道購置復制件、訂閱內容服務,或參與數(shù)據(jù)的有償共享計劃,以確保每一步均行走在著作權法的合法軌道之上。如此規(guī)定,實則將諸如入侵數(shù)據(jù)庫、購買盜版書籍、非法傳輸數(shù)據(jù)等非法獲取作品的行為,明確排除在合法使用范疇之外,有力維護了著作權法的秩序與著作權人的尊嚴。在合法獲得作品數(shù)據(jù)的準入資格后,人工智能即獲取了作品的“閱讀權”,進而可依據(jù)“有閱讀權即有挖掘權”之理論,擁有了深入探索、分析及利用數(shù)據(jù)的自由。
“有閱讀權即有挖掘權”這一理論,其核心在于倡導一種開放、包容的知識利用環(huán)境。該理論認為,只要數(shù)據(jù)獲取途徑合法,數(shù)據(jù)挖掘者便不應再受任何不必要的法律、倫理或道德束縛。同時,著作權人也無權對數(shù)據(jù)挖掘行為額外征收費用,更無權對挖掘結果主張進一步的收益。這一理論無疑為人工智能的發(fā)展注入了強勁動力,使這些智能系統(tǒng)能夠更自由地探索既有作品,創(chuàng)造出更多有價值的信息與服務。同時,它也確保了著作權人的預期利益不會因數(shù)據(jù)挖掘而受損,從而有效平衡了雙方間的利益沖突。這一理念不僅在國際學術界引發(fā)了廣泛共鳴,也贏得了諸多權威機構的認可與支持。國際圖書館協(xié)會聯(lián)合會(IFLA)、歐洲研究圖書館協(xié)會(LIBER)、英國知識產權局(UK Intellectual Property Office)等機構紛紛發(fā)表聲明,強調數(shù)據(jù)挖掘對于科學研究、知識創(chuàng)新的重要意義,并呼吁社會各界尊重并保護這一權利。而歐盟的《數(shù)字化單一市場版權指令》更是以法律形式,將這一理念部分地融入版權保護體系之中,為人工智能的數(shù)據(jù)挖掘行為提供了堅實的法律支撐。
然而,值得注意的是,歐盟的《數(shù)字化單一市場版權指令》在支持這一觀點的同時,亦展現(xiàn)出一定的保留態(tài)度。特別是其第4條第3款,對商業(yè)性質的數(shù)據(jù)挖掘行為設定了額外的限制條件。依據(jù)該條款,唯有當權利人未以明示方式保留對作品內容的挖掘性使用時,商業(yè)性的數(shù)據(jù)挖掘行為方能被視為合法。這一規(guī)定,雖在在一定程度上尊重了權利人的意愿,但也給人工智能的商業(yè)應用帶來了不小的挑戰(zhàn)。
對此,本文持不同見解。人工智能的發(fā)展是推動社會經濟進步的重要力量,除科研目的外,商業(yè)性質的使用同樣不可小覷。事實上,當今公眾所接觸的絕大多數(shù)人工智能軟件均以商業(yè)利用為最終目標。若將數(shù)據(jù)挖掘的權利保留交由著作權人,出于利益最大化考量,他們很可能選擇保留這一權利。如此一來,“有閱讀權即有挖掘權”的理念將難以落地生根,甚至可能淪為空談。因此,本文主張,對所有類型的人工智能主體均應堅持“有閱讀權即有挖掘權”這一指導規(guī)則,只要人工智能主體能夠證明其獲取作品數(shù)據(jù)的途徑合法,那么它便有權對這些數(shù)據(jù)進行自由地分析與利用。
(二)配套措施:建立數(shù)據(jù)保護系統(tǒng)
盡管前文已深度剖析了人工智能在閱讀數(shù)據(jù)行為上與自然人讀者的相似之處,并闡明在合法獲取作品數(shù)據(jù)后,人工智能可自由地對這些數(shù)據(jù)進行分析與利用。然而,我們亦需保持清醒的認知,人工智能數(shù)據(jù)庫與自然人的閱讀行為在本質層面存在著顯著差異。這些差異突出地體現(xiàn)在數(shù)據(jù)的海量性、易受攻擊性以及高效傳輸性上,這些特性導致人工智能數(shù)據(jù)庫在面臨惡意侵害和數(shù)據(jù)泄露時,其潛在風險遠超一般自然人讀者。
首先,從數(shù)據(jù)海量性的維度審視,人工智能數(shù)據(jù)庫所具備的數(shù)據(jù)存儲與處理能力遠超人類讀者的閱讀極限。龐大的數(shù)據(jù)量雖為數(shù)據(jù)分析與利用提供了豐富的素材,但同時也成為了黑客攻擊與非法數(shù)據(jù)獲取的誘人目標。一旦數(shù)據(jù)庫的防護體系出現(xiàn)紕漏,大量敏感信息可能瞬間外泄,從而引發(fā)嚴重的侵權風險與難以估量的財產損失。其次,數(shù)據(jù)的易受攻擊性亦是人工智能數(shù)據(jù)庫所面臨的一大嚴峻挑戰(zhàn)。相較于傳統(tǒng)紙質書籍或單一電子設備上的閱讀內容,數(shù)字化數(shù)據(jù)更易于被復制、篡改與非法傳播。黑客可憑借技術手段輕易突破數(shù)據(jù)庫的防護屏障,竊取或篡改其中數(shù)據(jù),進而觸發(fā)一系列法律糾紛與信任危機。再者,數(shù)據(jù)的高效傳輸性亦加劇了數(shù)據(jù)泄露的風險。在數(shù)字化時代背景下,數(shù)據(jù)能夠瞬間跨越地理界限,傳輸至全球任意角落。這種高速、高效的傳輸方式雖極大地促進了信息的流通與共享,但也為數(shù)據(jù)的非法獲取與濫用提供了極大便利。鑒于上述特性所蘊含的風險,本文有必要重新審視“有閱讀權即有挖掘權”這一理論中內涵的隱藏條件。
鑒于此,著作權法對人工智能施加額外的配套要求就顯得尤為重要,其中,數(shù)據(jù)保護系統(tǒng)的構建即為最核心和緊迫的一項。這一要求不僅得到了國際法案的明確支持,如歐盟《數(shù)字化單一市場版權指令》第3條即明確規(guī)定了成員國應為人工智能數(shù)據(jù)庫提供必要的安全等級存儲,以確保數(shù)據(jù)與網絡的安全性與完整性;同時在司法實踐中亦得到了充分體現(xiàn),如The Authors Guild v. Google, Inc.一案中,Google公司正是因其采取了有效的數(shù)據(jù)庫安全管理措施,才得以成功擺脫著作權侵權的指控。
值得注意的是,法律對人工智能主體建立數(shù)據(jù)保護系統(tǒng)的要求并非苛求其達到完美。在現(xiàn)實中,完全杜絕數(shù)據(jù)泄露幾乎是一項不可能完成的任務。故而,法律僅要求數(shù)據(jù)庫提供者采取必要且合理的保護措施,以滿足基本的保護標準。只要人工智能主體能夠證明其已建立了符合規(guī)范的安全系統(tǒng),并持續(xù)、穩(wěn)定地運用該系統(tǒng)對數(shù)據(jù)庫進行監(jiān)測、維護與防護,即應視為其已履行了數(shù)據(jù)保護的義務,從而符合“有閱讀權即有挖掘權”的配套措施要求。
三、合理使用制度應用場景:非商業(yè)性人工智能可無償獲取數(shù)
上文業(yè)已闡述,現(xiàn)今學界籠統(tǒng)地認為,為推動科學技術的進步發(fā)展,人工智能數(shù)據(jù)挖掘行為應被納入合理使用制度的范疇。對此論題,本文已展開深入剖析,依據(jù)本文的論點與邏輯脈絡,當作品數(shù)據(jù)被導入人工智能系統(tǒng)內部后,該系統(tǒng)對數(shù)據(jù)的“分析與利用”行為,理應排除于著作權法的直接規(guī)制領域之外,即在此環(huán)節(jié),合理使用制度并無適用之余地。
在數(shù)據(jù)挖掘過程中,對人工智能視域下的著作權合理使用制度的研究,其焦點應嚴格限定于人工智能的數(shù)據(jù)輸入階段。具體而言,僅需對人工智能“獲取”作品數(shù)據(jù)這一單一行為實施法律規(guī)制,此點構成了與其他學術觀點的根本性差異。
(一)合理使用制度的設定標準:參考借鑒“四要素分析法”
在特定情境下,法律允許他人在無需獲得著作權人許可及支付報酬的條件下自由利用著作權作品,此情形被界定為合理使用。我國《著作權法》第24條對合理使用制度作出了明確規(guī)定,要求作品使用主體在符合其列舉的十二種具體情形之一的基礎上,還需同時滿足“不得影響作品的正常使用”與“不得不合理損害著作權人的合法權益”的雙重條件。值得注意的是,這三個條件并非并列關系,而是需遵循嚴格的先后順序進行逐一審視。具體而言,首先,作品的使用方式必須契合前述十二種行為模式之一,當然,此等模式可能隨法律變遷而有所增減;其次,需在具體案例中審慎評估使用行為是否干擾了作品在原有渠道中的正常功能,以及是否會對原作品的潛在市場造成替代性沖擊;最后,必須確保使用行為對著作權人造成的利益減損保持在合理范圍之內,避免對著作權人產生重大的負面經濟后果。我國《著作權法》所采用的這一合理使用判定框架,被學界概括為“三步檢測法”。
三步檢測法具有邏輯清晰、穩(wěn)定性強、可預見性強等優(yōu)點,但也逐漸在司法實踐中暴露其問題:由于此方法的遵循具有先后順序,因此當案件中涉及的使用行為不屬于前述十二種情形之一時,便無法進入后續(xù)步驟的評估。由于與人工智能相關的作品使用行為不在其中,因此按照三步檢測法,其將被直接排除在著作權合理使用范疇之外。鑒于此,為深化人工智能著作權合理使用制度的研究,本文主張可借鑒《美國版權法》第107條所確立的“四要素分析法”作為補充參考:(1)使用的目的與性質,考量其是否出于非營利性目的而進行使用;(2)作品的性質,要求其必須是已經公開發(fā)表的作品;(3)所使用部分的質與量在版權作品中的占比,要求必須控制在適當范圍內;(4)使用行為對作品潛在市場或價值的影響,不可不合理損害著作權人的利益。
四要素分析法因其非限制性特征,能夠靈活應對個案中的復雜情形,故而亦得到了我國司法政策的認可與支持。我國最高人民法院已明確表態(tài),為激勵技術創(chuàng)新與商業(yè)發(fā)展,即便作品的特定使用行為未直接對應《著作權法》第24條所列舉的任一情形,但只要能夠通過四要素分析法的嚴格考量,亦可被納入合理使用的范疇之內。
(二)合理使用制度的適用對象:非商業(yè)性的人工智能主體
法律界普遍認同,非商業(yè)性質的人工智能獲取作品數(shù)據(jù)之行為,應納入合理使用制度范疇。此觀點基于其全面滿足四要素分析法的各項考量,有效將著作權人潛在損失控制在合理限度內,同時有力促進科技進步與社會發(fā)展,契合著作權制度之根本目的。英國相關調研揭示,在確保不會對版權作品市場及價值造成負面影響的前提下,允許科研機構自由獲取、分析及共享數(shù)據(jù),國家有望在未來十年內獲得超過5億英鎊的經濟收益,并每年額外增收約2.9億英鎊。若數(shù)據(jù)使用與共享水平能進一步提升,此經濟效益還將持續(xù)擴大。
然而,對于商業(yè)性質人工智能是否同樣適用合理使用制度這一問題,學界意見紛呈。爭議核心在于,以營利為目的的商業(yè)主體,能否通過四要素分析法首項的“目的與性質”之審查?傳統(tǒng)觀點認為,除教育、科研、基本人權保護等公益目的外,其他作品使用行為通常難以被認定為合理使用。唯有對商業(yè)性使用行為征收費用,方能確保對著作權人的經濟激勵。但隨著時間推移,“轉換性使用”這一判斷標準的比重逐漸代替“非商業(yè)性質”成為四要素分析法首項考量的重點,即只要作品使用符合“轉換性”標準,便會被默認為無法對原作品的利用產生重大替代威脅,即便其具有商業(yè)目的,也不排除其構成合理使用的可能性。這一規(guī)則的演變實質上是將合理使用的“單純公益”原則拓展為了“公益優(yōu)先”原則,在保障作者利益的同時,使合理使用制度更加貼合現(xiàn)今科技水平和經濟環(huán)境,因此亦獲得了我國部分學者的支持。
針對上述爭議,本文認為,無論四要素分析法標準如何演變,我國均不應將作品商業(yè)性利用納入合理使用范疇。理由如下:首先,此舉將破壞我國著作權法體系的內在邏輯。人工智能獲取作品數(shù)據(jù)之行為,本不在《著作權法》第24條規(guī)定的十二種情形之列,故需援引四要素分析法為其提供理論支撐。但若連是否滿足四要素分析法之要件都存在爭議,則該行為的合理使用認定將顯得過于寬泛且缺乏說服力。至少,商業(yè)性人工智能對作品的使用是“全面”且“海量”的,而非“適當”或“少量”,強行賦予其合理使用豁免,將從根本上違背我國著作權法的規(guī)定標準。其次,此舉有悖于利益平衡的基本原則。著作權作為私權,根據(jù)“私人權利神圣不可侵犯”這一法理原則,理應受到法律的嚴格保護。然出于公益需要及文化發(fā)展等考量,著作權法將部分利益讓渡,設立合理使用制度,以保障特定主體以特定理由無障礙接觸作品。因此,私權性質的讓渡意味著繼受主體應當具備相應的限制性條件——非營利性。著作權合理使用制度實乃私人利益與社會公益之間的微妙平衡,而允許商業(yè)性人工智能適用合理使用制度,無償獲取作品數(shù)據(jù),無疑將打破這一平衡。事實上,商業(yè)性質人工智能盈利模式多樣,其研發(fā)者可通過會員費、商業(yè)合作、廣告投放等方式獲取巨額利潤。在海量數(shù)據(jù)的支撐下,人工智能、云計算、大數(shù)據(jù)等網絡信息技術已成為資本市場的主要投資方向。若其無需承擔任何經濟成本即可獲取核心資源“數(shù)據(jù)”,將嚴重違背法律公平原則。況且,本文并非主張人工智能研發(fā)者需為數(shù)據(jù)挖掘行為額外支付許可費,而是要求其通過合法途徑付費獲取作品數(shù)據(jù)。對于大型科技公司而言,此費用并非不可承受之重,遠未達到“實現(xiàn)不能”之境地。
綜上所述,關于合理使用制度的適用對象,本文主張應根據(jù)人工智能的性質進行區(qū)分,實施“雙軌制”管理體系。即僅將非商業(yè)性質的人工智能納入合理使用制度范疇,而將商業(yè)性質的人工智能排除在外。
(三)我國人工智能數(shù)據(jù)挖掘適用合理使用制度的設計
我國2020年新修訂的《著作權法》雖對合理使用制度進行了若干修正與優(yōu)化,并引入“三步檢驗法”作為普適性原則,從而強化了其理論基礎,但在具體條文中,卻未對人工智能、大數(shù)據(jù)等新興技術之發(fā)展需求明確表達支持立場。合理使用的具體范疇依然局限于“個人使用”“新聞報道”“介紹評論”等傳統(tǒng)類型。盡管新增了第13項“法律、行政法規(guī)規(guī)定的其他情形”作為兜底性條款,然而,鑒于當前尚無此類文件對人工智能的合理使用作出相關規(guī)定,該兜底條款并未實質性改變我國合理使用規(guī)則的封閉特性,難以將人工智能對作品數(shù)據(jù)之獲取納入合理使用的軌道。
值得注意的是,為緩解合理使用制度之僵化,我國最高人民法院已于2011年頒布司法性文件《關于充分發(fā)揮知識產權審判職能作用推動社會主義文化大發(fā)展大繁榮和促進經濟自主協(xié)調發(fā)展若干問題的意見》,授權法院可依據(jù)四要素分析法,在個案中根據(jù)具體情形判定合理使用。然而,由于我國并非判例法國家,個案判決難以為行業(yè)提供明確統(tǒng)一的參考基準。因此,即便司法實踐中傾向于對非商業(yè)性質的人工智能適用合理使用制度,此默認標準亦不具備法律條文之權威性與明確性,難以徹底消除人工智能研發(fā)者的侵權憂慮。因此,將“非商業(yè)性質的人工智能對作品數(shù)據(jù)的無償獲取”這一情形以法律條文形式固定,實為合理使用制度改革之必由之路。
然而,考慮到新修訂的《著作權法》自2021年6月方始施行,且依據(jù)著作權法十年一修之慣例,短期內直接將“人工智能獲取作品數(shù)據(jù)”納入著作權法具體條款,顯具現(xiàn)實不可行性。加之人工智能當前仍處于技術成長期,其發(fā)展前景與趨勢尚存不確定性,行為主體、行為模式、行為類型等細節(jié)認定亦存邊界模糊之虞。在此背景下,貿然對《著作權法》進行補充修訂,是一種較為草率的做法。故而,筆者建議,我國或可先行修訂《著作權法實施條例》,將“出于科學研究及其他非商業(yè)性目的之需,人工智能獲取作品數(shù)據(jù)”之情形,納入條例所規(guī)定的合理使用具體情形之中。鑒于《著作權法實施條例》是由國務院發(fā)布的行政法規(guī),且距上次修訂已有十年,此舉既能滿足《著作權法》第24條第13款對可援引法律文件的要求,實現(xiàn)制度的有效銜接與閉環(huán),又能在未來幾年內,以法律文本形式對非商業(yè)性質人工智能的著作權合理使用行為予以確權,為其提供明確的制度保障,進而促進科技產業(yè)的持續(xù)健康發(fā)展。
結語
幾個世紀以來,科學技術的持續(xù)演進不僅深刻地重塑了民眾的生活方式,還有力地驅動了著作權制度的演變與創(chuàng)新。自印刷時代肇始,歷經電子時代,再至當下的網絡時代,著作權制度始終緊隨時代步伐,不斷在新環(huán)境下為作者和讀者的權利平衡提供著指引?,F(xiàn)階段,信息產業(yè)發(fā)展迅猛,與大數(shù)據(jù)密切相關的人工智能成為了未來科技的發(fā)展方向,著作權制度亦隨之步入了人工智能的新紀元。作為一項工具性權利,著作權亟需根據(jù)現(xiàn)實情境的變遷,對其核心要素與外延邊界進行深入地剖析、重構與再定義,這無疑是一項艱巨而復雜的挑戰(zhàn)。
面對新技術的發(fā)展需求,著作權法即便需要考慮利益平衡的因素不能對其給予完全的支持,也要及時對相關的權利界限進行明晰,以更好地對技術研發(fā)者做出明示及提醒。有鑒于此,本文首要闡述了人工智能對作品數(shù)據(jù)的使用與分析行為,理應位于著作權法的應然規(guī)制范疇之外?;凇坝虚喿x權即有挖掘權”這一理念,人工智能在合法獲得作品數(shù)據(jù)后即可對其進行自由利用,無需額外獲得著作權人的特別授權。然而,作為配套措施,人工智能主體需構建完善的數(shù)據(jù)保護機制,以保障數(shù)據(jù)安全與隱私權益。
在數(shù)據(jù)獲取階段,關于人工智能能否適用著作權合理使用制度以無償獲取作品數(shù)據(jù)這一問題,本文主張應依據(jù)人工智能是否具有商業(yè)屬性而進行區(qū)分對待,僅對非商業(yè)性質人工智能的數(shù)據(jù)獲取行為適用合理使用制度。在進行具體的制度設計時,可考慮先將此合理使用情形納入《著作權法實施條例》的修改,以此實現(xiàn)與《著作權法》的有效銜接和制度閉環(huán),完成該制度的現(xiàn)階段建立,最終在保證著作權市場利益平衡的同時,成為新技術發(fā)展的推動力量,以實現(xiàn)社會文化繁榮這一著作權法創(chuàng)設目標。
因篇幅限制,已省略注釋及參考文獻。原文詳見《河北法學》2025年第3期。