生成式AI與著作權法上的合理使用問題

2025/09/22 >Back

生成式AI與著作權法上的合理使用問題
 
筆者在2024年5月曾寫作一篇文章,解釋為何美國《紐約時報》對OpenAI及其合作夥伴微軟提出的訴訟中,指控OpenAI大規模使用其報導訓練AI模型ChatGPT的行為,可能構成合理使用。2025年6月23日,Anthropic也被三名作者提起訴訟,控訴該公司使用書籍訓練其模型–Claude的行為侵害著作權。 美國加州北區聯邦地區法院的簡易判決(summary judgement)應證了筆者的看法,認定:使用受著作權保護的資料訓練AI模型,構成合理使用。但法院也提出了另一個值得思考的問題。首先,我們來回顧一下,合理使用的定義是什麼?為何使用資料訓練AI構成合理使用?
 
訓練AI為何侵害著作權?
合理使用是一種抗辯。意即,若侵權行為根本不存在,就沒有主張合理使用的必要。要使用資料訓練AI,必須反覆複製原始著作,並儲存在不同資料庫,這個行為侵犯著作權法的重製權。若AI產出的內容與原始著作相似(NY Times v. OpenAI案即是如此),則另外涉及改作權及公開傳輸權。
 
合理使用的定義:
在美國法律中,合理使用是著作權的「安全閥」,目的在於平衡作者的權益與公共利益。判斷時會考量四個因素:
1. 使用目的與性質:是商業目的,或非營利教育目的?
2. 作品性質:虛構奇幻文學比寫實報導更受保護。
3. 使用的質與量:取用了多少?取用的部分是否為著作的核心?
4. 市場影響:是否對原作的潛在市場價值產生影響?
合理使用的精神並不只是在保護被告,更有促進科技發展與言論自由的公益性。
 
過往新科技與著作權法交鋒的案例:
AI相關訴訟雖然還在起步階段,但是在過去,網路搜尋引擎還是新科技的時候,就有出現過類似的爭議,法院並因此發展出「轉化性合理使用」的概念,殊值參考。值得一提的代表案例有:
Kelly v. Arriba Soft(1999)
搜尋引擎廠商Arriba Soft將網路上的圖片製成縮圖,用以顯示搜尋結果。攝影師Kelly告搜尋引擎用縮圖顯示她的作品,剝削原著作的經濟價值。法院認為,原著作的創作目的是美感與藝術,Arriba Soft將攝影著作轉化成電子化資訊,其目的是構建搜尋引擎、完善用戶的搜尋體驗,與原著作截然不同而有高度轉化性,所以屬合理使用。
Perfect 10 v. Google(2007)
成人雜誌出版社認為Google搜尋結果中的縮圖影響了市場。雖然下級法院認同,但上訴法院翻轉,強調Google提供的是「電子化工具」,用途不同,公益性更大。
Authors Guild v. Google(2015)
Google Books欲建立一個線上圖書館。透過掃描整本書,讓讀者得以透過搜尋片段,使讀者可以用搜尋引擎尋找他們想要的書,或其中某一個片段。法院認為,雖然Google掃描了整本書,但因為功能完全不同(幫助找書,而不是取代買書),且公益性高,加上Google的搜尋結果僅會揭露整本書的某些零散的片段。縱使人們可以透過反覆搜索的方式,將零散的片段拼湊成一本完整的書,這個方法不但費時費力,還必須先讀過整本書才有辦法做到。因此,Google Books不能取代原著作的市場價值,因此構成合理使用。
這些判例的共同點是:科技公司雖然透過複製原告的著作,而獲得龐大的商業利益,但是其使用方式與原著作的用途截然不同,並非單純盜版,而是利用原著作發展、健全一項嶄新的技術,具有高度轉化性,所以得到合理使用保護。
 
把這些標準套回著作權人與AI公司的官司,例如NY Times v. OpenAI法院可能會這樣思考:
使用目的
新聞的功能是揭露真相;ChatGPT的功能是模擬語言、回答問題。兩者目的不同,具有高度轉化性。
作品性質
新聞屬於「寫實作品」,法律上保護力比虛構小說要低。
使用比例
大型語言模型必須用完整的文章前後文訓練,就像搜尋引擎必須將完整的整篇文章或照片抓入資料庫一樣,雖然使用的質與量均大,但手段與目的相符,且具備必要性。
市場影響
欲證明讀者因為使用ChatGPT,所以放棄訂閱紐約時報,要建立這段因果關係非常困難,畢竟影響訂閱數消長的因素繁多。況且,紐約時報在訴訟上也主張,自己是講求精準與平衡報導的媒體,ChatGPT則時常捏造不存在的來源,容易產生「幻覺」。既然ChatGPT無法主動挖掘新聞並精準報導;紐約時報也無法以自然語言隨時與用戶聊天,兩者的服務與市場都截然有別,很難說會直接取代。縱使用戶能透過反覆提問,拼湊出一篇完整的紐約時報報導,但這麼做不但費時,還必須先讀過完整的報導才有辦法做到,就跟Google Books的例子一樣。
綜合來看,OpenAI的合理使用抗辯成功機率並不低。
 
結論:
回到Anthropic的案子,該案的簡易判決一方面認定,培訓大型語言模型的使用被認定為「轉化性使用」而構成合理使用;將合法購買的印刷書轉成數位形式供中央資料庫使用,也屬合理使用,但從盜版網站下載未經授權的書籍構成侵權,不屬合理使用。此類未經授權的數位複製行為對原著作的出版市場造成破壞,法院難以支持Anthropic的合理使用辯護。
生成式AI的運作,離不開大數據,市面上主要AI模型的訓練資料,基本上都已經涵蓋人類過去創作的所有文字著作。在文字著作耗竭後,AI模型仍未臻完美,故AI公司轉向將影音轉為文字、以AI訓練AI等方式,繼續擴大其資料庫。正因為AI的訓練資料是如此龐大,若必須逐一取得授權,AI公司的訓練成本將高到難以承受,整個產業可能因此停擺。因此,未經授權大量使用有著作權保護的著作,甚至下載盜版著作來訓練模型,可謂AI公司的原罪。
上開案子不只是著作權人與AI公司間的私權爭執,更是左右AI產業生死存亡與產業型態的關鍵戰役。世界各國都致力於發展AI產業,在強烈的現實需求的驅動下,若AI公司評估,在嚴格執行著作權法的A國家訓練模型,將導致成本不堪負荷,公司想必會將產業移往較不嚴格的B國家,藉此降低訓練成本。這會造成關鍵技術的轉移。各國的立法者想必會考慮到這種情況,或許未來會出現新的法律制度,例如像當年的《數位千禧年著作權法》(DMCA)一樣,替AI公司設計免責機制,使該國在AI的浪潮中保有其競爭力。因此,AI公司與著作權人的戰役,不僅僅是法律面的問題,更是立法面、政策面,甚至大國博奕的問題。
 
以上見解為本律師個人見解,不代表事務所立場。
蔡億達 律師
2025/9/22