
近年來,大型語言模型(LLM)技術取得了突破性進展,然而,其背后的版權糾紛卻愈演愈烈。隨著科技巨頭們利用海量文本數據訓練LLM,涉及到的版權問題引發了廣泛關注。喜劇演員Sarah Silverman和作家Richard Kadrey等一眾作者,對Meta(前身為Facebook)提起了集體訴訟,指控其使用包含盜版書籍的數據集訓練AI模型。
據圖源 Pexels,Meta被指控使用名為Books3的數據集訓練其LLAM 1和LLAM 2模型。這個數據集包含19.5萬本圖書,總容量近37GB,由AI研究者Shawn Presser于2020年創建。然而,Books3數據集中包含大量從盜版網站Bibliotik爬取的受版權保護作品,使得Meta面臨法律風險。
值得注意的是,Meta并非唯一一家面臨版權糾紛的科技巨頭。此前,《紐約時報》也曾因OpenAI和微軟使用其文章訓練聊天機器人ChatGPT而提起訴訟。OpenAI辯稱,不使用受版權保護的材料來訓練AI模型“幾乎不可能”,并要求法院駁回相關訴訟。
在Meta的案例中,該公司否認故意侵犯版權,聲稱其使用Books3數據集屬于合理使用范疇,無需獲得許可、署名或支付補償。此外,Meta還在對訴訟作為集體訴訟的合法性提出異議,拒絕向提起訴訟的作家或其他參與Books3爭議的人士提供任何形式的經濟“補償”。
版權糾紛的背后反映出科技巨頭與創作者之間的利益沖突。隨著人工智能技術的飛速發展,如何平衡技術與版權之間的關系,確保創作者的權益不受侵害,已成為亟待解決的問題。
目前,有關大型語言模型版權問題的法律尚不完善,各方利益訴求的平衡成為關注的焦點。專家呼吁立法機構和監管機構加強相關法律法規的制定和完善,以適應技術發展的需要,保護創作者的合法權益。
對于科技巨頭而言,尊重版權、與創作者建立合作共贏的關系是解決版權糾紛的關鍵。通過合法合規地獲取和使用文本數據,推動人工智能技術的可持續發展,同時為創作者提供合理的權益保障和經濟回報。
總之,大型語言模型背后的版權糾紛引發了廣泛關注。在技術進步與版權保護的博弈中,各方需共同努力尋求平衡點,以實現技術與藝術的和諧共存。只有建立合理有效的版權保護機制,才能促進人工智能技術的健康發展和創新活力。
原創文章,作者:秋秋,如若轉載,請注明出處:http://www.bdzhitong.com/article/619207.html