
隨著人工智能技術的飛速發展,數據成為驅動AI模型進步的關鍵要素。然而,本周早些時候,《華爾街日報》報道指出,AI公司在收集高質量訓練數據方面遭遇了前所未有的困難。今日,《紐約時報》進一步披露了AI公司處理這一問題的策略,涉及到了AI版權法的模糊地帶。
OpenAI,作為AI領域的領軍企業,對訓練數據的需求尤為迫切。據報道,為克服數據短缺的難題,OpenAI開發了Whisper音頻轉錄模型,轉錄了超過100萬小時的YouTube視頻,用于訓練其先進的大型語言模型GPT-4。此外,該公司還從Github獲取計算機代碼、國際象棋走棋數據庫以及Quizlet的作業內容等多元數據資源。
然而,這一做法在法律層面引發了爭議。盡管OpenAI認為其使用數據屬于合理范圍,但《泰晤士報》透露,OpenAI總裁Greg Brockman親自參與了所使用視頻的收集工作,這進一步加劇了版權問題的復雜性。
OpenAI發言人在接受The Verge采訪時表示,公司為每個模型策劃了獨特的數據集,旨在幫助他們更好地了解世界,并保持全球研究競爭力。同時,發言人還提到,公司正在考慮生成自己的合成數據,以緩解對外部數據源的依賴。
另一方面,谷歌也對OpenAI的行為表示了關注。谷歌發言人在一封電子郵件中稱,公司看到了有關OpenAI活動的未經證實的報告,并強調其robots.txt文件和服務條款均禁止未經授權的抓取或下載YouTube內容。
YouTube首席執行官Neal Mohan也在最近的采訪中公開表示,盡管沒有直接證據表明OpenAI使用YouTube視頻訓練Sora模型,但這種行為違反了YouTube現行的平臺服務條款。
與此同時,Meta也面臨著數據可用性的限制。據《泰晤士報》報道,Meta的AI團隊在討論追趕OpenAI的過程中,考慮了未經許可使用版權作品的情況。為了擴大數據集,Meta瀏覽了互聯網上的大量英語書籍、散文、詩歌和新聞文章,并考慮采取措施如支付圖書許可費用,甚至直接收購大型出版商。
這一系列事件凸顯了AI行業在數據收集和使用方面所面臨的法律與倫理挑戰。隨著技術的不斷進步,如何在保護版權的同時推動AI模型的發展,成為業界亟待解決的問題。未來,AI公司和相關監管機構需要共同努力,制定更加明確和合理的法規,以促進AI技術的健康、可持續發展。
原創文章,作者:小丸子,如若轉載,請注明出處:http://www.bdzhitong.com/article/643935.html