Mengambil sikap tegas terhadap penggunaan karya penulisnya tanpa izin oleh perusahaan teknologi, raksasa penerbitan Penguin Random House akan mengubah bahasa di semua halaman hak cipta bukunya untuk secara tegas melarang penggunaannya dalam pelatihan sistem kecerdasan buatan, menurut laporan oleh The Penjual buku.
Hal ini merupakan perubahan besar dibandingkan penerbit besar lainnya, seperti percetakan akademis Taylor & Francis, Wiley, dan Oxford University Press, yang semuanya telah setuju untuk melisensikan portofolio mereka kepada perusahaan AI.
Matthew Sag, pakar AI dan hak cipta di Emory University School of Law, mengatakan bahasa baru Penguin Random House tampaknya ditujukan untuk pasar Uni Eropa tetapi juga dapat berdampak pada cara perusahaan AI di AS menggunakan materinya. Berdasarkan undang-undang UE, pemegang hak cipta dapat memilih untuk tidak mengizinkan data karyanya ditambang. Meskipun hak tersebut tidak diatur dalam undang-undang AS, pengembang AI terbesar umumnya tidak mengikis konten di balik paywall atau konten yang dikecualikan oleh file robot.txt situs. “Anda mungkin berpikir tidak ada alasan mereka tidak menghormati pilihan untuk tidak ikut serta dalam hal ini [that Penguin Random House is including in its books] selama itu merupakan sinyal, mereka dapat memprosesnya dalam skala besar,” kata Sag.
Lusinan penulis dan perusahaan media telah mengajukan tuntutan hukum di AS terhadap Google, Meta, Microsoft, OpenAI, dan pengembang AI lainnya dengan tuduhan melanggar hukum dengan melatih model bahasa besar tentang karya berhak cipta. Perusahaan-perusahaan teknologi berpendapat bahwa tindakan mereka termasuk dalam doktrin penggunaan wajar, yang mengizinkan penggunaan materi berhak cipta tanpa izin dalam keadaan tertentu.—misalnya, jika karya turunan tersebut mengubah konten aslinya secara substansial atau jika digunakan untuk kritik, pemberitaan, atau pendidikan.
Pengadilan AS belum memutuskan apakah memasukkan buku ke dalam model bahasa besar merupakan penggunaan wajar. Sementara itu, tren media sosial di mana pengguna memposting pesan yang memberitahukan platform teknologi untuk tidak melatih model AI pada konten mereka diperkirakan tidak berhasil.
Pesan tanpa pelatihan Penguin Random House sedikit berbeda dari copypasta yang optimis. Salah satu alasannya adalah pengguna media sosial harus menyetujui persyaratan layanan platform, yang selalu mengizinkan konten mereka digunakan untuk melatih AI. Alasan lainnya, Penguin Random House adalah penerbit internasional kaya yang dapat mendukung pesannya dengan tim pengacara.
Penjual Buku melaporkan bahwa halaman hak cipta baru penerbitnya akan berbunyi, sebagian: “Tidak ada bagian dari buku ini yang boleh digunakan atau direproduksi dengan cara apa pun untuk tujuan pelatihan teknologi atau sistem kecerdasan buatan. Sesuai dengan Pasal 4(3) Petunjuk Pasar Tunggal Digital 2019/790, Penguin Random House secara tegas mencadangkan karya ini dari pengecualian teks dan penambangan data.”
Perusahaan teknologi dengan senang hati memanfaatkan internet, khususnya situs seperti Reddit, untuk kumpulan data bahasa, tetapi kualitas kontennya cenderung buruk—penuh dengan nasihat buruk, rasisme, seksisme, dan semua isme lainnya, yang berkontribusi terhadap bias dan ketidakakuratan dalam model yang dihasilkan. Peneliti AI mengatakan bahwa buku adalah salah satu data pelatihan yang paling diinginkan untuk model karena kualitas penulisan dan pengecekan fakta.
Jika Penguin Random House berhasil membatasi konten berhak ciptanya dari model bahasa besar, hal ini dapat berdampak signifikan pada industri AI generatif, sehingga memaksa pengembang untuk mulai membayar untuk konten berkualitas tinggi.—yang akan menjadi pukulan bagi model bisnis yang bergantung pada penggunaan karya orang lain secara gratis—atau mencoba menjual model yang dilatih tentang konten internet berkualitas rendah dan materi publikasi yang sudah ketinggalan zaman kepada pelanggan.
“Akhir dari perusahaan seperti Penguin Random House yang memilih untuk tidak mengikuti pelatihan AI mungkin adalah untuk memenuhi kepentingan para penulis yang menentang karya mereka digunakan sebagai data pelatihan karena alasan apa pun, namun hal ini mungkin agar perusahaan penerbit dapat berbalik dan [start] membebankan biaya lisensi untuk akses ke data pelatihan,” kata Sag. “Jika ini adalah dunia yang kita hadapi, perusahaan AI akan terus berlatih mengenai 'Internet terbuka' namun siapa pun yang mengendalikan tumpukan teks dalam jumlah besar akan memilih untuk tidak ikut serta dan mengenakan biaya untuk akses tersebut. Tampaknya ini merupakan kompromi yang cukup bagus yang memungkinkan penerbit dan situs web memonetisasi akses tanpa menimbulkan biaya transaksi yang mustahil untuk pelatihan AI secara umum.”