Theo
Vanity Fair, các hồ sơ vụ án mới được cho công bố ra có tiết lộ về lập trường của công ty này về những cuốn sách họ đă sử dụng để cập nhật mở rộng số liệu cho AI: tất cả lập luận của công ty đều vô giá trị.

(Ảnh minh họa: Bloomberg)
Hồi tháng trước, có một người đă đặt ra một câu hỏi cho
Meta AI (nền tảng AI do Meta thiết lập ra):
"Có được phép sử dụng sách 'lậu' để cập nhật mở rộng hiểu biết cho AI không?" Câu trả lời của AI là rơ ràng.
"Sử dụng sách lậu để đào tạo AI là không được. Đây là hành vi vi phạm nghiêm trọng luật về bản quyền và có thể gây ra hậu quả xấu đáng kể cho tác giả và nhà xuất bản", AI này cảnh cáo.
Tuy nhiên, chỉ vài ngày sau, thuật toán đă có sự thay đổi. Khi trả lời cho cùng một câu hỏi nói trên,
Meta AI đă né tránh khi trả lời:
"Sử dụng sách 'lậu' để đào tạo AI là một vấn đề phức tạp và câu trả lời không hề đơn giản. Trong khi một số công ty, như Meta, lập luận rằng việc họ cho sử dụng tài liệu có bản quyền phù hợp với nguyên tắc sử dụng hợp lư, th́ những công ty khác lại cho rằng việc này đă vi phạm luật về bản quyền".
Các luật sư của Meta trên thực tế đang t́m cách viện dẫn câu trả lời nhằm biện hộ cho việc
"sử dụng hợp lư" trong những vụ kiện nhắm vào họ. Một trong những nguyên đơn là ông
Richard Kadrey, tác giả ăn khách với loạt sách
"Sandman Slim", tuyên bố rằng,
"hành vi phi pháp" của Meta trong việc sử dụng sách 'lậu' để đào tạo mô h́nh ngôn ngữ lớn (LLM) của công ty này đă xâm phạm tác quyền của họ.
Về phần ḿnh, Meta tuyên bố rằng
dự án Llama (mô h́nh ngôn ngữ lớn Meta AI) của họ
"có khả năng tuỳ chỉnh cao" với các văn bản đầu vào và do đó là cách sử dụng hợp lư.
Vụ kiện của ông Kadrey là một trong hơn 16 vụ kiện về bản quyền có liên quan đến các ứng dụng AI hiện lan rộng khắp hệ thống ṭa án ở Mỹ, từ các nhạc sĩ nộp đơn kiện
Anthropic v́ đă sử dụng lời bài hát để đào tạo AI, các nghệ sĩ thị giác kiện
Stability AI,
The New York Times kiện
Microsoft, đến Hiệp hội nhà văn Mỹ
Authors Guild kiện
OpenAI.
Trong khi các vụ kiện này đặt ra nhiều câu hỏi về giá trị vốn có của nghệ thuật và ư nghĩa của việc biến chúng thành hàng hóa, th́ vụ kiện nhằm vào
Meta đang thu hút sự chú ư đặc biệt. Trong nhiều tài liệu nội bộ, các chuyên gia nghiên cứu Meta đă đơn giản hóa chất xám văn học biến thành một loại vật chất, tài sản thuần túy.
Các tài liệu trong nhiều vụ án đang hé lộ ra thêm nhiều diễn biến nội bộ trong Meta về việc đào tạo và nâng cấp AI. (Ảnh: Medium)
Giá trị về thương mại đă chiến thắng
Một chuyên gia nghiên cứu đă viết ra cuốn
"Tiểu thuyết rất tuyệt" để giúp đào tạo mô h́nh về ngôn ngữ, nhưng trong
kho sách "lậu" LibGen lại có quá ít, chỉ có khoảng 700 GB. Trong một bản ghi nhớ nội bộ, các chuyên gia nghiên cứu chỉ ra một số vấn đề như: Số thứ tự trang bị lẫn vào nội dung chính, ngắt ḍng không đúng hay thiếu
"khoảng trắng" giữa các chữ. Và
"mục tiêu là có được càng nhiều tác phẩm dài càng tốt trong 4-6 tuần tới. Các bài viết, kịch bản phim, tạp chí và sách ở mọi thể loại".
Ông Kadrey và cộng sự viên cho biết
Meta "đă cho tải xuống ít nhất là 81,7 terabytes số liệu trên nhiều thư viện 'lậu' thông qua trang Anna’s Archive, trong đó có ít nhất 35,7 terabytes số liệu lấy từ Z-Library và LibGen".
Đối với các tác giả như Carmen Maria Machado, tuy không phải là nguyên đơn trong các vụ kiện nhưng lại có vài tác phẩm nằm trong số những cuốn sách bị
LibGen sao chép trái phép, cảm xúc của bà rất hỗn độn.
Bà có chia sẻ:
"Một thập kỷ trong cuộc đời tôi. Đó là công sức sáng tạo của tôi. Đó là trí óc của tôi. Tôi đă kiểm soát rất chặt chẽ các quyền lợi mà tôi có đối với sách, tác phẩm, bản dịch và quyền làm phim của ḿnh. Tất cả được kiểm soát rất cẩn thận, nhưng trên thực tế, một số công ty có thể đưa "lậu" chúng vào máy móc mà không gánh chịu hậu quả ǵ. Điều đó thật điên rồ đối với tôi đến nỗi tôi không thể hiểu hết được".
Quá tŕnh đấu tranh về tâm lư
Theo tài liệu trong hồ sơ của ṭa án,
Meta đă tiến hành thảo luận sơ bộ với các nhà xuất bản về mức tiền lệ phí cho phép họ sử dụng nội dung. Tuy nhiên, họ cho biết, đă nhận được những con số mà theo quan điểm của công ty, là
"quá xa với thực tế". Trong biên bản về lời khai được công bố ra, bên luật sư bào chữa cho Meta mô tả các cuộc đàm phán là
"đă lăng phí quá nhiều thời gian của họ và cả của chúng tôi", và nói rằng
"do cấu trúc của ngành xuất bản sách, nếu không viện dẫn quyền sử dụng hợp lư, Meta sẽ phải tiến hành các cuộc đàm phán cá nhân với hàng triệu tác giả để xác định ra từng cuốn sách và tác giả của chúng, xác định cách liên lạc với họ, xác định xem họ có các quyền lợi nào không bị ràng buộc hay không". Công ty tuyên bố
"quy tŕnh này thực tế là không thể thực hiện đối với hàng trăm ngàn hoặc hàng triệu tác giả khắp nơi".
Trong khi đó, số liệu cần thiết để xây dựng các mô h́nh về ngôn ngữ lớn là khổng lồ và theo thư từ nội bộ của công ty, không thể đạt được nếu không có nguồn sách. Và điều này đă gây ra cuộc tranh luận và thảo luận nội bộ kéo dài trong nhiều năm qua.
Vào tháng 10/2022, một chuyên gia nghiên cứu cao cấp, bà Melanie Kambadur, đă viết trong một tin nhắn gửi cho các đồng nghiệp,
"Tôi không nghĩ rằng chúng ta nên sử dụng các tài liệu vi phạm đến bản quyền. Tôi thực sự cần phải vạch ra ranh giới ở đây".
Cũng đă có nhiều tin tức nội bộ có nêu ra những lo ngại về việc sử dụng
LibGen, chẳng hạn như rủi ro về chính sách, bao gồm cả mối quan tâm của giới lập pháp Mỹ
"về việc các công ty sáng tạo AI sử dụng các trang web đă vi phạm đến bản quyền" và rằng
"nếu có thông tin trên giới truyền thông cho rằng, chúng ta đang sử dụng một tập số liệu mà chúng ta biết là đă vi phạm đến bản quyền, chẳng hạn như LibGen, điều này có thể làm suy yếu vị thế đàm phán của chúng ta với các cơ quan quản lư".
Nhưng họ đă đi đến kết luận sau:
"Trong mọi trường hợp, chúng ta sẽ không thể tiết lộ ra công khai nói rằng, chúng ta đă và đang sử dụng LibGen. Dù vậy, vẫn có nguy cơ là các bên bên ngoài có thể suy ra việc chúng ta có sử dụng tập số liệu này".
Lập trường này dường như cũng được giới đứng đầu của
Meta cho thực hiện. Trong một lời khai, CEO của Meta Zuckerberg có
"tuyên bố ông không biết ǵ về LibGen hoặc bất cứ sự tham gia nào vào việc sử dụng nó".
Hơn nữa,
Meta c̣n cho biết, trong khi công ty
"đă đầu tư hàng trăm triệu USD vào việc phát triển mở rộng LLM", họ không thấy có bất cứ giá trị về thị trường nào trong việc phải mua bản quyền sách từ các tác giả v́
"phải có thứ ǵ đó có giá trị để trao đổi qua lại". Trong khi đó, các tác phẩm của nguyên đơn, khi xét đến từng tác phẩm, không phải là các số liệu đào tạo có giá trị về kinh tế.