Mô Hình AI Generative Ăn Cắp Nội Dung Các Công Việc Sáng Tạo Ra Sao – Giờ Làm Gì ?

Công việc sáng tạo mà AI đang chôm không chỉ hình ảnh, nó còn liên quan cả về các thứ sáng tạo như câu chuyện, âm nhạc, sự ngang nhiên trắng trợn ăn cắp dữ liệu mà tác giả không hề có một phần sẻ chia còn chưa nói cho dù là một lời đề nghị sử dụng nội dung đó vào việc đào tạo mô hình.

Một sản phẩm kỹ nghệ AI tuyệt vời hiện nay đang ứng dụng lại thường sử dụng như sự xâm phạm trắng trợn vào lĩnh vực sáng tạo. Có 3 thứ quan trọng để các công ty AI xây dựng một sản phẩm: nhân lực, cơ sở hạ tầng tính toán và dữ liệu.

  • Nhân lực là những kỹ sư để xây dựng mô hình AI
  • GPU để xử lý, hạ tầng tính toán tạo ra kết quả
  • Tập các dữ liệu dataset để đào tạo các mô hình

Hãy xem video từ TED talk phát biểu vấn đề này, họ cũng đưa ra giải pháp muốn được ứng dụng thực tế việc xử lý hành vi ăn cắp trắng trợn này

Nội dung Video được blog dịch ra

Công nghệ và tầm nhìn đằng sau trí tuệ nhân tạo (AI) “generative” tạo sinh thật đáng kinh ngạc, nhưng việc đánh cắp tác phẩm của các nhà sáng tạo trên toàn thế giới để xây dựng nó thì không. Có ba yếu tố chính mà các công ty AI cần để xây dựng mô hình của họ, ba nguồn lực chính – con người, khả năng tính toán và dữ liệu. Đó là, các kỹ sư để xây dựng mô hình, GPU để chạy quá trình huấn luyện và dữ liệu để huấn luyện các mô hình.

Các công ty AI chi hàng núi tiền cho hai yếu tố đầu tiên, đôi khi lên đến một triệu đô la cho mỗi kỹ sư và tới một tỷ đô la cho mỗi mô hình. Nhưng họ lại kỳ vọng được lấy nguồn lực thứ ba, dữ liệu huấn luyện, miễn phí. Hiện tại, nhiều công ty AI huấn luyện trên các tác phẩm sáng tạo mà họ chưa trả tiền hoặc thậm chí chưa xin phép sử dụng.

Điều này không công bằng và không bền vững. Nhưng nếu chúng ta làm lại từ đầu và cấp phép cho dữ liệu huấn luyện, chúng ta có thể xây dựng một hệ sinh thái AI tạo sinh tốt hơn, hoạt động hiệu quả cho tất cả mọi người, cả các công ty AI lẫn các nhà sáng tạo – những người mà nếu không có tác phẩm của họ, các mô hình này sẽ không tồn tại. Hầu hết các công ty AI hiện nay không cấp phép cho phần lớn dữ liệu huấn luyện của họ.

Họ sử dụng các công cụ thu thập dữ liệu từ web để tìm kiếm, tải xuống và huấn luyện trên càng nhiều nội dung càng tốt. Họ thường khá kín tiếng về những gì họ thực sự huấn luyện, nhưng điều rõ ràng là việc huấn luyện trên các tác phẩm có bản quyền mà không có giấy phép đang diễn ra tràn lan. Chẳng hạn, khi Quỹ Mozilla xem xét 47 mô hình ngôn ngữ lớn được phát hành từ năm 2019 đến 2023, họ phát hiện rằng 64% trong số đó được huấn luyện, một phần, trên Common Crawl – một tập dữ liệu bao gồm các tác phẩm có bản quyền, như bài báo từ các tờ báo lớn.

Và 21% còn lại không tiết lộ đủ thông tin để có thể xác định rõ ràng. Việc huấn luyện trên các tác phẩm có bản quyền mà không có giấy phép đã nhanh chóng trở thành chuẩn mực trong phần lớn ngành công nghiệp AI tạo sinh. Nhưng việc huấn luyện không được cấp phép trên các tác phẩm sáng tạo này gây ra những hậu quả tiêu cực nghiêm trọng cho những người đứng sau các tác phẩm đó.

Lý do rất đơn giản: AI tạo sinh cạnh tranh với dữ liệu huấn luyện của nó. Đây không phải là câu chuyện mà các công ty AI muốn kể. Chúng ta thích nói về dân chủ hóa, về việc cho phép nhiều người hơn được sáng tạo. Nhưng thực tế rằng AI cạnh tranh với dữ liệu huấn luyện của nó là điều không thể tránh khỏi. Một mô hình ngôn ngữ lớn được huấn luyện trên các truyện ngắn có thể tạo ra các truyện ngắn cạnh tranh.

Một mô hình hình ảnh AI được huấn luyện trên ảnh stock có thể tạo ra các ảnh stock cạnh tranh. Một mô hình âm nhạc AI được huấn luyện trên các bản nhạc được cấp phép cho chương trình truyền hình có thể tạo ra các bản nhạc cạnh tranh để cấp phép cho chương trình truyền hình. Những mô hình này, dù chưa hoàn hảo, lại nhanh và dễ sử dụng đến mức sự cạnh tranh này là không thể tránh khỏi. Và điều này không chỉ là lý thuyết.

AI tạo sinh vẫn còn khá mới, nhưng chúng ta đã bắt đầu thấy những tác động đúng như kỳ vọng trong một thế giới mà AI tạo sinh cạnh tranh với dữ liệu huấn luyện của nó. Chẳng hạn, nhà làm phim nổi tiếng Ram Gopal Varma gần đây đã nói rằng ông sẽ sử dụng âm nhạc AI trong tất cả các dự án của mình từ nay về sau.

Thật vậy, có nhiều báo cáo về việc mọi người bắt đầu nghe nhạc AI thay vì nhạc do con người tạo ra, và gần đây, một bài hát AI đã đạt vị trí thứ 48 trên bảng xếp hạng ở Đức. Trong tất cả các trường hợp này, âm nhạc AI đang cạnh tranh với các bài hát mà nó được huấn luyện. Hoặc hãy nhìn vào Kelly McKernan. Kelly là một nghệ sĩ ở Nashville. Trong 10 năm, họ kiếm đủ tiền từ việc bán tác phẩm của mình để nghệ thuật trở thành nguồn thu nhập toàn thời gian.

Nhưng vào năm 2022, một tập dữ liệu bao gồm các tác phẩm của họ đã được sử dụng để huấn luyện một mô hình hình ảnh AI phổ biến. Tên của họ là một trong số nhiều cái tên được hàng loạt người sử dụng để tạo ra nghệ thuật theo phong cách của các nghệ sĩ cụ thể. Thu nhập của Kelly giảm 33% gần như ngay lập tức. Các họa sĩ minh họa trên khắp thế giới báo cáo những câu chuyện tương tự, bị vượt qua bởi các mô hình AI mà họ có lý do để tin rằng đã được huấn luyện trên tác phẩm của mình.

Nền tảng freelance Upwork đã viết một báo cáo trắng, trong đó họ xem xét những tác động mà họ nhận thấy trên thị trường việc làm từ AI tạo sinh. Họ đã xem xét cách các bài đăng tuyển dụng trên nền tảng của họ thay đổi kể từ khi ChatGPT ra mắt, và đúng như kỳ vọng, họ phát hiện rằng AI tạo sinh đã làm giảm nhu cầu về các công việc viết lách tự do xuống 8%, con số này tăng lên 18% nếu chỉ tính các công việc mà họ gọi là “có giá trị thấp”.

Vì vậy, dữ liệu ban đầu mà chúng ta có, cùng với những câu chuyện cá nhân mà chúng ta nghe được, đều phù hợp với giả định logic: “AI tạo sinh cạnh tranh với tác phẩm mà nó được huấn luyện.” Nó quá nhanh và dễ sử dụng, điều này là không thể tránh khỏi, và nó cạnh tranh với những người đứng sau các tác phẩm đó. Bây giờ, các nhà sáng tạo cho rằng việc huấn luyện này là bất hợp pháp.

Khung pháp lý về bản quyền trao cho các nhà sáng tạo quyền độc quyền cho phép sao chép tác phẩm của họ, và việc huấn luyện AI liên quan đến việc sao chép. Ở đây, tại Mỹ, nhiều công ty AI lập luận rằng huấn luyện AI rơi vào ngoại lệ sử dụng hợp lý trong luật bản quyền, điều này cho phép sao chép không cần giấy phép trong một số trường hợp nhất định, chẳng hạn như tạo ra các phiên bản parody của một tác phẩm.

Các nhà sáng tạo và chủ sở hữu quyền lợi mạnh mẽ phản đối, nói rằng không có cách nào ngoại lệ hẹp này có thể được sử dụng để hợp thức hóa việc khai thác hàng loạt các tác phẩm sáng tạo để tạo ra các đối thủ cạnh tranh tự động với các tác phẩm đó. Và để tôi nói rõ, tôi hoàn toàn đồng ý. Tất nhiên, câu hỏi này trước đây chưa được thử nghiệm tại tòa án, và hiện tại có khoảng 30 vụ kiện đang diễn ra do các chủ sở hữu quyền lợi khởi kiện các công ty AI, điều này sẽ giúp giải quyết vấn đề này.

Nhưng điều này sẽ mất thời gian, và các nhà sáng tạo đang phải chịu đựng sự cạnh tranh mà họ coi là bất công ngay bây giờ. Vì vậy, họ đề xuất một giải pháp đã được sử dụng và hoạt động hiệu quả trước đây – cấp phép. Nếu một thực thể thương mại muốn sử dụng tác phẩm có bản quyền, dù là để sản xuất hàng hóa hay xây dựng dịch vụ phát trực tuyến, họ sẽ cấp phép cho tác phẩm đó.

Bây giờ, các công ty AI đưa ra một loạt lý do tại sao điều này không nên áp dụng cho họ. Có ngoại lệ pháp lý về sử dụng hợp lý mà tôi đã đề cập. Cũng có lập luận rằng vì con người có thể học hỏi từ các tác phẩm có bản quyền mà không cần giấy phép, AI cũng nên được phép làm điều đó. Nhưng điều này rất khó để biện minh.

Các nghệ sĩ đã học hỏi lẫn nhau qua nhiều thế kỷ. Khi bạn sáng tạo, bạn kỳ vọng người khác sẽ học hỏi từ bạn. Bạn học từ nhiều nguồn khác nhau, từ nghệ thuật khác đến sách giáo khoa hay tham gia các lớp học. Phần lớn trong số này bạn hoặc ai đó đã trả tiền, hỗ trợ toàn bộ hệ sinh thái. Trong AI tạo sinh, các thực thể thương mại trị giá hàng triệu hoặc hàng tỷ đô la thu thập càng nhiều nội dung càng tốt, thường trái với ý muốn của các nhà sáng tạo, mà không trả tiền, tạo ra nhiều bản sao trong quá trình này – vốn chịu sự điều chỉnh của luật bản quyền – để tạo ra một đối thủ cạnh tranh có khả năng mở rộng cao với những gì họ đang sao chép.

Nó có khả năng mở rộng đến mức có những máy tạo hình ảnh AI được ước tính tạo ra 2,5 triệu hình ảnh mỗi ngày và máy tạo bài hát AI sản xuất 10 bài hát mỗi giây. Lập luận rằng việc học của con người và huấn luyện AI là giống nhau và nên được đối xử như nhau là điều vô lý.

Các công ty AI cũng lập luận rằng việc cấp phép dữ liệu huấn luyện của họ sẽ không thực tế. Họ sử dụng quá nhiều dữ liệu huấn luyện, họ nói, đến mức các khoản thanh toán riêng lẻ cho từng nhà sáng tạo đứng sau dữ liệu sẽ rất nhỏ. Nhưng điều này cũng đúng với nhiều thị trường cấp phép nội dung. Các nhà sáng tạo vẫn muốn được trả tiền, ngay cả khi số tiền nhỏ.

Các công ty AI cũng lập luận rằng họ sử dụng quá nhiều dữ liệu đến mức việc cấp phép thậm chí không khả thi. Nhưng điều này ngày càng khó tin trong một thế giới mà có rất nhiều tập dữ liệu bạn có thể truy cập với sự cho phép. Bạn có thể cấp phép dữ liệu từ các công ty truyền thông. Đã có 27 thỏa thuận lớn giữa các công ty AI và chủ sở hữu quyền lợi trong năm qua, và đó là chưa kể đến những thỏa thuận nhỏ hơn không được báo cáo.

Có những thị trường dữ liệu huấn luyện nơi bạn có thể lấy thêm dữ liệu. Bạn có thể mở rộng điều này với dữ liệu thuộc phạm vi công cộng – tức là dữ liệu không có bản quyền, như tập dữ liệu 500 tỷ từ Common Corpus. Bạn có thể mở rộng thêm với dữ liệu tổng hợp, tức là dữ liệu được tạo ra bởi chính mô hình AI, thường không có bản quyền.

Vì vậy, có nhiều lựa chọn dành cho bạn nếu bạn muốn xây dựng mô hình của mình mà không vi phạm bản quyền. Nhưng bằng chứng mạnh mẽ nhất cho thấy việc cấp phép toàn bộ dữ liệu là khả thi là đã có nhiều công ty đang làm điều đó. Tôi biết, vì chính tôi đã làm điều đó. Tôi đã làm việc trong lĩnh vực mà giờ đây chúng ta gọi là AI tạo sinh hơn một thập kỷ, và tháng 9 năm ngoái, đội của tôi tại Stability AI đã phát hành một mô hình âm nhạc AI được huấn luyện trên nhạc được cấp phép.

Một số công ty khác cũng đã làm điều tương tự, và tôi đã thành lập Fairly Trained để làm nổi bật sự thật này, và những công ty này. Fairly Trained là một tổ chức phi lợi nhuận chứng nhận các công ty AI tạo sinh không huấn luyện trên các tác phẩm có bản quyền mà không có giấy phép. Chúng tôi ra mắt vào tháng 1 năm nay và đã chứng nhận 18 công ty.

Bây giờ, các công ty này áp dụng nhiều cách tiếp cận khác nhau để cấp phép dữ liệu huấn luyện của họ. Chúng tôi có một mô hình giọng nói AI được huấn luyện trên các giọng nói riêng lẻ mà nó đã cấp phép. Chúng tôi có một mô hình âm nhạc AI đã cấp phép hơn 40 danh mục âm nhạc. Chúng tôi có một mô hình ngôn ngữ lớn chỉ được huấn luyện trên dữ liệu thuộc phạm vi công cộng, chủ yếu từ tài liệu và hồ sơ chính phủ.

Chúng tôi có những công ty đã trả phí trước cho dữ liệu của họ. Chúng tôi có những công ty chia sẻ doanh thu với nhà cung cấp dữ liệu của họ. Không có một câu trả lời duy nhất về chi tiết cụ thể của cách một trong những thỏa thuận cấp phép này phải hoạt động. Điều tuyệt vời của việc cấp phép là hai bên có thể ngồi lại với nhau và tìm ra điều gì phù hợp với họ.

Và điều này đang xảy ra ngày càng nhiều. Bạn sẽ nghe nói rằng yêu cầu cấp phép dữ liệu huấn luyện каким-то образом kìm hãm sự đổi mới, rằng chỉ có các công ty AI lớn mới có thể chi trả những khoản phí cấp phép khổng lồ ban đầu này. Nhưng thực tế, chính các công ty khởi nghiệp nhỏ hơn đang nỗ lực cấp phép toàn bộ dữ liệu của họ, và họ thường làm điều đó mà không cần những khoản phí cấp phép ban đầu đắt đỏ, mà sử dụng các mô hình như chia sẻ doanh thu.

Và còn một lợi ích lớn khác của việc cấp phép dữ liệu huấn luyện. Tất cả việc huấn luyện trên các tác phẩm có bản quyền này đang buộc các nhà xuất bản phải đóng cửa truy cập vào nội dung của họ. Sáng kiến Data Provenance đã xem xét 14.000 trang web thường được sử dụng trong các tập dữ liệu huấn luyện AI, và họ phát hiện rằng, trong vòng một năm, chỉ tính các miền có giá trị cao nhất cho việc huấn luyện AI, số lượng bị hạn chế qua việc từ chối hoặc điều khoản dịch vụ đã tăng từ 3% lên giữa 20 và 33%.

Web đang dần bị đóng lại do việc huấn luyện không được cấp phép. Điều này tệ cho các mô hình AI mới, cho những người mới tham gia thị trường, nhưng cũng tệ cho tất cả mọi người – các nhà nghiên cứu, người tiêu dùng và hơn thế nữa, những người được hưởng lợi từ một internet mở. Không có gì ngạc nhiên khi công chúng không đồng ý với các công ty AI về những gì họ có thể huấn luyện mô hình của mình.

Một cuộc thăm dò từ Viện Chính sách AI, vào tháng 4, đã hỏi mọi người về chính sách phổ biến của các công ty AI là huấn luyện trên dữ liệu có sẵn công khai. Đây là dữ liệu có thể truy cập công khai trên mạng, tất nhiên bao gồm rất nhiều tác phẩm có bản quyền, như bài báo tin tức và thường là phương tiện truyền thông bị sao chép lậu. 60% người nói điều này không nên được phép, so với chỉ 19% nói rằng nên.

Cuộc thăm dò tương tự tiếp tục hỏi liệu các công ty AI có nên bồi thường cho nhà cung cấp dữ liệu không. 74% nói có, và chỉ 9% nói không. Lần nào chúng ta hỏi công chúng những câu hỏi này, họ cũng thể hiện sự ủng hộ đối với các yêu cầu về sự cho phép và thanh toán, và phản đối quan niệm rằng một thứ gì đó có sẵn công khai thì tự nhiên trở thành thứ có thể thoải mái sử dụng.

Và những người tạo ra nghệ thuật mà xã hội thưởng thức cũng cảm thấy như vậy. Hôm nay, chúng tôi đã ra mắt “Tuyên bố về Huấn luyện AI”, một lá thư ngỏ ngắn gọn, đơn giản, với nội dung: “Việc sử dụng không được cấp phép các tác phẩm sáng tạo để huấn luyện AI tạo sinh là một mối đe dọa lớn, bất công đối với sinh kế của những người đứng sau các tác phẩm đó, và không được phép.”

Điều này đã được hơn 11.000 nhà sáng tạo trên khắp thế giới ký tên, bao gồm các tác giả đoạt giải Nobel, diễn viên đoạt giải Oscar và nhà soạn nhạc đoạt giải Oscar. Và nếu bạn đồng ý với quan điểm này, tôi khuyến khích bạn ký tên hôm nay tại aitrainingstatement.org. Những gì tuyên bố này và các tuyên bố trước đó như nó thể hiện rõ ràng là các nghệ sĩ, các nhà sáng tạo này xem việc huấn luyện không được cấp phép trên tác phẩm của họ bởi các mô hình AI tạo sinh là hoàn toàn bất công và có thể gây thảm họa cho nghề nghiệp của họ.

Vì vậy, nếu bạn là người ủng hộ việc huấn luyện AI không cần giấy phép, hãy nhớ rằng những người đã viết nhạc bạn đang nghe và sách bạn đang đọc có lẽ không đồng ý. Vậy điều này để lại chúng ta ở đâu? Hiện tại, nhiều nghệ sĩ, nhà văn, nhạc sĩ, nhà sáng tạo trên thế giới thẳng thừng ghét AI tạo sinh.

Và chúng ta biết, từ chính lời của họ, rằng một trong những lý do là chúng ta đang huấn luyện trên tác phẩm của họ mà không hỏi ý kiến họ. Nhưng không nhất thiết phải như vậy. Ngành công nghiệp AI và các ngành sáng tạo có thể và nên cùng có lợi. Nhưng để mối quan hệ cùng có lợi này xuất hiện, chúng ta phải bắt đầu từ vị trí tôn trọng giá trị của các tác phẩm được huấn luyện và quyền của những người đã tạo ra chúng.

Tôi không lập luận rằng mọi sự phát triển AI nên bị dừng lại. Tôi không lập luận rằng AI không nên tồn tại. Điều tôi đang lập luận là các nguồn lực được sử dụng để xây dựng AI tạo sinh nên được trả tiền. Cấp phép là công việc khó khăn. Nó sẽ làm bạn chậm lại trong ngắn hạn, nhưng cuối cùng bạn sẽ đạt được cùng một điểm – các mô hình có khả năng tương tự, mạnh mẽ tương tự – và bạn sẽ làm điều đó mà không buộc các nhà xuất bản trên thế giới phải đóng chặt cửa và phá hủy cái chung, và không biến các nhà sáng tạo trên thế giới thành đối thủ của bạn.

Vì vậy, tôi hy vọng rằng nhiều công ty AI hơn sẽ noi gương những công ty mà chúng tôi đã chứng nhận tại Fairly Trained, và cấp phép toàn bộ dữ liệu huấn luyện của họ. Tôi hy vọng rằng nhân viên tại các công ty này sẽ yêu cầu điều này từ chủ của họ. Và tôi hy vọng rằng tất cả những ai sử dụng AI tạo sinh sẽ hỏi xem các mô hình yêu thích của họ được huấn luyện trên cái gì.

Có một tương lai mà AI tạo sinh và sự sáng tạo của con người có thể cùng tồn tại, không chỉ hòa bình, mà còn cộng sinh. Khởi đầu có thể khó khăn, nhưng vẫn chưa quá muộn để thay đổi hướng đi. Cảm ơn bạn. (Tiếng vỗ tay)

Blog Suy Nghĩ

Ở Việt Nam không ít lĩnh vực sáng tạo đầy những tài năng, họ luôn muôn thể hiện khả năng và có thể giúp cho các nghệ sỹ tiếp nối, các thế hệ tiếp theo được tạo tác, kiến tạo nội dung, chia sẻ, huấn luyện truyền cảm hứng.

Tuy nhiên cũng vì khả năng ăn cắp ngoạn mục của internet đã dẫn đến việc gần như thui chột lý tưởng chia sẻ, chỉ cần trong thời gian ngắn những nội dung có tính chất lượng cao, nhiều quan điểm khác biệt về sáng tạo, nhiều kinh nghiệm được tích trữ trong quá trình rèn luyện,học tập, lao động dễ dàng bị ăn cắp, truyền nhau bán với giá vài trăm nghìn trên các trang mạng xã hội, dần dà có thể thấy các hoài bão, các mong muốn tắt liệm dần, ít hơn số người mong muốn chia sẻ bằng tiếng Việt trong thế giới CG ứng dụng thực tế sản xuất.

Post Author: Vu Pham