AI được train dựa vào phế phẩm của AI sẽ tạo ra rác AI

  • Người khởi tạo Người khởi tạo kieutrongtu
  • Ngày bắt đầu Ngày bắt đầu

ai-duoc-train-dua-vao-phe-pham-cua-ai


Các mô hình AI hoạt động bằng cách đào tạo trên một lượng lớn dữ liệu từ internet. Nhưng khi AI ngày càng được sử dụng để tạo ra các trang web chứa đầy nội dung rác, quy trình này đang có nguy cơ bị suy yếu.

Nghiên cứu mới được công bố trên tạp chí Nature cho thấy chất lượng đầu ra của mô hình dần dần giảm sút khi AI được đào tạo trên dữ liệu do AI tạo ra. Khi các mô hình tiếp theo tạo ra đầu ra sau đó được sử dụng làm dữ liệu đào tạo cho các mô hình trong tương lai, hiệu ứng này càng trở nên tồi tệ hơn.

Ilia Shumailov, một nhà khoa học máy tính từ Đại học Oxford, người đứng đầu nghiên cứu, so sánh quá trình này với việc chụp ảnh của những bức ảnh. “Nếu bạn chụp một bức ảnh và quét nó, sau đó in ra, và bạn lặp lại quá trình này nhiều lần, về cơ bản, nhiễu sẽ làm quá trình trở nên quá tải,” ông nói. “Bạn sẽ chỉ còn lại một hình vuông tối.” Tương đương với hình vuông tối đối với AI được gọi là “sụp đổ mô hình,” ông nói, có nghĩa là mô hình chỉ tạo ra rác rưởi vô nghĩa.

Nghiên cứu này có thể có những tác động nghiêm trọng đối với các mô hình AI lớn nhất hiện nay, vì chúng sử dụng internet làm cơ sở dữ liệu. GPT-3, chẳng hạn, được đào tạo một phần từ dữ liệu của Common Crawl, một kho lưu trữ trực tuyến với hơn 3 tỷ trang web. Và vấn đề có khả năng trở nên tồi tệ hơn khi ngày càng có nhiều trang web rác do AI tạo ra bắt đầu làm lộn xộn internet.

Các mô hình AI hiện tại không chỉ đơn giản là sẽ sụp đổ, theo Shumailov, mà vẫn có thể có những tác động đáng kể: Các cải tiến sẽ chậm lại và hiệu suất có thể giảm. Để xác định tác động tiềm tàng lên hiệu suất, Shumailov và các đồng nghiệp đã tinh chỉnh một mô hình ngôn ngữ lớn (LLM) trên một tập dữ liệu từ Wikipedia, sau đó tinh chỉnh mô hình mới trên chính đầu ra của nó qua chín thế hệ. Nhóm đã đo lường mức độ vô lý của đầu ra bằng cách sử dụng "điểm perplexity", đo lường độ tin cậy của mô hình AI trong việc dự đoán phần tiếp theo của một chuỗi; điểm cao hơn đồng nghĩa với một mô hình kém chính xác hơn.

Các mô hình được đào tạo trên đầu ra của các mô hình khác có điểm perplexity cao hơn. Ví dụ, với mỗi thế hệ, nhóm yêu cầu mô hình đưa ra câu tiếp theo sau đầu vào sau:

"một số bắt đầu trước năm 1360—thường được hoàn thành bởi một thợ xây chính và một nhóm nhỏ thợ xây lưu động, được bổ sung bởi công nhân giáo xứ địa phương, theo Poyntz Wright. Nhưng các tác giả khác lại bác bỏ mô hình này, đề xuất thay vào đó rằng các kiến trúc sư hàng đầu đã thiết kế các tháp nhà thờ giáo xứ dựa trên các ví dụ đầu tiên của phong cách Perpendicular."

Vào thế hệ thứ chín và cuối cùng, mô hình trả về câu sau:

"kiến trúc. Ngoài việc là nơi có một số lượng lớn nhất các loài thỏ đuôi đen @-@, thỏ đuôi trắng @-@, thỏ đuôi xanh @-@, thỏ đuôi đỏ @-@, thỏ đuôi vàng @-."

Shumailov giải thích điều mà ông nghĩ đang xảy ra bằng cách sử dụng phép so sánh này: Hãy tưởng tượng bạn đang cố gắng tìm tên ít khả năng nhất của một học sinh trong trường. Bạn có thể đi qua từng tên học sinh, nhưng sẽ mất quá nhiều thời gian. Thay vào đó, bạn nhìn vào 100 trong số 1.000 tên học sinh. Bạn có được một ước lượng khá tốt, nhưng có lẽ không phải là câu trả lời chính xác. Bây giờ hãy tưởng tượng rằng một người khác đến và đưa ra ước lượng dựa trên 100 tên của bạn, nhưng chỉ chọn 50 tên. Ước lượng của người thứ hai này sẽ còn xa hơn nữa.


"Bạn chắc chắn có thể tưởng tượng rằng điều tương tự cũng xảy ra với các mô hình học máy," ông ấy nói. "Vì vậy, nếu mô hình đầu tiên đã xem qua một nửa internet, thì có lẽ mô hình thứ hai sẽ không yêu cầu một nửa internet nữa, mà thực tế là lấy 100,000 tweet mới nhất và gắn mô hình vào nó."

Ngoài ra, internet không chứa một lượng dữ liệu vô hạn. Để đáp ứng nhu cầu của mình, các mô hình AI trong tương lai có thể cần được đào tạo trên dữ liệu tổng hợp – hoặc dữ liệu được tạo ra bởi AI.

"Các mô hình nền tảng thực sự dựa vào quy mô của dữ liệu để hoạt động tốt," Shayne Longpre, người nghiên cứu cách các mô hình ngôn ngữ lớn (LLM) được đào tạo tại MIT Media Lab, và không tham gia vào nghiên cứu này, cho biết. "Và họ đang tìm kiếm dữ liệu tổng hợp trong các môi trường được quản lý và kiểm soát để giải quyết vấn đề đó. Bởi vì nếu họ tiếp tục thu thập thêm dữ liệu trên web, hiệu quả sẽ giảm dần."

Matthias Gerstgrasser, một nhà nghiên cứu AI tại Stanford, người đã viết một bài báo khác kiểm tra về sự sụp đổ của mô hình, cho biết việc thêm dữ liệu tổng hợp vào dữ liệu thế giới thực thay vì thay thế nó không gây ra bất kỳ vấn đề lớn nào. Nhưng ông nói thêm: "Một kết luận mà tất cả các tài liệu về sự sụp đổ của mô hình đều đồng ý là dữ liệu đào tạo chất lượng cao và đa dạng là quan trọng."

Một tác động khác của sự suy thoái này theo thời gian là thông tin ảnh hưởng đến các nhóm thiểu số bị bóp méo nặng nề trong mô hình, vì nó có xu hướng tập trung quá mức vào các mẫu phổ biến hơn trong dữ liệu đào tạo.

Trong các mô hình hiện tại, điều này có thể ảnh hưởng đến các ngôn ngữ ít được đại diện vì chúng cần nhiều tập dữ liệu tổng hợp (do AI tạo ra) hơn, theo Robert Mahari, người nghiên cứu luật tính toán tại Phòng Thí nghiệm Truyền thông MIT (ông không tham gia vào nghiên cứu này).

Một ý tưởng có thể giúp tránh sự suy thoái là đảm bảo mô hình chú trọng nhiều hơn vào dữ liệu do con người tạo ra ban đầu. Một phần khác trong nghiên cứu của Shumailov cho phép các thế hệ tương lai lấy mẫu 10% của tập dữ liệu ban đầu, điều này giảm bớt một số tác động tiêu cực.

Điều đó sẽ yêu cầu tạo ra một chuỗi từ dữ liệu do con người tạo ra ban đầu đến các thế hệ tiếp theo, được gọi là nguồn gốc dữ liệu.

Nhưng nguồn gốc yêu cầu một cách nào đó để lọc internet thành nội dung do con người tạo ra và nội dung do AI tạo ra, điều này vẫn chưa được giải quyết. Mặc dù hiện tại có một số công cụ nhằm xác định liệu văn bản có được tạo ra bởi AI hay không, nhưng chúng thường không chính xác.

"Đáng tiếc, chúng tôi có nhiều câu hỏi hơn là câu trả lời," Shumailov nói. "Nhưng rõ ràng là điều quan trọng là biết dữ liệu của bạn đến từ đâu và mức độ bạn có thể tin tưởng vào nó để nắm bắt một mẫu đại diện của dữ liệu bạn đang xử lý."

Nguồn: https://www.technologyreview.com/20...-of-ai-garbage-ends-up-spitting-out-nonsense/
 

Đăng ký nhận bản tin

File Google sheet đầy đủ kiến thức SEO
Đăng ký kênh Youtube. Đăng ký Google News.



Chúng tôi tôn trọng sự riêng tư của bạn. Hủy đăng ký bất cứ lúc nào. Xem Chính sách quyền riêng tư.

Back
Top Dưới