Small(er) language models and open source advancements
Trong các mô hình chuyên biệt theo lĩnh vực—đặc biệt là các mô hình LLM (Mô hình Ngôn ngữ Lớn)—chúng ta có thể đã đạt đến điểm lợi ích giảm dần từ việc tăng số lượng tham số. Sam Altman, CEO của OpenAI (mà mô hình GPT-4 được đồn đại có khoảng 1,76 nghìn tỷ tham số), đã gợi ý điều này tại sự kiện Imagination in Action của MIT vào tháng Tư năm ngoái: “Tôi nghĩ rằng chúng ta đang ở cuối kỷ nguyên mà những mô hình khổng lồ này sẽ không còn, và chúng ta sẽ làm chúng tốt hơn theo những cách khác,” ông dự đoán. “Tôi nghĩ rằng đã có quá nhiều sự tập trung vào số lượng tham số.”Các mô hình khổng lồ đã khởi động kỷ nguyên vàng AI đang diễn ra, nhưng chúng không phải là không có nhược điểm. Chỉ những công ty lớn nhất mới có đủ nguồn tài chính và không gian máy chủ để đào tạo và duy trì các mô hình tiêu thụ nhiều năng lượng với hàng trăm tỷ tham số. Theo một ước tính từ Đại học Washington, việc đào tạo một mô hình kích thước GPT-3 cần lượng điện tiêu thụ hàng năm của hơn 1.000 hộ gia đình; một ngày tiêu chuẩn của các truy vấn ChatGPT tương đương với mức tiêu thụ năng lượng hàng ngày của 33.000 hộ gia đình Mỹ.
Trong khi đó, các mô hình nhỏ hơn ít tiêu tốn tài nguyên hơn nhiều. Một bài báo có ảnh hưởng từ Deepmind vào tháng Ba năm 2022 đã chỉ ra rằng việc đào tạo các mô hình nhỏ hơn trên nhiều dữ liệu mang lại hiệu suất tốt hơn so với đào tạo các mô hình lớn hơn trên ít dữ liệu. Nhiều đổi mới đang diễn ra trong LLM tập trung vào việc tạo ra đầu ra lớn hơn từ ít tham số hơn. Như đã được chứng minh bởi sự tiến bộ gần đây của các mô hình trong phạm vi 3–70 tỷ tham số, đặc biệt là những mô hình được xây dựng trên nền tảng LLaMa, Llama 2 và Mistral vào năm 2023, các mô hình có thể được thu nhỏ mà không làm giảm nhiều hiệu suất.
Sức mạnh của các mô hình mở sẽ tiếp tục tăng trưởng. Vào tháng Mười Hai năm 2023, Mistral đã phát hành “Mixtral,” một mô hình hỗn hợp chuyên gia (MoE) tích hợp 8 mạng neural, mỗi cái có 7 tỷ tham số. Mistral tuyên bố rằng Mixtral không chỉ vượt trội hơn phiên bản 70B tham số của Llama 2 trên hầu hết các bài kiểm tra mà còn nhanh hơn gấp 6 lần trong tốc độ suy luận, mà còn ngang bằng hoặc vượt qua GPT-3.5 của OpenAI trên hầu hết các bài kiểm tra chuẩn. Ngay sau đó, Meta đã công bố vào tháng Giêng rằng họ đã bắt đầu đào tạo các mô hình Llama 3, và xác nhận rằng chúng sẽ được mã nguồn mở. Mặc dù chi tiết (như kích thước mô hình) chưa được xác nhận, nhưng có thể kỳ vọng rằng Llama 3 sẽ tuân theo khung công tác đã được thiết lập trong hai thế hệ trước.
Những tiến bộ trong các mô hình nhỏ hơn mang lại ba lợi ích quan trọng:
Chúng giúp dân chủ hóa AI: các mô hình nhỏ hơn có thể chạy với chi phí thấp hơn trên phần cứng dễ tiếp cận hơn, giúp nhiều người nghiệp dư và các tổ chức có thể nghiên cứu, đào tạo và cải thiện các mô hình hiện có.Chúng có thể chạy cục bộ trên các thiết bị nhỏ hơn: điều này cho phép AI phức tạp hơn trong các kịch bản như điện toán biên và internet của vạn vật (IoT). Hơn nữa, việc chạy các mô hình cục bộ—như trên điện thoại thông minh của người dùng—giúp tránh được nhiều mối quan ngại về quyền riêng tư và an ninh mạng phát sinh từ việc tương tác với dữ liệu cá nhân hoặc dữ liệu độc quyền nhạy cảm.Chúng làm cho AI trở nên dễ hiểu hơn: mô hình càng lớn, càng khó để xác định cách thức và nơi mà nó đưa ra các quyết định quan trọng. AI có thể giải thích là điều cần thiết để hiểu, cải thiện và tin tưởng vào kết quả của các hệ thống AI.
GPU shortages and cloud costs
Xu hướng hướng tới các mô hình nhỏ hơn sẽ được thúc đẩy bởi cả sự cần thiết lẫn sự hăng hái khởi nghiệp, khi chi phí điện toán đám mây tăng lên và sự sẵn có của phần cứng giảm xuống."Các công ty lớn (và ngày càng nhiều hơn) đều cố gắng mang khả năng AI vào nội bộ, và có một cuộc chạy đua về GPU," James Landay, Phó Giám đốc và Giám đốc Nghiên cứu Khoa, Stanford HAI cho biết. "Điều này sẽ tạo ra áp lực lớn không chỉ đối với việc tăng cường sản xuất GPU, mà còn đối với các nhà sáng tạo để đưa ra các giải pháp phần cứng rẻ hơn và dễ dàng hơn để sản xuất và sử dụng."
Theo một báo cáo của O'Reilly vào cuối năm 2023, các nhà cung cấp đám mây hiện đang gánh vác phần lớn gánh nặng tính toán: tương đối ít người áp dụng AI duy trì cơ sở hạ tầng của riêng họ, và tình trạng thiếu hụt phần cứng sẽ chỉ làm tăng thêm rào cản và chi phí của việc thiết lập máy chủ tại chỗ. Về lâu dài, điều này có thể tạo áp lực tăng lên đối với chi phí đám mây khi các nhà cung cấp cập nhật và tối ưu hóa cơ sở hạ tầng của chính họ để đáp ứng hiệu quả nhu cầu từ AI tạo sinh.
Đối với các doanh nghiệp, điều hướng trong bối cảnh không chắc chắn này đòi hỏi sự linh hoạt, cả về mô hình - dựa vào các mô hình nhỏ hơn, hiệu quả hơn khi cần thiết hoặc các mô hình lớn hơn, hiệu suất cao hơn khi có thể - và môi trường triển khai. "Chúng tôi không muốn hạn chế nơi mọi người triển khai [một mô hình]," CEO IBM Arvind Krishna cho biết trong một cuộc phỏng vấn vào tháng 12 năm 2023 với CNBC, đề cập đến nền tảng watsonx của IBM. "Vì vậy, [nếu] họ muốn triển khai nó trên một đám mây công cộng lớn, chúng tôi sẽ làm điều đó ở đó. Nếu họ muốn triển khai nó tại IBM, chúng tôi sẽ làm điều đó tại IBM. Nếu họ muốn làm điều đó trên cơ sở hạ tầng của riêng họ, và họ có đủ cơ sở hạ tầng, chúng tôi sẽ làm điều đó ở đó."
Model optimization is getting more accessible
Xu hướng tối đa hóa hiệu suất của các mô hình nhỏ gọn hơn đang được phục vụ tốt bởi những sản phẩm gần đây từ cộng đồng mã nguồn mở.Nhiều tiến bộ quan trọng đã và sẽ tiếp tục được thúc đẩy không chỉ bởi các mô hình nền tảng mới, mà còn bởi các kỹ thuật và tài nguyên mới (như các bộ dữ liệu mã nguồn mở) để huấn luyện, điều chỉnh, tinh chỉnh hoặc căn chỉnh các mô hình đã được huấn luyện trước. Các kỹ thuật đáng chú ý không phụ thuộc vào mô hình cụ thể đã phổ biến vào năm 2023 bao gồm:
Low Rank Adaptation (LoRA): Thay vì trực tiếp tinh chỉnh hàng tỷ tham số của mô hình, LoRA liên quan đến việc đóng băng các trọng số của mô hình đã được huấn luyện trước và chèn các lớp có thể huấn luyện—đại diện cho ma trận các thay đổi của trọng số mô hình dưới dạng 2 ma trận nhỏ hơn (bậc thấp hơn)—trong mỗi khối transformer. Điều này làm giảm đáng kể số lượng tham số cần được cập nhật, từ đó làm tăng tốc độ tinh chỉnh và giảm lượng bộ nhớ cần thiết để lưu trữ các cập nhật của mô hình.
Quantization: Giống như việc giảm bitrate của âm thanh hoặc video để giảm kích thước tệp và độ trễ, lượng tử hóa giảm độ chính xác được sử dụng để đại diện cho các điểm dữ liệu mô hình—ví dụ, từ điểm nổi 16 bit xuống số nguyên 8 bit—để giảm sử dụng bộ nhớ và tăng tốc độ suy luận. Các kỹ thuật QLoRA kết hợp lượng tử hóa với LoRA.
Direct Preference Optimization (DPO): Các mô hình trò chuyện thường sử dụng học tăng cường từ phản hồi của con người (RLHF) để căn chỉnh đầu ra của mô hình với sở thích của con người. Mặc dù mạnh mẽ, RLHF phức tạp và không ổn định. DPO hứa hẹn mang lại lợi ích tương tự trong khi nhẹ về mặt tính toán và đơn giản hơn nhiều.Cùng với các tiến bộ song song trong các mô hình mã nguồn mở trong khoảng 3–70 tỷ tham số, các kỹ thuật đang phát triển này có thể thay đổi động lực của cảnh quan AI bằng cách cung cấp cho các đơn vị nhỏ hơn, như các công ty khởi nghiệp và những người nghiệp dư, những khả năng AI phức tạp mà trước đây không thể tiếp cận được.