Năm 2022 là năm mà trí tuệ nhân tạo (AI) sinh tạo bùng nổ trong nhận thức của công chúng, và năm 2023 là năm nó bắt đầu bén rễ vào thế giới kinh doanh. Do đó, năm 2024 dự kiến sẽ là một năm quan trọng đối với tương lai của AI, khi các nhà nghiên cứu và doanh nghiệp tìm cách xác định cách tích hợp thực tiễn bước tiến tiến hóa này trong công nghệ vào cuộc sống hàng ngày của chúng ta.
Sự phát triển của AI sinh tạo đã phản ánh sự phát triển của máy tính, mặc dù trên một dòng thời gian tăng tốc mạnh mẽ. Các máy tính lớn, được vận hành tập trung từ một vài nhà cung cấp đã nhường chỗ cho các máy nhỏ hơn, hiệu quả hơn có thể tiếp cận các doanh nghiệp và các viện nghiên cứu. Trong những thập kỷ sau đó, những tiến bộ dần dần đã tạo ra các máy tính gia đình mà những người đam mê công nghệ có thể mày mò. Theo thời gian, các máy tính cá nhân mạnh mẽ với giao diện không cần mã hóa trực quan đã trở nên phổ biến.
AI sinh tạo đã đạt đến giai đoạn "người đam mê công nghệ" - và giống như máy tính, tiến bộ tiếp theo nhằm đạt được hiệu suất cao hơn trong các gói nhỏ hơn. Năm 2023 chứng kiến sự bùng nổ của các mô hình nền tảng ngày càng hiệu quả với các giấy phép mở, bắt đầu với việc ra mắt gia đình các mô hình ngôn ngữ lớn (LLMs) LlaMa của Meta và tiếp theo là các mô hình như StableLM, Falcon, Mistral, và Llama 2. DeepFloyd và Stable Diffusion đã đạt được sự tương đương tương đối với các mô hình độc quyền hàng đầu. Được tăng cường với các kỹ thuật tinh chỉnh và tập dữ liệu do cộng đồng mã nguồn mở phát triển, nhiều mô hình mở hiện nay có thể vượt trội hơn tất cả trừ các mô hình nguồn đóng mạnh nhất trên hầu hết các tiêu chuẩn đánh giá, mặc dù số lượng tham số nhỏ hơn nhiều.
Khi tốc độ tiến bộ tăng nhanh, các khả năng ngày càng mở rộng của các mô hình tiên tiến sẽ thu hút sự chú ý của truyền thông nhiều nhất. Nhưng những phát triển có ảnh hưởng nhất có thể là những phát triển tập trung vào quản trị, phần mềm trung gian, kỹ thuật đào tạo và các đường ống dữ liệu làm cho AI sinh tạo trở nên đáng tin cậy, bền vững và dễ tiếp cận hơn, cho cả doanh nghiệp và người dùng cuối.
Dưới đây là một số xu hướng AI quan trọng hiện tại cần theo dõi trong năm tới.
Gartner Hype Cycle đặt Generative AI ngay tại "Đỉnh điểm của sự kỳ vọng quá cao", đang trên đà trượt vào "Thung lũng của sự thất vọng"—nói cách khác, sắp bước vào một giai đoạn chuyển đổi (tương đối) không mấy ấn tượng—trong khi báo cáo "Tình trạng của AI tạo sinh trong doanh nghiệp" của Deloitte từ Quý 1 năm 2024 cho thấy nhiều lãnh đạo "mong đợi những tác động biến đổi đáng kể trong ngắn hạn." Thực tế có lẽ sẽ nằm ở giữa: AI tạo sinh cung cấp các cơ hội và giải pháp độc đáo, nhưng sẽ không phải là mọi thứ cho tất cả mọi người.
Kết quả thực tế so với sự kỳ vọng phần nào phụ thuộc vào quan điểm. Các công cụ độc lập như ChatGPT thường chiếm ưu thế trong trí tưởng tượng của công chúng, nhưng việc tích hợp mượt mà vào các dịch vụ hiện có thường mang lại sức bền lâu dài hơn. Trước khi có chu kỳ kỳ vọng hiện tại, các công cụ học máy tạo sinh như tính năng “Smart Compose” được Google triển khai vào năm 2018 không được coi là một sự thay đổi lớn, mặc dù đó là dấu hiệu của các dịch vụ tạo văn bản ngày nay. Tương tự, nhiều công cụ AI tạo sinh có tác động cao đang được triển khai như các yếu tố tích hợp trong môi trường doanh nghiệp để tăng cường và bổ sung, thay vì cách mạng hóa hoặc thay thế, các công cụ hiện có: chẳng hạn như các tính năng "Copilot" trong Microsoft Office, các tính năng "Generative Fill" trong Adobe Photoshop hoặc các tác nhân ảo trong các ứng dụng năng suất và hợp tác.
Nơi AI tạo sinh lần đầu tiên tạo động lực trong quy trình làm việc hàng ngày sẽ có ảnh hưởng lớn hơn đến tương lai của các công cụ AI so với tiềm năng giả định của bất kỳ khả năng AI cụ thể nào. Theo một cuộc khảo sát gần đây của IBM với hơn 1.000 nhân viên tại các công ty quy mô doanh nghiệp, ba yếu tố hàng đầu thúc đẩy sự chấp nhận AI là sự tiến bộ trong các công cụ AI làm cho chúng trở nên dễ tiếp cận hơn, nhu cầu giảm chi phí và tự động hóa các quy trình quan trọng, và sự gia tăng số lượng AI được tích hợp vào các ứng dụng kinh doanh tiêu chuẩn sẵn có.
Thế hệ mô hình liên ngành sắp tới, bao gồm các mô hình độc quyền như GPT-4V của OpenAI hoặc Gemini của Google, cũng như các mô hình nguồn mở như LLaVa, Adept hoặc Qwen-VL, có thể di chuyển tự do giữa các nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP) và thị giác máy tính. Các mô hình mới cũng đang mang video vào lĩnh vực này: vào cuối tháng 1, Google đã công bố Lumiere, một mô hình khuếch tán văn bản thành video có thể thực hiện các nhiệm vụ hình ảnh thành video hoặc sử dụng hình ảnh làm tham chiếu phong cách.
Lợi ích ngay lập tức của AI đa phương thức là các ứng dụng AI và trợ lý ảo trực quan, đa năng hơn. Người dùng có thể, ví dụ, hỏi về một hình ảnh và nhận được câu trả lời bằng ngôn ngữ tự nhiên, hoặc hỏi bằng giọng nói để nhận hướng dẫn sửa chữa và nhận được hướng dẫn trực quan kèm theo hướng dẫn từng bước bằng văn bản.
Ở mức độ cao hơn, AI đa phương thức cho phép một mô hình xử lý nhiều đầu vào dữ liệu đa dạng hơn, làm phong phú và mở rộng thông tin có sẵn cho việc huấn luyện và suy luận. Video, đặc biệt, cung cấp tiềm năng lớn cho việc học toàn diện. “Có những chiếc camera hoạt động 24/7 và chúng đang ghi lại những gì xảy ra ngay khi nó xảy ra mà không có bất kỳ sự lọc nào, không có bất kỳ ý định nào,” Peter Norvig, Nghiên cứu viên Giáo dục Xuất sắc tại Viện Trí tuệ Nhân tạo Lấy Con người làm Trung tâm của Stanford (HAI), cho biết. “Các mô hình AI trước đây chưa từng có loại dữ liệu này. Những mô hình đó sẽ có sự hiểu biết tốt hơn về mọi thứ.”
Sự phát triển của AI sinh tạo đã phản ánh sự phát triển của máy tính, mặc dù trên một dòng thời gian tăng tốc mạnh mẽ. Các máy tính lớn, được vận hành tập trung từ một vài nhà cung cấp đã nhường chỗ cho các máy nhỏ hơn, hiệu quả hơn có thể tiếp cận các doanh nghiệp và các viện nghiên cứu. Trong những thập kỷ sau đó, những tiến bộ dần dần đã tạo ra các máy tính gia đình mà những người đam mê công nghệ có thể mày mò. Theo thời gian, các máy tính cá nhân mạnh mẽ với giao diện không cần mã hóa trực quan đã trở nên phổ biến.
AI sinh tạo đã đạt đến giai đoạn "người đam mê công nghệ" - và giống như máy tính, tiến bộ tiếp theo nhằm đạt được hiệu suất cao hơn trong các gói nhỏ hơn. Năm 2023 chứng kiến sự bùng nổ của các mô hình nền tảng ngày càng hiệu quả với các giấy phép mở, bắt đầu với việc ra mắt gia đình các mô hình ngôn ngữ lớn (LLMs) LlaMa của Meta và tiếp theo là các mô hình như StableLM, Falcon, Mistral, và Llama 2. DeepFloyd và Stable Diffusion đã đạt được sự tương đương tương đối với các mô hình độc quyền hàng đầu. Được tăng cường với các kỹ thuật tinh chỉnh và tập dữ liệu do cộng đồng mã nguồn mở phát triển, nhiều mô hình mở hiện nay có thể vượt trội hơn tất cả trừ các mô hình nguồn đóng mạnh nhất trên hầu hết các tiêu chuẩn đánh giá, mặc dù số lượng tham số nhỏ hơn nhiều.
Khi tốc độ tiến bộ tăng nhanh, các khả năng ngày càng mở rộng của các mô hình tiên tiến sẽ thu hút sự chú ý của truyền thông nhiều nhất. Nhưng những phát triển có ảnh hưởng nhất có thể là những phát triển tập trung vào quản trị, phần mềm trung gian, kỹ thuật đào tạo và các đường ống dữ liệu làm cho AI sinh tạo trở nên đáng tin cậy, bền vững và dễ tiếp cận hơn, cho cả doanh nghiệp và người dùng cuối.
Dưới đây là một số xu hướng AI quan trọng hiện tại cần theo dõi trong năm tới.
- Reality check: more realistic expectations
- Multimodal AI
- Small(er) language models and open source advancements
- GPU shortages and cloud costs
- Model optimization is getting more accessible
- Customized local models and data pipelines
- More powerful virtual agents
- Regulation, copyright and ethical AI concerns
- Shadow AI (and corporate AI policies)
Reality check: more realistic expectations
Khi AI tạo sinh lần đầu tiên được biết đến rộng rãi, kiến thức của một nhà lãnh đạo doanh nghiệp điển hình chủ yếu đến từ các tài liệu tiếp thị và các tin tức đầy cảm xúc. Trải nghiệm thực tế (nếu có) chỉ giới hạn ở việc thử nghiệm với ChatGPT và DALL-E. Giờ đây, khi mọi thứ đã lắng xuống, cộng đồng doanh nghiệp đã có một hiểu biết tinh tế hơn về các giải pháp do AI cung cấp.Gartner Hype Cycle đặt Generative AI ngay tại "Đỉnh điểm của sự kỳ vọng quá cao", đang trên đà trượt vào "Thung lũng của sự thất vọng"—nói cách khác, sắp bước vào một giai đoạn chuyển đổi (tương đối) không mấy ấn tượng—trong khi báo cáo "Tình trạng của AI tạo sinh trong doanh nghiệp" của Deloitte từ Quý 1 năm 2024 cho thấy nhiều lãnh đạo "mong đợi những tác động biến đổi đáng kể trong ngắn hạn." Thực tế có lẽ sẽ nằm ở giữa: AI tạo sinh cung cấp các cơ hội và giải pháp độc đáo, nhưng sẽ không phải là mọi thứ cho tất cả mọi người.
Kết quả thực tế so với sự kỳ vọng phần nào phụ thuộc vào quan điểm. Các công cụ độc lập như ChatGPT thường chiếm ưu thế trong trí tưởng tượng của công chúng, nhưng việc tích hợp mượt mà vào các dịch vụ hiện có thường mang lại sức bền lâu dài hơn. Trước khi có chu kỳ kỳ vọng hiện tại, các công cụ học máy tạo sinh như tính năng “Smart Compose” được Google triển khai vào năm 2018 không được coi là một sự thay đổi lớn, mặc dù đó là dấu hiệu của các dịch vụ tạo văn bản ngày nay. Tương tự, nhiều công cụ AI tạo sinh có tác động cao đang được triển khai như các yếu tố tích hợp trong môi trường doanh nghiệp để tăng cường và bổ sung, thay vì cách mạng hóa hoặc thay thế, các công cụ hiện có: chẳng hạn như các tính năng "Copilot" trong Microsoft Office, các tính năng "Generative Fill" trong Adobe Photoshop hoặc các tác nhân ảo trong các ứng dụng năng suất và hợp tác.
Nơi AI tạo sinh lần đầu tiên tạo động lực trong quy trình làm việc hàng ngày sẽ có ảnh hưởng lớn hơn đến tương lai của các công cụ AI so với tiềm năng giả định của bất kỳ khả năng AI cụ thể nào. Theo một cuộc khảo sát gần đây của IBM với hơn 1.000 nhân viên tại các công ty quy mô doanh nghiệp, ba yếu tố hàng đầu thúc đẩy sự chấp nhận AI là sự tiến bộ trong các công cụ AI làm cho chúng trở nên dễ tiếp cận hơn, nhu cầu giảm chi phí và tự động hóa các quy trình quan trọng, và sự gia tăng số lượng AI được tích hợp vào các ứng dụng kinh doanh tiêu chuẩn sẵn có.
Multimodal AI (and Video)
Tham vọng của AI thế hệ mới đang ngày càng lớn hơn. Làn sóng tiến bộ tiếp theo sẽ không chỉ tập trung vào việc nâng cao hiệu suất trong một lĩnh vực cụ thể mà còn vào các mô hình đa phương thức có thể nhận nhiều loại dữ liệu đầu vào. Mặc dù các mô hình hoạt động trên nhiều loại dữ liệu không phải là một hiện tượng hoàn toàn mới - các mô hình chuyển đổi văn bản thành hình ảnh như CLIP và các mô hình chuyển đổi giọng nói thành văn bản như Wave2Vec đã xuất hiện từ nhiều năm nay - chúng thường chỉ hoạt động theo một hướng và được huấn luyện để thực hiện một nhiệm vụ cụ thể.Thế hệ mô hình liên ngành sắp tới, bao gồm các mô hình độc quyền như GPT-4V của OpenAI hoặc Gemini của Google, cũng như các mô hình nguồn mở như LLaVa, Adept hoặc Qwen-VL, có thể di chuyển tự do giữa các nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP) và thị giác máy tính. Các mô hình mới cũng đang mang video vào lĩnh vực này: vào cuối tháng 1, Google đã công bố Lumiere, một mô hình khuếch tán văn bản thành video có thể thực hiện các nhiệm vụ hình ảnh thành video hoặc sử dụng hình ảnh làm tham chiếu phong cách.
Lợi ích ngay lập tức của AI đa phương thức là các ứng dụng AI và trợ lý ảo trực quan, đa năng hơn. Người dùng có thể, ví dụ, hỏi về một hình ảnh và nhận được câu trả lời bằng ngôn ngữ tự nhiên, hoặc hỏi bằng giọng nói để nhận hướng dẫn sửa chữa và nhận được hướng dẫn trực quan kèm theo hướng dẫn từng bước bằng văn bản.
Ở mức độ cao hơn, AI đa phương thức cho phép một mô hình xử lý nhiều đầu vào dữ liệu đa dạng hơn, làm phong phú và mở rộng thông tin có sẵn cho việc huấn luyện và suy luận. Video, đặc biệt, cung cấp tiềm năng lớn cho việc học toàn diện. “Có những chiếc camera hoạt động 24/7 và chúng đang ghi lại những gì xảy ra ngay khi nó xảy ra mà không có bất kỳ sự lọc nào, không có bất kỳ ý định nào,” Peter Norvig, Nghiên cứu viên Giáo dục Xuất sắc tại Viện Trí tuệ Nhân tạo Lấy Con người làm Trung tâm của Stanford (HAI), cho biết. “Các mô hình AI trước đây chưa từng có loại dữ liệu này. Những mô hình đó sẽ có sự hiểu biết tốt hơn về mọi thứ.”