Các doanh nghiệp mong đợi Generative AI (GenAI) sẽ cải thiện năng suất, giảm chi phí và tăng tốc đổi mới. Tuy nhiên, việc triển khai các giải pháp GenAI không phải là một nhiệm vụ đơn giản. Nó đòi hỏi rất nhiều dữ liệu, tài nguyên tính toán và chuyên môn.
Một trong những giai đoạn quan trọng nhất của hoạt động mô hình GenAI là suy luận, trong đó kết quả đầu ra được tạo ra từ một mô hình được đào tạo dựa trên yêu cầu của người dùng. Suy luận có thể có ý nghĩa quan trọng đối với hiệu suất, khả năng mở rộng, tuổi thọ và hiệu quả chi phí của các giải pháp GenAI. Do đó, điều quan trọng là doanh nghiệp phải xem xét cách họ có thể tối ưu hóa chiến lược suy luận và chọn phương án triển khai tốt nhất cho nhu cầu của mình.
Tận dụng RAG để tối ưu hóa LLM
Các mô hình ngôn ngữ lớn (LLM), chẳng hạn như GPT-4, Llama 2 và Mistral, có rất nhiều tiềm năng. Chúng được sử dụng cho nhiều ứng dụng khác nhau, từ chatbot đến tạo nội dung và thậm chí là viết mã. Tuy nhiên, LLM phụ thuộc vào dữ liệu mà chúng được đào tạo về độ chính xác.
Tùy thuộc vào nhu cầu tùy chỉnh, một số tổ chức có thể chọn triển khai LLM được đào tạo trước, trong khi những tổ chức khác có thể xây dựng giải pháp AI của riêng họ từ đầu. Tùy chọn thứ ba là ghép nối LLM với thế hệ tăng cường truy xuất (RAG) , một kỹ thuật để cải thiện độ chính xác của LLM với dữ kiện từ các nguồn dữ liệu bên ngoài, chẳng hạn như bộ dữ liệu của công ty.
Những cân nhắc về nơi thực hiện suy luận
Để giúp xác định vị trí đặt giải pháp suy luận, hãy xem xét các yếu tố hạn định quan trọng như số lượng yêu cầu sẽ được gửi đến mô hình, số giờ mô hình sẽ hoạt động mỗi ngày và mức độ sử dụng sẽ mở rộng theo thời gian. Những cân nhắc bổ sung bao gồm chất lượng và tốc độ đầu ra cũng như lượng dữ liệu độc quyền sẽ được sử dụng.
Suy luận tại chỗ có thể tiết kiệm chi phí và tăng tốc đổi mới
Đối với các giải pháp GenAI kết hợp LLM với RAG, hội thảo tại chỗ có thể là lựa chọn tốt hơn so với hội thảo thông qua đám mây công cộng.
Việc suy luận LLM và RAG trong đám mây công cộng có thể tốn kém vì chúng có thể phải chịu phí truyền dữ liệu, lưu trữ và tính toán cao. Theo một nghiên cứu gần đây do Dell Technologies ủy quyền, Nhóm Chiến lược Doanh nghiệp (ESG) nhận thấy rằng việc suy luận tại chỗ có thể tiết kiệm chi phí hơn. Suy luận LLM và RAG tại chỗ bằng các giải pháp của Dell có thể tiết kiệm chi phí hơn từ 38% đến 75%¹ khi so sánh với đám mây công cộng.
ESG cũng nhận thấy rằng các giải pháp của Dell cũng tiết kiệm chi phí hơn tới 88%¹ so với API. Khi quy mô của mô hình và số lượng người dùng tăng lên, hiệu quả chi phí của việc suy luận tại chỗ với Dell cũng tăng lên.
LLM được ghép nối với RAG có thể tạo ra đầu ra nhạy cảm và bí mật có thể chứa thông tin cá nhân hoặc doanh nghiệp. Suy luận trong đám mây công cộng có thể gặp rủi ro vì nó có thể làm lộ dữ liệu và kết quả đầu ra cho các bên khác. Suy luận tại chỗ có thể an toàn hơn vì dữ liệu và kết quả đầu ra vẫn nằm trong mạng và tường lửa của công ty.
LLM và RAG có thể được hưởng lợi từ việc học hỏi và cải tiến liên tục dựa trên phản hồi của người dùng và kiến thức về miền. Bằng cách chạy chức năng suy luận tại chỗ, sự đổi mới có thể phát triển mạnh mẽ mà không bị ràng buộc bởi chu kỳ triển khai và cập nhật của nhà cung cấp đám mây.
Tận dụng hệ sinh thái rộng lớn để tăng tốc hành trình GenAI của bạn
Tại Dell, chúng tôi trao quyền cho bạn đưa AI vào dữ liệu của mình, bất kể dữ liệu đó nằm ở đâu, bao gồm cả tại chỗ trong môi trường biên và cơ sở colocation, cũng như trong môi trường đám mây riêng và công cộng. Chúng tôi đơn giản hóa và đẩy nhanh hành trình GenAI của bạn, tạo ra kết quả tốt hơn phù hợp với nhu cầu của bạn, đồng thời bảo vệ dữ liệu độc quyền của bạn với tính bền vững được đặt lên hàng đầu.
Chúng tôi cung cấp một hệ sinh thái mạnh mẽ gồm các đối tác và dịch vụ của Dell để hỗ trợ bạn, cho dù bạn mới bắt đầu hay mở rộng quy mô trong hành trình GenAI của mình, đồng thời cung cấp các giải pháp toàn diện mang lại sự linh hoạt tối đa hiện tại và trong tương lai. Ngoài ra, với Dell APEX, các tổ chức có thể đăng ký các giải pháp GenAI và tối ưu hóa chúng cho các trường hợp sử dụng đa đám mây.
Tìm hiểu thêm tại Dell về AI sáng tạo .
1 Dựa trên nghiên cứu của Nhóm Chiến lược Doanh nghiệp do Dell ủy quyền, “Tối đa hóa ROI AI: Suy luận tại chỗ với Công nghệ của Dell có thể tiết kiệm chi phí hơn 75% so với Đám mây Công cộng” so sánh cơ sở hạ tầng tại chỗ của Dell với cơ sở hạ tầng đám mây công cộng nguyên gốc dưới dạng dịch vụ và API dựa trên mã thông báo, tháng 4 năm 2024. Chi phí dự kiến được lập mô hình bằng cách sử dụng RAG cho quy mô nhỏ (5 nghìn người dùng), trung bình (10 nghìn người dùng) và lớn (50 nghìn người dùng) và hai LLM (thông số 7B và 70B) trong 3 năm. Kết quả thực tế có thể khác nhau. [ Tóm tắt kinh tế ]
Bài viết mới cập nhật
Tăng tốc khối lượng công việc của Hệ thống tệp mạng (NFS) của bạn với RDMA
Giao thức NFS hiện nay được sử dụng rộng rãi trong ...
Mẹo nhanh về dữ liệu phi cấu trúc – OneFS Protection Overhead
Gần đây đã có một số câu hỏi từ lĩnh vực ...
Giới thiệu Dell PowerScale OneFS dành cho Quản trị viên NetApp
Để các doanh nghiệp khai thác được lợi thế của công ...
Cơ sở hạ tầng CNTT: Mua hay đăng ký?
Nghiên cứu theo số liệu của IDC về giải pháp đăng ...