Thách thức về năng lượng AI: Những điều CIO cần biết

Thách thức lớn nhất của AI không phải là dữ liệu hay thuật toán, mà là năng lượng. Dưới đây là những điều các CIO cần biết về thách thức năng lượng của AI.

Bài viết này được viết bởi David Nicholson , Cố vấn công nghệ trưởng của The Futurum Group .


Tóm lại: Thách thức lớn nhất của AI là năng lượng. Khối lượng công việc đào tạo và suy luận tiêu tốn rất nhiều năng lượng, và các CIO phải tập trung vào hiệu quả, tính linh hoạt và đo lường đồng bộ để tối đa hóa hiệu suất trên mỗi watt.


Thách thức lớn nhất mà AI đang phải đối mặt hiện nay không phải là thuật toán hay dữ liệu. Đó là năng lượng. Chúng ta càng đòi hỏi trí tuệ từ máy móc, thì chúng càng đòi hỏi nhiều điện năng từ chúng ta. Đó là thực tế mà tôi gọi là thách thức về năng lượng AI , và là điều mà các CIO và lãnh đạo doanh nghiệp phải nghiêm túc xem xét. 

Trong một cuộc thảo luận gần đây về AI & Us với Tiến sĩ Jeremy Kepner của MIT và Ty Schmitt của Dell Technologies , chúng tôi đã phân tích phạm vi của thách thức này và những gì các nhà lãnh đạo có thể làm để quản lý nó. Trong quá trình thảo luận, tôi thậm chí còn nói đùa rằng nếu đèn ở một nhà hàng Boston bị tắt, tôi sẽ biết phải đổ lỗi cho ai: trung tâm siêu máy tính của Tiến sĩ Kepner tại MIT. Nhưng như Schmitt đã nhắc nhở tôi, biết đâu chính những hệ thống đó sẽ âm thầm cải thiện bữa tối của tôi thông qua một chuỗi cung ứng thông minh hơn. 

Ý tôi là, đây không phải là một cuộc trò chuyện trừu tượng. Tác động của nhu cầu năng lượng AI đã và đang lan tỏa khắp cuộc sống hàng ngày. 

Đào tạo, suy luận và nhu cầu năng lượng của họ

AI hoạt động dựa trên mạng nơ-ron sâu , và những mạng lưới này rất “đói”. Có hai giai đoạn cần lưu ý: 

  • Đào tạo , nơi các tập dữ liệu khổng lồ được xử lý để tạo ra các mô hình. Điều này tốn kém cả về mặt tính toán lẫn năng lượng. 
  • Suy luận , nơi các mô hình được đào tạo được sử dụng để trả lời câu hỏi, đưa ra dự đoán hoặc tạo nội dung. Từng phần thì nhẹ hơn, nhưng khi kết hợp lại thì quy mô lại rất lớn. 

Cả hai giai đoạn đều tiêu thụ một lượng điện năng khổng lồ. Các trung tâm dữ liệu “lớn” truyền thống từng hoạt động ở mức 20–50 megawatt. Ngày nay, các cơ sở đào tạo AI có thể cần đến hàng trăm megawatt. Chỉ riêng một cơ sở 100 MW đã tiêu thụ lượng điện tương đương với khoảng 80.000 hộ gia đình ở Mỹ, dựa trên dữ liệu tiêu thụ điện hộ gia đình của Cơ quan Thông tin Năng lượng (EIA) . Đó là một lượng điện năng đáng kể. 

Không chỉ là về hệ thống làm mát

Khi chủ đề năng lượng và AI được nhắc đến, mọi người thường thích nhảy vào tìm giải pháp. Họ nghĩ đại loại như “chỉ cần thêm hệ thống làm mát bằng chất lỏng là ổn”. Không hẳn vậy. Làm mát rất quan trọng, nhưng hiệu suất còn liên quan đến nhiều thứ hơn là máy móc. 

Lợi ích thực sự đến khi các rào cản nội bộ được tháo gỡ. Các nhóm cơ sở vật chất, CNTT, bất động sản và khoa học dữ liệu thường tối ưu hóa một cách biệt lập. Nhưng khi các nhóm này thống nhất về hiệu suất, khả năng phục hồi và chi phí, mọi thứ trở nên thú vị. Trên thực tế, “Tôi nghĩ rằng có sự đổi mới công nghệ nhanh chóng hơn trong hai năm qua liên quan đến năng lượng và làm mát so với 25 năm trước”, Schmitt nói. Đó chính là sự tăng tốc mà các CIO nên chú ý. 

Làm mát bằng chất lỏng có ích, nhưng không dành cho tất cả mọi người

Làm mát bằng chất lỏng không còn là công nghệ xa lạ nữa. Ví dụ, Dell đã triển khai thế hệ thứ tư các giải pháp làm mát bằng chất lỏng, và nó đang trở nên thiết yếu cho các khối lượng công việc AI mật độ cao. Nhưng không phải ai cũng cần đến nó. Một số triển khai nặng về suy luận vẫn hợp lý với các giải pháp làm mát bằng không khí hoặc kết hợp. 

Vấn đề thực sự nằm ở tính linh hoạt. Như Tiến sĩ Kepner đã lưu ý, khách hàng cần sự chuẩn hóa trong làm mát bằng chất lỏng, để những khoản đầu tư hôm nay không trở thành vật cản giấy đắt đỏ vào ngày mai. 

Đã qua rồi cái thời mà tài sản 25 hoặc 30 năm được thiết kế đến một mức độ nhất định rồi lấp đầy.”

– Ty Schmitt, Phó chủ tịch & Nghiên cứu viên, Dell Technologies 

Ưu tiên sự linh hoạt thay vì kế hoạch 25 năm

Quan niệm cũ về việc thiết kế một trung tâm dữ liệu như một tài sản 25 năm đã lỗi thời. AI phát triển quá nhanh. Tính linh hoạt là điều bắt buộc để tồn tại. Như Schmitt đã nói,  Đã qua rồi cái thời mà một tài sản 25 hoặc 30 năm được thiết kế đến một điểm nhất định rồi lấp đầy.  Ông nói thêm rằng việc xây dựng các hệ thống với tính linh hoạt và các tùy chọn “sẽ mang lại lợi ích” khi khối lượng công việc phát triển: 

  • Các bước tăng dần theo mô-đun (2MW, 5MW, 10MW) cho phép các tổ chức mở rộng quy mô một cách tự tin 
  • Thiết kế linh hoạt giúp giảm cả CAPEX và OPEX 
  • Đào tạo nhân viên về kỹ thuật hiệu suất làm cho mỗi lần chạy và mỗi watt đều có giá trị 

Hãy nghĩ theo cách này: xây dựng để thích ứng, chứ không phải để trường tồn. Những gì hiệu quả hôm nay có thể sẽ lỗi thời sau năm năm, hoặc thậm chí năm tháng. 

Căn chỉnh các KPI từ phía tải đến phía đường dây

Đo lường là một thách thức khác thường bị bỏ qua. Các nhóm CNTT có thể đang theo đuổi một bộ số liệu trong khi cơ sở vật chất lại theo đuổi một bộ số liệu khác. Nếu không có sự đồng bộ, hiệu quả sẽ không được cải thiện. 

Chìa khóa nằm ở việc cân bằng giữa tải (khối lượng công việc, mô hình, ứng dụng) và đường truyền ( cung cấp điện, làm mát). Mỗi watt điện cần gắn liền với hiệu suất, và mỗi đô la phải gắn liền với hiệu quả. Hay nói cách khác, bạn không thể tối ưu hóa những gì bạn không đo lường.  

Tại sao điều này quan trọng đối với tất cả các ngành công nghiệp

Thật hấp dẫn khi coi tất cả những điều này như một mối quan tâm nhỏ của các CIO và kiến ​​trúc sư trung tâm dữ liệu. Nhưng những hệ thống ngốn năng lượng này không chỉ tạo ra các chatbot hay công cụ đề xuất tốt hơn. Chúng còn tạo ra những đột phá trong y học , khoa học vật liệu và chuỗi cung ứng toàn cầu .