Chế ngự vụ nổ kỷ Cambri của máy gia tốc bằng Omnia

Chúng ta đang ở giữa thời kỳ phục hưng của máy gia tốc máy tính. Vô số công ty tăng tốc phần cứng mới đang mọc lên với các kiến ​​trúc và mô hình thực thi mới để tăng tốc khối lượng công việc mô phỏng và trí tuệ nhân tạo (AI), mỗi công ty đều có lợi thế rõ ràng so với các công ty khác. Nhiều người vẫn đang ở trong tình trạng lén lút, một số đã được công chúng biết đến, một số khác đã bắt đầu bán phần cứng và một số khác vẫn bị nuốt chửng bởi những người chơi lớn hơn, có uy tín hơn. Hoạt động điên cuồng này trong không gian phần cứng, được thúc đẩy bởi sự phát triển của AI như một cách để khai thác giá trị lớn hơn từ dữ liệu mới và dữ liệu hiện có, đã khiến một số người ví nó với “Vụ bùng nổ kỷ Cambri”, khi sự sống trên Trái đất đa dạng hóa với tốc độ chưa từng có. nhìn thấy trước hoặc kể từ đó.

Nếu bạn đang kinh doanh trong lĩnh vực hỗ trợ và duy trì cơ sở hạ tầng cho điện toán hiệu năng cao và AI, thì kiểu đa dạng hóa nhanh chóng này có thể đáng sợ. Làm cách nào để xử lý tất cả các thành phần phần cứng mới này? Làm cách nào để quản lý tất cả các trình điều khiển thiết bị? Còn tất cả các plugin và toán tử thiết bị cần thiết để làm cho chúng hoạt động trong môi trường được điều phối vùng chứa của tôi thì sao? Các nhà khoa học dữ liệu và nhà nghiên cứu máy tính thường muốn có công nghệ mới nhất, nhưng việc đưa nó vào sản xuất gần như là điều không thể. Nó đủ để khiến các quản trị viên hệ thống HPC/AI thao thức suốt đêm.

Tại Dell Technologies, chúng tôi hiện cung cấp nhiều công nghệ tăng tốc khác nhau trong danh mục máy chủ PowerEdge của mình, từ Bộ xử lý đồ họa (GPU) với nhiều kích cỡ cho đến các bộ tăng tốc dựa trên Mảng cổng lập trình trường (FPGA). Và thậm chí còn nhiều hơn thế nữa. Chúng tôi hiểu rằng việc quản lý tất cả các phần cứng khác nhau này có thể là một nhiệm vụ khó khăn – đó là điều chúng tôi làm hàng ngày trong Phòng thí nghiệm Đổi mới HPC & AI của Dell Technologies. Vì vậy, chúng tôi đã phát triển một cơ chế phát hiện, xác định và triển khai các công nghệ tăng tốc khác nhau theo cách tự động, giúp chúng tôi đơn giản hóa những vấn đề đau đầu về triển khai của chính mình. Và chúng tôi đã tích hợp khả năng đó vào Omnia, một dự án triển khai cụm hiệu suất cao dựa vào cộng đồng, nguồn mở do Dell Technologies và Intel khởi xướng.

Phát hiện và cài đặt bộ tăng tốc thời gian triển khai

Chúng tôi nhận thấy rằng các cụm hiệu suất cao trong tương lai sẽ không hoàn toàn đồng nhất, bao gồm các bản sao chính xác của cùng một khối xây dựng điện toán được sao chép hàng chục, hàng trăm hoặc hàng nghìn lần. Thay vào đó, các cụm đang trở nên không đồng nhất hơn, bao gồm hàng chục cấu hình máy chủ khác nhau, tất cả được gắn với nhau dưới một bộ lập lịch hoặc bộ điều phối vùng chứa duy nhất (hoặc trong một số trường hợp – nhiều).

Tính không đồng nhất này có thể là một vấn đề đối với nhiều công cụ triển khai cụm ngày nay, dựa trên khái niệm “hình ảnh vàng” – một hình ảnh hoàn chỉnh về hệ điều hành, trình điều khiển phần cứng và ngăn xếp phần mềm của máy chủ. Mô hình hình ảnh vàng cực kỳ hữu ích trong nhiều môi trường, chẳng hạn như triển khai đồng nhất và không cần đĩa. Nhưng trong các cụm của ngày mai, những cụm sẽ cố gắng nắm bắt tiềm năng đáng kinh ngạc của sự đa dạng phần cứng này, mô hình hình ảnh vàng sẽ trở nên khó quản lý.

Thay vào đó, Omnia không dựa vào hình tượng vàng. Chúng tôi coi việc triển khai cụm giống như in 3D – nhanh chóng đặt từng lớp thành phần phần mềm và khả năng lên trên phần cứng cho đến khi khối xây dựng máy chủ chức năng xuất hiện. Điều này cho phép chúng tôi, bằng cách sử dụng một số tính năng phát hiện và logic thông minh, để xây dựng các ngăn xếp phần mềm dành riêng cho từng khối xây dựng máy chủ; theo yêu cầu, tại thời điểm triển khai. Theo quan điểm của Omnia, thực sự không có sự khác biệt giữa việc triển khai một máy chủ điện toán không có bộ tăng tốc vào một cụm so với việc triển khai một máy chủ điện toán có GPU hoặc FPGA vào cùng cụm đó. Chúng tôi chỉ cần chọn các lớp thành phần khác nhau trong quá trình này.

Điều này có ý nghĩa gì đối với việc triển khai cụm?

Điều đó có nghĩa là các cụm giờ đây có thể được xây dựng từ nhiều khối xây dựng máy chủ không đồng nhất, tất cả được quản lý cùng nhau như một thực thể duy nhất. Thay vì một cụm máy chủ CPU, một cụm máy chủ tăng tốc GPU khác và một cụm máy chủ tăng tốc FPGA khác, các tổ chức nghiên cứu và CNTT HPC có thể quản lý một tài nguyên duy nhất với tất cả các loại công nghệ khác nhau mà người dùng của họ yêu cầu, tất cả được kết nối bằng một kết cấu mạng thống nhất và chia sẻ một bộ giải pháp lưu trữ hợp nhất.

Và bằng cách sử dụng Omnia, quá trình triển khai các cụm khối xây dựng không đồng nhất đã được đơn giản hóa đáng kể. Bất kể tổ chức muốn sử dụng bao nhiêu loại khối xây dựng trong cụm thế hệ tiếp theo của họ, tất cả đều có thể được triển khai bằng cách sử dụng cùng một cách tiếp cận và cùng một lúc. Không cần xây dựng hình ảnh đặc biệt cho loại máy chủ này, loại máy chủ kia, chỉ cần bắt đầu quá trình triển khai Omnia và hệ thống triển khai phần mềm thông minh của Omnia sẽ thực hiện phần việc còn lại.