Trình điều khiển máy khách đa đường dẫn PowerScale và khả năng kích hoạt AI

Trình điều khiển máy khách đa đường dẫn PowerScale và khả năng kích hoạt AI

Để đạt được thành công với mô hình AI lớn, việc tùy chỉnh, suy luận, đào tạo và GPU yêu cầu dữ liệu được cung cấp cho chúng một cách nhanh chóng và hiệu quả. Tính toán và lưu trữ phải được thiết kế và cung cấp phù hợp để loại bỏ các nút thắt cổ chai tiềm ẩn trong cơ sở hạ tầng.

Để đáp ứng nhu cầu này, trình điều khiển máy khách đa đường dẫn PowerScale mới cho phép tổng hợp hiệu suất của nhiều nút PowerScale thông qua một điểm gắn kết NFS duy nhất tới một hoặc nhiều nút tính toán. Do đó, trình điều khiển này, kết hợp với hỗ trợ OneFS GPUDirect, đã cho phép Dell cung cấp giải pháp lưu trữ Ethernet đầu tiên được chứng nhận cho DGX SuperPOD của NVIDIA.

Đồ họa minh họa công nghệ NVIDIA SuperPOD.

SuperPOD là kiến ​​trúc trung tâm dữ liệu được tối ưu hóa bằng AI, cung cấp sức mạnh tính toán mạnh mẽ cần thiết để đào tạo các mô hình học sâu (DL) ở quy mô lớn, rút ​​ngắn thời gian đạt được kết quả thúc đẩy đổi mới trong tương lai.

Sử dụng khả năng tính toán dựa trên GPU DGX A100, B200 hoặc H200 kết hợp với lớp lưu trữ cụm PowerScale F710, SuperPOD của NVIDIA có thể mang lại hiệu suất đột phá. 

Được triển khai như một hệ thống có khả năng mở rộng tích hợp hoàn toàn, SuperPOD được xây dựng có mục đích để giải quyết các vấn đề tính toán đầy thách thức trên nhiều khối lượng công việc AI khác nhau. Bao gồm hợp lý hóa chuỗi cung ứng, xây dựng các mô hình ngôn ngữ lớn và trích xuất thông tin chi tiết từ hàng petabyte dữ liệu phi cấu trúc.

Đồ họa mô tả kiến ​​trúc NVIDIA SuperPOD kết nối Ethernet với cụm Dell PowerScale F710 làm lớp lưu trữ.

Lớp vỏ hiệu suất do DGX SuperPOD cung cấp cho phép đào tạo đa nút nhanh chóng các LLM ở quy mô đáng kể. Phương pháp tiếp cận tích hợp này về cung cấp, quản lý, tính toán, kết nối mạng và lưu trữ nhanh, cho phép một hệ thống đa dạng có thể trải dài từ phân tích dữ liệu, phát triển mô hình và suy luận AI, cho đến các khối lượng công việc AI dựa trên máy biến áp lớn nhất, phức tạp nhất, hệ thống học sâu và các mô hình AI tạo ra nghìn tỷ tham số.

Để thúc đẩy thông lượng cần thiết cho các triển khai NVIDIA SuperPOD lớn hơn, kết nối máy khách NFS với cụm PowerScale cần sử dụng cả RDMA và nconnect, ngoài GPUDirect. 

Mặc dù ngăn xếp NFS gốc của Linux hỗ trợ việc sử dụng chúng, nhưng nó không cho phép cấu hình nconnect và RDMA cùng lúc.

Để giải quyết vấn đề này, trình điều khiển đa đường dẫn cho phép các máy khách NFS Linux sử dụng RDMA kết hợp với các tùy chọn gắn kết nconnect, đồng thời tăng giới hạn nconnect tối đa từ 16 lên 64 kết nối. Ngoài ra, giải pháp SuperPOD yêu cầu sử dụng tùy chọn gắn kết NFS ‘localports_failover’, hiện chỉ hoạt động với RDMA.

Trình điều khiển máy khách đa đường dẫn của Dell có thể mang lại lợi ích đáng kể về hiệu suất cho các khối lượng công việc có luồng đọc và ghi đến và đi từ các máy chủ công suất cao riêng lẻ, đặc biệt là nhiều tệp trong một lần gắn kết NFS duy nhất – ngoài các khối lượng công việc AI SuperPOD và BasePOD. Ngược lại, các luồng tệp đơn lẻ và nhiều lần ghi đồng thời vào cùng một tệp trên nhiều nút thường không được hưởng lợi đáng kể từ trình điều khiển đa đường dẫn.

Nếu không có trình điều khiển máy khách đa đường dẫn, một điểm gắn NFS duy nhất chỉ có thể định tuyến đến một địa chỉ IP của nút lưu trữ PowerScale.

Đồ họa cho thấy nếu không có trình điều khiển máy khách đa đường dẫn, một điểm gắn NFS duy nhất chỉ có thể định tuyến đến một địa chỉ IP của nút lưu trữ PowerScale.

Ngược lại, trình điều khiển đa đường dẫn cho phép các máy khách NFS chuyển hướng I/O tới nhiều nút PowerScale để có thông lượng tổng hợp cao hơn cho một máy khách duy nhất. 

Đồ họa hiển thị trình điều khiển đa đường dẫn cho phép một điểm gắn kết NFS duy nhất định tuyến đến nhiều địa chỉ IP của nút.

Trình điều khiển đa đường dẫn cho phép một điểm gắn kết NFS duy nhất định tuyến đến nhiều địa chỉ IP của nút. Một nhóm địa chỉ IP bao gồm một máy khách NFS logic với điểm cuối từ xa (cụm) sử dụng nhiều máy từ xa (nút), triển khai kiến ​​trúc máy chủ phân tán.

Các tùy chọn gắn kết NFS chính cần quan tâm với trình điều khiển máy khách đa đường dẫn là: 

Tùy chọn gắn kết Sự miêu tả
kết nối Cho phép quản trị viên chỉ định số lượng kết nối TCP mà máy khách có thể thiết lập giữa chính nó và máy chủ NFS. Nó hoạt động với remoteport để phân bổ tải trên nhiều giao diện mục tiêu.
cảng địa phương Tùy chọn gắn kết cho phép máy khách sử dụng nhiều NIC của mình để ghép kênh I/O.
localports_chuyển đổi dự phòng Tùy chọn gắn kết cho phép vận chuyển tạm thời từ các giao diện máy khách cục bộ không thể phục vụ kết nối NFS.
nguyên mẫu Giao thức vận chuyển cơ bản mà NFS mount sẽ sử dụng. Thông thường là TCP hoặc RDMA.
cổng từ xa Tùy chọn gắn kết cho phép máy khách nhắm mục tiêu nhiều máy chủ/NICS để ghép kênh I/O. Remoteports phân bổ tải cho nhiều trình xử lý tệp thay vì chỉ xử lý một tệp để tránh phải xử lý khóa.
phiên bản Phiên bản giao thức NFS sẽ được sử dụng. Trình điều khiển đa đường dẫn hỗ trợ NFSv3, NFSv4.1 và NFSv4.2. Lưu ý rằng NFSv4.0 không được hỗ trợ.

Ngoài ra còn có một số tùy chọn gắn kết nâng cao có thể hữu ích để tăng thêm một số thông lượng, đặc biệt là với các triển khai SuperPOD. Các tùy chọn này bao gồm ‘remoteport offsets’, có thể giúp tải bộ đệm L1 và ‘spread reads and writes’, có thể hỗ trợ cân bằng tải. 

Trình điều khiển đa đường dẫn của Dell có sẵn để tải xuống trên Trang hỗ trợ của Dell cho bất kỳ khách hàng nào có quyền OneFS:

https://www.dell.com/support/home/en-us/product-support/product/isilon-onefs/drivers

Không có yêu cầu cấp phép cho trình điều khiển này, cũng không tính phí, và nó được cung cấp dưới dạng cả gói Linux dựng sẵn và mã nguồn tương thích với khách hàng. Có một tệp README đi kèm với mã cung cấp hướng dẫn cơ bản.

Trình điều khiển máy khách đa đường dẫn này chạy trên cả máy vật lý và máy ảo, và trên một số bản phân phối Linux phổ biến. Ma trận sau đây hiển thị các biến thể hiện được hỗ trợ, cùng với tính khả dụng của gói trình điều khiển được biên dịch trước và/hoặc tùy chọn tự biên dịch.

Phân phối Linux Phiên bản hạt nhân Phiên bản trình điều khiển thượng nguồn (tối thiểu) Phiên bản trình điều khiển đa đường dẫn Bưu kiện

có sẵn

Bản thân-

biên soạn

Mở SUSE 15.4 5.14.x 4.x 1.x ü ü
Ubuntu 20.04 5.4.x 4.x 1.x ü ü
Ubuntu 22.04 5.15.x 4.x 1.x ü ü

Mặc dù phiên bản phát hành chính của trình điều khiển đa đường dẫn—1.x—là chính xác trong bảng, số phát hành chữ số thứ hai sẽ thường xuyên được tăng lên khi các phiên bản cập nhật của trình điều khiển máy khách đa đường dẫn được phát hành. 

Theo thiết kế, trình điều khiển đa đường dẫn chỉ hỗ trợ các phiên bản mới hơn và mới nhất của các bản phân phối Linux phổ biến. Các phiên bản hạt nhân Linux cũ hơn thường không hỗ trợ đầy đủ chức năng máy khách NFS, đặc biệt là đối với các tùy chọn cấu hình gắn kết ‘–remoteports’ và/hoặc ‘–localports’. Ngoài ra, các phiên bản Linux cũ hơn và hết vòng đời thường có thể gây ra các rủi ro bảo mật đáng kể, đặc biệt là khi các bản vá lỗ hổng và bản sửa lỗi nóng hiện tại không còn khả dụng nữa.

Cả kiến ​​trúc CPU x86 và nền tảng dựa trên GPU, chẳng hạn như dòng NVIDIA DGX, đều được hỗ trợ.

Hệ thống Linux Loại bộ xử lý Ví dụ
Thuộc vật chất Bộ vi xử lý Dell PE R760
Thuộc vật chất Bộ xử lý đồ họa Dell PE XE9680        

NVIDIA DGX H100

Máy ảo Bộ vi xử lý VMware ESXi
Máy ảo Bộ xử lý đồ họa VMware vDGA

Mặc dù không có cấu hình lõi NFS hoặc OneFS cụ thể nào được yêu cầu ở phía cụm PowerScale để hỗ trợ trình điều khiển đa đường dẫn, nhưng vẫn có một số điều kiện tiên quyết cơ bản. Ma trận hỗ trợ OneFS sau đây ở góc trên bên phải của trang chiếu này trình bày chức năng trình điều khiển nào có sẵn trong bản phát hành nào, từ OneFS 9.5 đến phiên bản hiện tại. 

Phiên bản NFSv3, NFSv4.1 TCP NFSv3 RDMA NFSv4.1 RDMA NVIDIA SuperPOD
OneFS 9.5
X X
OneFS 9.7
X
OneFS 9.9

Ngoài ra, lưu ý rằng OneFS 9.9 là bắt buộc đối với bất kỳ triển khai NVIDIA SuperPOD nào vì có một số tối ưu hóa hiệu suất trong 9.9 dành riêng cho nền tảng đó.

Ngoài ra, cả nhóm mạng động và tĩnh đều có thể được cấu hình trên cụm để sử dụng với trình điều khiển đa đường dẫn. Nếu các nút F710 đang được triển khai trong cụm, thì cần có OneFS 9.7 trở lên.

Lưu ý rằng khi triển khai giải pháp NVIDIA SuperPOD hoặc BasePOD, kiến ​​trúc tham chiếu yêu cầu phải có cụm PowerScale bao gồm các nút F710 toàn flash chạy OneFS 9.9 trở lên.

Để máy khách Linux có thể kết nối thành công với cụm PowerScale bằng trình điều khiển đa đường dẫn thì hiện tại máy khách đó phải chạy một trong các phiên bản Linux sau:

Phân phối Linux được hỗ trợ Phiên bản hạt nhân
Mở SUSE 15.4 5.14.x
Ubuntu 20.04 5.4.x
Ubuntu 22.04 5.15.x

Theo thiết kế, trình điều khiển đa đường dẫn chỉ hỗ trợ các phiên bản mới hơn và mới nhất của các bản phân phối Linux phổ biến. Các hạt nhân Linux cũ hơn thường không bao gồm chức năng máy khách NFS đầy đủ, đặc biệt là đối với các tùy chọn gắn kết ‘–remoteports’ và ‘–localports’. Bạn cũng có thể nhận thấy sự vắng mặt đáng chú ý của Red Hat Enterprise Linux khỏi ma trận này. Tuy nhiên, kỹ thuật dự kiến ​​sẽ hỗ trợ cả RHEL 8 và 9 trong phiên bản tương lai gần.

Ngoài ra còn có một số điều kiện tiên quyết bổ sung của khách hàng phải được đáp ứng:

  • Nếu RDMA được cấu hình, máy khách phải có NIC Ethernet hỗ trợ RDMA, chẳng hạn như dòng Mellanox CX.
  • Máy khách Linux phải cài đặt gói ‘trace-cmd’ cùng với các gói liên quan đến máy khách NFS.