Thiết kế được Dell xác thực cho Bộ lưu trữ HPC pixstor ( 9 )

Cấp PowerEdge R650 NVMe

Tổng quan

Đối với máy chủ PowerEdge R650, mỗi máy chủ có 10 thiết bị NVMe được kết nối trực tiếp, sáu thiết bị với CPU trong Ổ cắm #1 và bốn thiết bị cho CPU trong ổ cắm #2 (cấu hình này không phải là cấu hình cân bằng về miền NUMA) và hai HCAs Mellanox Bộ điều hợp ConnectX-6 Cổng đơn VPI HDR 200 Gbps (một cho mỗi ổ cắm CPU). Đối với cấu hình được đặc trưng, ​​chúng tôi đã sử dụng thiết bị Dell AG 1.6 TB (PM1735) PCIe4. Bất kỳ thiết bị NVMe nào được hỗ trợ trên máy chủ PowerEdge R650 đều được hỗ trợ cho các nút NVMe này. Cả hai giao diện CX6 đều được sử dụng tích cực để di chuyển dữ liệu, sao chép NSD NVMe và làm kết nối cho hệ thống tệp tới máy khách. Ngoài ra, chúng cung cấp khả năng dự phòng phần cứng ở cấp độ bộ điều hợp, cổng và cáp, nhưng hiệu suất bị ảnh hưởng nếu chỉ có một bộ điều hợp hoạt động. Cổng nối tiếp là tùy chọn.

Hình 26.    Nút tầng R650 NVMe – Phân bổ vị trí

 

PowerEdge R650 Hiệu suất IOzone tuần tự N máy khách đến N tệp

Chúng tôi đã đo lường hiệu suất N máy khách tuần tự đến N tệp với IOzone phiên bản 3.492. Các bài kiểm tra mà chúng tôi đã chạy đa dạng từ một luồng đơn lẻ cho đến 1024 luồng.

Chúng tôi đã sử dụng các tệp đủ lớn để giảm thiểu tác động của bộ nhớ đệm, với tổng kích thước dữ liệu là 8 TiB, gấp đôi tổng kích thước bộ nhớ của máy chủ và máy khách. GPFS đặt nhóm trang có thể điều chỉnh thành dung lượng bộ nhớ tối đa được sử dụng để lưu vào bộ đệm ẩn dữ liệu, bất kể dung lượng RAM được cài đặt và dung lượng trống (đặt thành 32 GiB trên máy khách và 96 GiB trên máy chủ để cho phép tối ưu hóa I/O). Trong khi ở các giải pháp HPC khác của Dell, kích thước khối cho các lần truyền tuần tự lớn là 1 MiB, thì GPFS được định dạng với kích thước khối là 8 MiB; do đó, hãy sử dụng giá trị đó hoặc bội số của nó trên điểm chuẩn để có hiệu suất tối ưu. Kích thước khối 8 MiB có vẻ quá lớn và lãng phí quá nhiều dung lượng khi sử dụng các tệp nhỏ, nhưng GPFS sử dụng phân bổ khối con để ngăn tình trạng đó. Trong cấu hình hiện tại, mỗi khối được chia thành 512 khối con, mỗi khối 16 KiB.

Các lệnh sau đây được sử dụng để chạy điểm chuẩn cho các hoạt động đọc và ghi, trong đó biến Chủ đề là số lượng luồng được sử dụng (1 đến 1024 tăng dần theo lũy thừa của 2) và danh sách luồng là tệp phân bổ mỗi luồng trên một nút khác nhau, sử dụng phương pháp vòng tròn để trải chúng đồng nhất trên 16 nút tính toán. Biến FileSize có kết quả là 8192 (GiB)/Chủ đề để chia đều tổng kích thước dữ liệu cho tất cả các luồng được sử dụng. Kích thước truyền 16 MiB đã được sử dụng cho đặc tính hiệu suất này.

./iozone -i0 -c -e -w -r 16M -s ${FileSize}G -t $Threads -+n -+m ./threadlist

./iozone -i1 -c -e -w -r 16M -s ${FileSize}G -t $Threads -+n -+m ./threadlist

Hình 27.    Hiệu suất tuần tự từ N đến N

Từ kết quả, chúng tôi thấy rằng hiệu suất đọc đạt mức ổn định khoảng 180 GB/giây ở 32 luồng và cao nhất ở 64 luồng với 180,8 GB/giây, mức tăng đáng kể so với thế hệ máy chủ PowerEdge R640 trước đó với NVMe Gen 3 có tốc độ ổn định khoảng 80 GB/giây cho cùng số lượng nút NVMe (4).

Hiệu suất ghi đạt mức ổn định khoảng 40 GB/giây ở 16 luồng, với mức cao nhất là 40,2 GB/giây ở 16, 32 và 512 luồng. Hiệu suất ghi có thể trông thấp so với hiệu suất đọc, tuy nhiên, hãy xem xét hai yếu tố:

  • Sao chép đã được sử dụng để có một bản sao cho từng thiết bị NVMe (NSD) trên một máy chủ khác nhau cho mục đích HA, tạo ra một bản sao dữ liệu một cách hiệu quả. Chỉ một nửa số ổ NVMe đóng góp vào hiệu suất ghi, trong khi nửa còn lại trở thành chi phí cần thiết để sao chép dữ liệu.
  • Các mẫu NVMe PCIe 4 có sẵn cho các máy chủ tiền sản xuất được sử dụng trong dự án này bị hạn chế, vì vậy các thiết bị Dell OEM PM1735 1.6 TB PCIe4 đã được sử dụng trên giường thử nghiệm. Hiệu suất của thiết bị là 7.000 GB/giây cho thao tác đọc và 2.400 GB/giây cho thao tác ghi, bị giới hạn so với các thiết bị có dung lượng lớn hơn (thao tác đọc 7.000 GB/giây và thao tác ghi 3.800 GB/giây).

Cả kết quả đọc và ghi đều ổn định khi đạt đến mức ổn định, đây là một hành vi thuận lợi vì máy chủ không bị giảm hiệu suất khi số lượng luồng đồng thời sử dụng các tệp khác nhau tăng lên. Là một thử nghiệm trong tương lai và vì IOzone có giới hạn số luồng tối đa là 1024, IOR có thể được sử dụng để tìm giới hạn đối với các máy khách/tệp đồng thời (sau khi thêm nhiều máy khách hơn để tránh chuyển đổi ngữ cảnh trong các máy khách, ảnh hưởng đến hiệu suất).