Lưu trữ do HPC xác định bằng phần mềm với PixStor (5)

Đặc tính hiệu suất

Điểm chuẩn được chọn và giường thử nghiệm

Để mô tả các thành phần khác nhau của giải pháp lưu trữ PixStor, chúng tôi đã sử dụng phần cứng được chỉ định trong cột cuối cùng của Bảng 1, bao gồm mô-đun siêu dữ liệu có nhu cầu cao tùy chọn. Để đánh giá hiệu suất của giải pháp, các điểm chuẩn sau đã được chọn:

  • IOzone N đến N tuần tự
  • IOR N đến 1 tuần tự
  • IOzone N đến N ngẫu nhiên
  • MDtest cho siêu dữ liệu

Đối với tất cả các điểm chuẩn được liệt kê ở trên, giường thử nghiệm có các ứng dụng khách như được mô tả trong Bảng 2 bên dưới, ngoại trừ việc thử nghiệm các nút cổng. Vì số lượng nút điện toán có sẵn để thử nghiệm chỉ là 16, nên khi cần số lượng luồng cao hơn, các luồng đó sẽ được phân bổ đồng đều trên các nút điện toán (nghĩa là 32 luồng = 2 luồng trên mỗi nút, 64 luồng = 4 luồng trên mỗi nút, 128 luồng = 8 luồng trên mỗi nút, 256 luồng = 16 luồng trên mỗi nút, 512 luồng = 32 luồng trên mỗi nút, 1024 luồng = 64 luồng trên mỗi nút). Mục đích là để mô phỏng số lượng máy khách đồng thời cao hơn với số lượng nút tính toán hạn chế. Do điểm chuẩn hỗ trợ số lượng lớn luồng nên giá trị tối đa lên tới 512 đã được sử dụng dựa trên số lượng lõi có sẵn trên các nút máy khách.

Các phiên bản phần mềm được liệt kê Bảng 2 đã được sử dụng trên các nút máy khách.

Bảng 2. Giường thử nghiệm máy khách InfiniBand     

Yếu tố

Cấu hình

Số nút máy khách

16

nút máy khách

C6420

Bộ xử lý trên mỗi nút máy khách

Tám nút với 2 x Intel Xeon Gold 6230 20 Cores @ 2.1GHz

Tám nút với 2 x Intel Xeon Gold 6148 20 Cores @ 2.40GHz

Bộ nhớ trên mỗi nút máy khách

Tám nút (6230) với 12 x 16GiB 2933 MT/s RDIMM

Tám nút (6148) với 12 x 16GiB 2666 MT/s RDIMM

BIOS

2.8.2

Hệ điều hành

CentOS 7.9

nhân hệ điều hành

3.10.0-1160.el7.x86_64

Phần mềm PixStor

6.0.0.0

Thang đo phổ (GPFS)

5.1.1-2

phiên bản OFED

MLNX_OFED_LINUX-5.4-1.0.3.0

CX6 FW

Tám nút (CPU 6230) với một cổng Mellanox CX6: 20.31.1014

Tám nút (CPU 6148) với một cổng Dell OEM CX6: 20.28.4512

Giải pháp lưu trữ PixStor với mô-đun siêu dữ liệu nhu cầu cao mà không cần mở rộng dung lượng PowerVault ME484s

Điểm chuẩn ban đầu này sử dụng cấu hình lớn (hai máy chủ R750 được kết nối với bốn Powervault ME4084) với mô-đun HDMD tùy chọn (hai PowerEdge R750) sử dụng một mảng PowerVault ME4024. Các phiên bản phần mềm được liệt kê trong Bảng 1 và bảng 2.

 

Hiệu suất IOzone tuần tự N Máy khách đến N tệp

Hiệu suất của N máy khách liên tiếp đến N tệp được đo bằng IOzone phiên bản 3.492. Các thử nghiệm được thực hiện đa dạng từ một luồng cho đến 512 luồng.

Hiệu ứng bộ nhớ đệm được giảm thiểu bằng cách sử dụng các tệp đủ lớn để tránh nó, với tổng kích thước dữ liệu là 8 TiB, gấp hơn hai lần tổng kích thước bộ nhớ của máy chủ và máy khách. Điều quan trọng cần lưu ý là GPFS sử dụng nhóm trang có thể điều chỉnh để đặt dung lượng bộ nhớ tối đa được sử dụng cho bộ nhớ đệm dữ liệu, bất kể dung lượng RAM được cài đặt và dung lượng trống (được đặt thành 32 GiB trên máy khách và 96 GiB trên máy chủ để cho phép tối ưu hóa I/O ). Cũng cần lưu ý rằng trong khi ở các giải pháp HPC khác của Dell Technologies, kích thước khối cho các lần truyền tuần tự lớn là 1 MiB, thì GPFS được định dạng với kích thước khối là 8 MiB và do đó, giá trị đó hoặc bội số của giá trị đó nên được sử dụng trên điểm chuẩn cho hiệu suất tối ưu. Kích thước khối 8 MiB có thể trông quá lớn, tuy nhiên GPFS sử dụng phân bổ khối con. Trong cấu hình hiện tại,

Các lệnh sau được sử dụng để thực thi điểm chuẩn cho ghi và đọc, trong đó Chủ đề là biến có số lượng luồng được sử dụng (1 đến 512 tăng dần theo lũy thừa của hai) và danh sách luồng là tệp phân bổ mỗi luồng trên một nút khác nhau, sử dụng luân phiên tuần tự để trải đều chúng trên 16 nút điện toán. Biến FileSize có kết quả là 8192 (GiB)/Luồng để chia đều tổng kích thước dữ liệu cho tất cả các luồng được sử dụng. Kích thước truyền 16 MiB đã được sử dụng cho đặc tính hiệu suất này.

./iozone -i0 -c -e -w -r 16M -s ${FileSize}G -t $Threads -+n -+m ./threadlist

./iozone -i1 -c -e -w -r 16M -s ${FileSize}G -t $Threads -+n -+m ./threadlist

Hiệu suất tuần tự N đến N

Hình 15. Hiệu suất tuần tự từ N đến N

Từ kết quả, chúng tôi có thể nhận thấy rằng hiệu suất Đọc cao hơn ở số lượng luồng thấp (>10%) với mức cao nhất ở 4 luồng, cao hơn gần 18% so với PixStor 5 và sau đó chỉ cao hơn một chút so với những gì quan sát được với PixStor 5, với hiệu suất giảm nhẹ ở 1024 luồng. Hiệu suất ghi gần như giống nhau đối với luồng 1 & 2, sau đó ở luồng 4, Nó cao hơn 24% so với PixStor 5 và đạt đến mức ổn định cao nhất và duy trì cao hơn khoảng 20% ​​so với PixStor 5 cho đến khi số luồng tối đa mà IOzone đạt được đã đạt đến mức cho phép và hiệu suất giảm xuống một chút ở 1024 luồng (vì chỉ có 640 lõi trong các nút, điều này có thể là do chi phí đăng ký quá mức). Lưu ý rằng hiệu suất đọc cao nhất là 23 GB/giây ở 32 luồng và hiệu suất ghi cao nhất là 20,5 đạt được ở 64 luồng.

Điều quan trọng cần nhớ là chế độ hoạt động ưa thích của GPFS bị phân tán và giải pháp được định dạng để sử dụng nó. Trong chế độ này, các khối được phân bổ ngay từ đầu theo kiểu giả ngẫu nhiên, trải rộng dữ liệu trên toàn bộ bề mặt của mỗi ổ cứng. Mặc dù nhược điểm rõ ràng là hiệu suất tối đa ban đầu nhỏ hơn, nhưng hiệu suất đó khá ổn định, bất kể bao nhiêu dung lượng được sử dụng trên hệ thống tệp.  Trái ngược với các hệ thống tệp song song khác sử dụng các rãnh bên ngoài để chứa nhiều dữ liệu (khung) hơn trên mỗi vòng quay của đĩa và do đó, ổ cứng có thể mang lại hiệu suất cao nhất có thể, vì hệ thống sử dụng nhiều không gian hơn, các rãnh bên trong có ít dữ liệu hơn trên mỗi vòng quay là được sử dụng, với hậu quả là giảm hiệu suất. GPFS cũng hỗ trợ hệ thống phân bổ đó (nó được gọi là phân cụm), nhưng nó chỉ được sử dụng trên giải pháp lưu trữ PixStor như một ngoại lệ trong các triển khai có điều kiện đặc biệt.

 

Hiệu suất IOR tuần tự N Khách hàng cho 1 tệp

Hiệu suất của các máy khách N tuần tự cho một tệp được chia sẻ duy nhất được đo bằng IOR phiên bản 3.3.0, được hỗ trợ bởi OpenMPI v4.1.2A1 để chạy điểm chuẩn trên 16 nút điện toán. Các thử nghiệm được thực hiện khác nhau từ một luồng cho đến 512 luồng do không có đủ lõi cho 1024 luồng (16 máy khách có tổng cộng 16 x2 x 20 = 640 lõi) và chi phí đăng ký quá mức rõ ràng đã ảnh hưởng đến kết quả IOzone ở 1024 luồng.

Hiệu ứng bộ nhớ đệm được giảm thiểu bằng cách đặt nhóm trang GPFS có thể điều chỉnh thành 32GiB trên máy khách và 96 GiB trên máy chủ, đồng thời sử dụng tổng kích thước dữ liệu là 8 TiB, nhiều hơn gấp đôi kích thước RAM từ máy chủ và máy khách cộng lại. Kích thước truyền 16 MiB đã được sử dụng cho đặc tính hiệu suất này. Phần kiểm tra hiệu suất trước đó có giải thích đầy đủ hơn cho những vấn đề đó.

Các lệnh sau được sử dụng để thực thi điểm chuẩn, trong đó Chủ đề là số lượng chủ đề được sử dụng (1 đến 512 tăng dần theo lũy thừa của hai) và my_hosts.$Threads là tệp tương ứng đã phân bổ từng luồng trên một nút khác nhau, sử dụng vòng tuần tự -robin để trải đều chúng trên 16 nút tính toán. Biến FileSize có kết quả là 8192 (GiB)/Luồng để chia đều tổng kích thước dữ liệu cho tất cả các luồng được sử dụng.

mpirun –allow-run-as-root -np $Threads –hostfile my_hosts.$Threads –mca btl_openib_allow_ib 1 –mca pml ^ucx –oversubscribe –prefix /usr/mpi/gcc/openmpi-4.1.2a1 /usr/local/bin/ior -a POSIX -v -i 1 -d 3 -e -k -o /mmfs1/perftest/ior/tst.file -w -s 1 -t 16m -b ${FileSize}G

mpirun –allow-run-as-root -np $Threads –hostfile my_hosts.$Threads –mca btl_openib_allow_ib 1 –mca pml ^ucx –oversubscribe –prefix /usr/mpi/gcc/openmpi-4.1.2a1 /usr/local/bin/ior -a POSIX -v -i 1 -d 3 -e -k -o /mmfs1/perftest/ior/tst.file -r -s 1 -t 16m -b ${FileSize}G

Hiệu suất tuần tự N đến 1

Hình 16. Hiệu suất tuần tự từ N đến 1

Từ kết quả, một lần nữa chúng ta có thể quan sát thấy rằng PixStor 6 có hiệu suất đọc tương tự và hiệu suất ghi tốt hơn so với PixStor 5, nhưng trong trường hợp này, hiệu suất đó tăng rất nhanh đối với các lần đọc cùng với số lượng máy khách được sử dụng và sau đó đạt đến mức ổn định là bán ổn định đối với số lần đọc và rất ổn định đối với số lần ghi đối với số lượng luồng tối đa được sử dụng trong bài kiểm tra này. Do đó, hiệu suất tuần tự của tệp được chia sẻ đơn lớn ổn định ngay cả đối với 512 luồng đồng thời. Lưu ý rằng hiệu suất đọc tối đa là 23,8 GB/giây ở 16 luồng. Ngoài ra, hiệu suất đọc giảm từ giá trị đó cho đến khi đạt mức ổn định khoảng 21 GB/giây, với mức giảm tạm thời dưới 21 GB/giây ở 64 và 128 luồng. Tương tự, lưu ý rằng hiệu suất ghi tối đa là 20,4 đạt được ở 64 luồng và tốt hơn nhiều so với kết quả của PixStor 5,.