Dell Validated Design cho HPC pixstor Storage—Giải pháp chung với Kalray (10)

PowerEdge R650 Hiệu suất IOR tuần tự N máy khách thành 1 tệp

Hiệu suất của N máy khách tuần tự cho một tệp chia sẻ duy nhất được đo bằng IOR phiên bản 3.3.0, với OpenMPI 4.1.4rc1 để chạy điểm chuẩn trên 16 nút điện toán. Các thử nghiệm mà chúng tôi đã chạy đa dạng từ một luồng đơn lên đến 512 luồng vì không có đủ lõi cho 1024 luồng (16 máy khách có tổng cộng 16 x 2 x 20 = 640 lõi). Ngoài ra, chi phí đăng ký quá mức ảnh hưởng một chút đến kết quả ở 1024 luồng.

Chúng tôi đã giảm thiểu bộ nhớ đệm bằng cách đặt nhóm trang GPFS có thể điều chỉnh thành 32 GiB trên máy khách và 96 GiB trên máy chủ, đồng thời sử dụng tổng kích thước dữ liệu là 8 TiB, gấp đôi kích thước RAM từ máy chủ (bốn nút R650) và máy khách cộng lại. Chúng tôi đã sử dụng kích thước truyền 16 MiB cho đặc tính hiệu suất này. Phần kiểm tra hiệu suất trước đó cung cấp giải thích đầy đủ.

Các lệnh sau được sử dụng để chạy điểm chuẩn, trong đó biến Chủ đề là số lượng luồng được sử dụng (1 đến 512 tăng dần theo lũy thừa của 2) và my_hosts.$Threads là tệp tương ứng phân bổ từng luồng trên một nút khác nhau, sử dụng phương pháp quay vòng để trải chúng đồng nhất trên 16 nút tính toán. Biến FileSize có kết quả là 8192 (GiB)/Chủ đề để chia đều tổng kích thước dữ liệu cho tất cả các luồng được sử dụng.

mpirun –allow-run-as-root -np $Threads –hostfile my_hosts.$Threads –mca btl_openib_allow_ib 1 –mca pml ^ucx –oversubscribe –prefix /usr/mpi/gcc/openmpi-4.1.2a1 /usr/local/bin/ior -a POSIX -v -i 1 -d 3 -e -k -o /mmfs1/perftest/ior/tst.file -w -s 1 -t 16m -b ${FileSize}G

Hình 30. Hiệu suất tuần tự từ N đến 1

Từ kết quả, chúng tôi thấy rằng hiệu suất tăng nhanh với số lượng máy khách được sử dụng và sau đó đạt đến mức ổn định bán ổn định cho các thao tác đọc (ở khoảng 64 luồng) và ổn định cho các thao tác ghi (ở 16 luồng) cho đến số lượng luồng tối đa đã sử dụng. Do đó, hiệu suất tuần tự tệp chia sẻ đơn lớn ổn định ngay cả đối với 512 luồng đồng thời. Lưu ý rằng hiệu suất đọc tối đa là 180,7 GB/giây ở 512 luồng và đối với hiệu suất ghi là 41,8 GB/giây ở 128 luồng. Hiệu suất đọc mất nhiều thời gian hơn để đạt được giá trị cao nhất so với các thử nghiệm NN, tuy nhiên, việc sử dụng một tệp được chia sẻ duy nhất sẽ thêm chi phí khóa có vẻ ảnh hưởng đến hiệu suất đọc. Tuy nhiên, hiệu suất ghi thậm chí còn bị ảnh hưởng nhiều hơn khi khóa trên một tệp được chia sẻ duy nhất, tuy nhiên, hiệu suất cao nhất (41,8 GB/giây) cao hơn so với NN (40,2 GB/giây). Kết quả này có thể là do truy cập MPI cộng với IOR hiệu quả hơn cho các hoạt động ghi so với IOzone hoặc một lý do không rõ ràng. Cần điều tra thêm cho hành vi đặc biệt này.

PowerEdge R650 Các khối nhỏ ngẫu nhiên Hiệu suất IOzone N máy khách thành N tệp

Hiệu suất N máy khách ngẫu nhiên đến N tệp được đo bằng IOzone phiên bản 3.492. Các thử nghiệm mà chúng tôi đã chạy đa dạng từ một đến 1024 luồng, sử dụng 4 khối KiB để mô phỏng lưu lượng khối nhỏ. Chúng tôi đã giảm thiểu hiệu ứng bộ nhớ đệm bằng cách đặt nhóm trang GPFS có thể điều chỉnh thành 16 GiB trên máy khách và 32 GiB trên máy chủ (bốn nút R650) và sử dụng tổng kích thước dữ liệu là 128 GiB.

Lệnh sau được sử dụng để chạy điểm chuẩn ở chế độ IO ngẫu nhiên cho cả thao tác đọc và ghi, trong đó biến Chủ đề là số lượng luồng được sử dụng (từ 1 đến 1024 tăng dần theo lũy thừa của 2) và danh sách luồng là tệp đã phân bổ mỗi luồng luồng trên một nút khác, sử dụng phương pháp quay vòng để trải chúng đồng nhất trên 16 nút tính toán.

./iozone -i0 -c -e -w -r 16M -s ${Size}G -t $Threads -+n -+m ./threadlist

./iozone -i2 -O -w -r 4K -s ${Size}G -t $Threads -+n -+m ./threadlist

Hình 31. Hiệu suất Ngẫu nhiên N đến N

Lưu ý rằng thang đo được chọn là logarit với cơ số 10, để cho phép so sánh các hoạt động có sự khác biệt về một số bậc độ lớn; mặt khác, một số hoạt động xuất hiện giống như một đường phẳng gần bằng 0 trên biểu đồ bình thường. Biểu đồ logarit với cơ số 2 phù hợp hơn, vì số luồng được tăng lên theo lũy thừa của 2. Biểu đồ như vậy trông giống nhau, nhưng mọi người có xu hướng nhận thức và ghi nhớ các số dựa trên lũy thừa của 10 tốt hơn.

Từ kết quả, chúng tôi thấy rằng hiệu suất ghi bắt đầu ở giá trị cao khoảng 5,6 nghìn IOPS và tăng lên mức cao nhất là 575 nghìn IOPS ở khoảng 256 luồng và tối đa là 591 nghìn IOPS ở 1024 luồng. Hiệu suất đọc bắt đầu ở mức 8,6K IOPS và tăng hiệu suất theo số lượng máy khách được sử dụng cho đến khi đạt hiệu suất tối đa là 3,716K IOPS ở 1024 luồng có dấu hiệu sắp ổn định. Tuy nhiên, như đã giải thích trước đây, việc sử dụng nhiều luồng hơn trên 16 nút điện toán hiện tại so với số lượng lõi (640) có thể phải chịu nhiều chuyển đổi ngữ cảnh hơn, điều này có thể hạn chế hiệu suất cao nhất. Một thử nghiệm trong tương lai với nhiều nút tính toán vật lý hơn có thể kiểm tra hiệu suất đọc ngẫu nhiên có thể đạt được với 1024 luồng với IOzone. Ngoài ra, FIO hoặc IOR có nhiều nút (lõi) hơn có thể được sử dụng để điều tra hành vi với hơn 1024 luồng.