Dell Validated Design cho HPC pixstor Storage—Giải pháp chung với Kalray (14)

PowerEdge R750 Các khối nhỏ ngẫu nhiên Hiệu suất IOzone N máy khách thành N tệp

  • Hiệu suất N máy khách ngẫu nhiên đến N tệp được đo bằng IOzone phiên bản 3.492. Các thử nghiệm mà chúng tôi đã chạy đa dạng từ 1 đến 1024 luồng, sử dụng 4 khối KiB để mô phỏng lưu lượng khối nhỏ. Chúng tôi đã giảm thiểu hiệu ứng bộ nhớ đệm bằng cách đặt nhóm trang GPFS có thể điều chỉnh thành 16 GiB trên máy khách và 32 GiB trên máy chủ, đồng thời sử dụng tổng kích thước dữ liệu là 128 GiB.

    Lệnh sau được sử dụng để chạy điểm chuẩn ở chế độ IO ngẫu nhiên cho cả thao tác đọc và ghi, trong đó biến  Chủ đề  là số lượng luồng được sử dụng (từ 1 đến 1024 tăng dần theo lũy thừa của 2) và  danh sách luồng  là tệp đã phân bổ mỗi luồng luồng trên một nút khác, sử dụng phương pháp quay vòng để trải chúng đồng nhất trên 16 nút điện toán.

    ./iozone -i0 -c -e -w -r 16M -s ${Size}G -t $Threads -+n -+m ./threadlist

    ./iozone -i2 -O -w -r 4K -s ${Size}G -t $Threads -+n -+m ./threadlist

    Hình 37.     Hiệu suất ngẫu nhiên N đến N

    Lưu ý rằng thang đo được chọn là logarit với cơ số 10, để cho phép so sánh các hoạt động có sự khác biệt theo một số bậc độ lớn; mặt khác, một số hoạt động xuất hiện giống như một đường phẳng gần bằng 0 trên biểu đồ bình thường. Biểu đồ logarit với cơ số 2 phù hợp hơn vì số luồng tăng theo lũy thừa của 2. Biểu đồ như vậy trông giống nhau, nhưng mọi người có xu hướng nhận thức và ghi nhớ các số dựa trên lũy thừa của 10 tốt hơn.

    Từ kết quả, chúng tôi thấy rằng hiệu suất ghi bắt đầu ở giá trị cao khoảng 5,6K IOPS và tăng lên mức cao nhất là 560K IOPS ở khoảng 256 luồng và tối đa là 584K IOPS ở 1024 luồng. Hiệu suất đọc bắt đầu ở 7K IOPS và tăng hiệu suất theo số lượng máy khách được sử dụng cho đến khi đạt hiệu suất tối đa là 2.031K IOPS ở 1024 luồng có dấu hiệu sắp ổn định. Tuy nhiên, như đã giải thích trước đây, việc sử dụng nhiều luồng hơn trên 16 nút tính toán hiện tại so với số lượng lõi (640) có hạn chế là phát sinh nhiều chuyển đổi ngữ cảnh hơn, điều này có thể hạn chế hiệu suất cao nhất. Một thử nghiệm trong tương lai với nhiều nút tính toán vật lý hơn có thể kiểm tra hiệu suất đọc ngẫu nhiên có thể đạt được với 1024 luồng với Iozone.

     

Hiệu suất siêu dữ liệu PowerEdge R750 với MDtest bằng các tệp trống

  • Phần này tương tự như các phần trước đó là sử dụng mô-đun HDMD mới dựa trên một hoặc nhiều cặp máy chủ NVMe dựa trên máy chủ PowerEdge R650 với 10 thiết bị kết nối trực tiếp NVMe. Hiệu suất siêu dữ liệu trên mô-đun HDMD NVMe mới với máy chủ PowerEdge R750 NVMe cho dữ liệu được ghi lại trong phần này. Hiệu suất siêu dữ liệu cho mô-đun HDMD NVMe mới với bộ lưu trữ dữ liệu dựa trên ME sẽ được ghi lại cho bản cập nhật tiếp theo của giải pháp pixstor bằng cách sử dụng mảng PowerVault mới (ME5).

    Hiệu suất siêu dữ liệu được đo bằng MDtest phiên bản 3.3.0, với  OpenMPI  4.1.4rc1 để chạy điểm chuẩn trên 16 nút tính toán. Các bài kiểm tra mà chúng tôi đã chạy đa dạng từ một luồng cho đến 512 luồng. Điểm chuẩn chỉ được sử dụng cho các tệp (không có siêu dữ liệu thư mục), nhận số lượng hoạt động tạo, thống kê, đọc và xóa mà giải pháp có thể xử lý.

    Một số HDMD trên Mô-đun NVMe (cặp NVMe R650) có thể được sử dụng để tăng số lượng tệp được hỗ trợ (các nút) và tăng hiệu suất siêu dữ liệu với mỗi cặp máy chủ bổ sung. Một ngoại lệ đối với sự gia tăng này có thể là các thao tác thống kê (và đọc các tệp trống) vì số lượng của chúng cao và CPU trở thành nút cổ chai và hiệu suất không tiếp tục tăng.

    Lệnh sau được sử dụng để chạy điểm chuẩn, trong đó  biến Chủ  đề là số lượng luồng được sử dụng (1 đến 512 tăng dần theo lũy thừa của hai) và  my_hosts.$Threads  là tệp tương ứng phân bổ mỗi luồng trên một nút khác nhau, sử dụng phương pháp quay vòng để trải chúng đồng nhất trên 16 nút tính toán. Giống như điểm chuẩn IOR, số lượng luồng tối đa được giới hạn ở 512 vì không có đủ lõi cho hơn 640 luồng và việc chuyển ngữ cảnh có thể ảnh hưởng đến kết quả, báo cáo một con số thấp hơn hiệu suất thực của giải pháp.

    mpirun–-allow-run-as-root -np $Threads–-hostfile my_hosts.$Threads –map-by node–-mca btl_openib_allow_ib 1–-oversubscribe–-prefix /usr/mpi/gcc/openmpi-4.1.2a1 / usr/local/bin/mdtest -v -d /mmfs1/perf/mdtest -P -i 1 -b $Directories -z 1 -L -I 1024 -u -t -F

    Do tổng số IOP, số tệp trên mỗi thư mục và số luồng có thể ảnh hưởng đến kết quả hoạt động nên chúng tôi quyết định giữ cố định tổng số tệp thành 2 tệp Mi (2^21 = 2097152), số tệp trên mỗi thư mục được cố định ở 1024 và số lượng thư mục thay đổi khi số lượng chuỗi thay đổi như trong bảng sau:

    Bảng 10.   Phân phối tệp MDtest trên thư mục

    Số của chủ đề

    Số lượng thư mục trên mỗi chủ đề

    Tổng số tệp

    1

    2048

    2.097.152

    2

    1024

    2.097.152

    4

    512

    2.097.152

    số 8

    256

    2.097.152

    16

    128

    2.097.152

    32

    64

    2.097.152

    64

    32

    2.097.152

    128

    16

    2.097.152

    256

    số 8

    2.097.152

    512

    4

    2.097.152

    1024

    2

    2.097.152

    Hình 38.     Hiệu suất siêu dữ liệu–- tập tin trống

    Lưu ý rằng thang đo được chọn là logarit với cơ số 10, để cho phép so sánh các hoạt động có sự khác biệt theo một số bậc độ lớn; mặt khác, một số hoạt động xuất hiện giống như một đường phẳng gần bằng 0 trên biểu đồ bình thường. Biểu đồ logarit với cơ số 2 phù hợp hơn vì số luồng tăng theo lũy thừa của 2. Biểu đồ như vậy trông giống nhau, nhưng mọi người có xu hướng nhận thức và ghi nhớ các số dựa trên lũy thừa của 10 tốt hơn.

    Hệ thống cho thấy kết quả tốt đối với các hoạt động thống kê đạt giá trị cao nhất ở 64 luồng với 10,5 triệu thao tác/giây. Hoạt động đọc đạt mức cao nhất là 4,3 triệu thao tác/giây ở 64 luồng (lưu ý rằng chúng tôi đang đọc các tệp trống). Thao tác xóa đạt tối đa 419,1K thao tác/giây và tạo thao tác đạt đỉnh với 252,5K thao tác/giây, cả hai đều ở 64 luồng. Hoạt động thống kê và đọc có nhiều biến đổi hơn, nhưng khi chúng đạt đến giá trị cao nhất, hiệu suất không giảm xuống dưới 4,5 triệu thao tác/giây đối với hoạt động thống kê và 2,3 triệu thao tác/giây đối với hoạt động đọc. Thao tác tạo và xóa ít thay đổi hơn. Thao tác tạo tiếp tục tăng khi số lượng luồng tăng lên và thao tác xóa giảm dần sau khi đạt đến giá trị cao nhất.

    Vì những con số này dành cho mô-đun siêu dữ liệu với một cặp siêu dữ liệu PowerEdge R650 NVMe, nên hiệu suất sẽ tăng đối với mỗi cặp PowerEdge R650 NVMe bổ sung, tuy nhiên, chúng tôi không thể giả định mức tăng tuyến tính cho tất cả các hoạt động. Trừ khi toàn bộ tệp vừa với inode của tệp đó, các mục tiêu dữ liệu trên các thiết bị khác sẽ được sử dụng để lưu trữ các tệp nhỏ, hạn chế hiệu suất ở một mức độ nào đó.