Lưu trữ do HPC xác định bằng phần mềm với PixStor (7)

Giải pháp PixStor với khả năng mở rộng dung lượng và siêu dữ liệu có nhu cầu cao

Điểm chuẩn này dựa trên cấu hình Large ban đầu cộng với bốn PowerVault ME484, tức là hai máy chủ PowerEdge R750 được kết nối với bốn PowerVault ME4084 và bốn PowerVault ME484 (một đằng sau mỗi PowerVault ME4084), với mô-đun HDMD tùy chọn (hai Dell EMC PowerEdge R750) bằng cách sử dụng một mảng PowerVault ME4024 đơn lẻ.

 

Hiệu suất IOzone tuần tự N Máy khách đến N tệp

Hiệu suất của N máy khách liên tiếp đến N tệp được đo bằng IOzone phiên bản 3.492. Các thử nghiệm được thực hiện khác nhau từ một luồng cho đến 1024 luồng và kết quả của giải pháp mở rộng dung lượng (4x PowerVault ME4084s + 4x PowerVault ME484s) tương phản với giải pháp kích thước lớn (4x PowerVault ME4084s).

Hiệu ứng bộ nhớ đệm được giảm thiểu bằng cách sử dụng các tệp đủ lớn để tránh nó, với tổng kích thước dữ liệu là 8 TiB, gấp hơn hai lần tổng kích thước bộ nhớ của máy chủ và máy khách. Điều quan trọng cần lưu ý là GPFS sử dụng nhóm trang có thể điều chỉnh để đặt dung lượng bộ nhớ tối đa được sử dụng cho bộ nhớ đệm dữ liệu, bất kể dung lượng RAM được cài đặt và dung lượng trống (được đặt thành 32 GiB trên máy khách và 96 GiB trên máy chủ để cho phép tối ưu hóa I/O) . Cũng cần lưu ý rằng trong khi ở các giải pháp HPC khác của Dell Technologies, kích thước khối cho các lần truyền tuần tự lớn là 1 MiB, thì GPFS được định dạng với kích thước khối là 8 MiB và do đó, giá trị đó hoặc bội số của nó nên được sử dụng trên điểm chuẩn cho hiệu suất tối ưu. Kích thước khối 8 MiB có thể trông quá lớn khi sử dụng các tệp nhỏ, tuy nhiên, GPFS sử dụng phân bổ khối con để tránh lãng phí. Trong cấu hình hiện tại,

Các lệnh sau được sử dụng để thực thi điểm chuẩn cho ghi và đọc, trong đó Chủ đề là biến có số lượng luồng được sử dụng (1 đến 512 tăng dần theo lũy thừa của hai) và danh sách luồng là tệp phân bổ mỗi luồng trên một nút khác nhau, sử dụng luân phiên tuần tự để trải đều chúng trên 16 nút điện toán. Biến FileSize có kết quả là 8192 (GiB)/Luồng để chia đều tổng kích thước dữ liệu cho tất cả các luồng được sử dụng. Kích thước truyền 16 MiB đã được sử dụng cho đặc tính hiệu suất này.

./iozone -i0 -c -e -w -r 16M -s ${FileSize}G -t $Threads -+n -+m ./threadlist

./iozone -i1 -c -e -w -r 16M -s ${FileSize}G -t $Threads -+n -+m ./threadlist

Hiệu suất tuần tự N đến N

Hình 20. Hiệu suất tuần tự từ N đến N

Từ kết quả, chúng tôi có thể quan sát thấy rằng hiệu suất tăng rất nhanh với số lượng máy khách được sử dụng và sau đó đạt đến mức ổn định cho đến khi đạt được số lượng luồng tối đa mà IOzone cho phép và do đó, hiệu suất tuần tự của tệp lớn ổn định ngay cả đối với 1024 đồng thời khách hàng. Lưu ý rằng cả hiệu suất đọc và ghi đều được hưởng lợi từ việc tăng gấp đôi số lượng ổ đĩa, nhưng chỉ ghi một chút và đọc đáng kể. Hiệu suất đọc tối đa bị giới hạn bởi băng thông của bộ điều khiển PowerVault ME4084 được sử dụng trên các nút lưu trữ bắt đầu từ 4 luồng. Tương tự, hiệu suất ghi tối đa tăng lên 21,6 GB/giây ở 8 và 128 luồng và nó gần với thông số kỹ thuật tối đa của mảng PowerVault ME4 (22 GB/giây).

Ở đây, điều quan trọng cần nhớ là chế độ hoạt động ưa thích của GPFS bị phân tán và giải pháp được định dạng để sử dụng chế độ đó. Trong chế độ này, các khối được phân bổ ngay từ khi bắt đầu hoạt động theo kiểu giả ngẫu nhiên, trải rộng dữ liệu trên toàn bộ bề mặt của mỗi ổ cứng. Mặc dù nhược điểm rõ ràng là hiệu suất tối đa ban đầu nhỏ hơn, nhưng hiệu suất đó khá ổn định bất kể bao nhiêu dung lượng được sử dụng trên hệ thống tệp. Điều đó trái ngược với các hệ thống tệp song song khác ban đầu sử dụng các rãnh bên ngoài có thể chứa nhiều dữ liệu (khu vực) hơn trên mỗi vòng quay của đĩa và do đó có hiệu suất cao nhất có thể mà ổ cứng có thể cung cấp, tuy nhiên, do hệ thống sử dụng nhiều không gian hơn, các rãnh bên trong với ít dữ liệu hơn trên mỗi vòng quay được sử dụng, do đó làm giảm hiệu suất.

 

Hiệu suất IOR tuần tự N Khách hàng cho 1 tệp

Hiệu suất của các máy khách N tuần tự cho một tệp được chia sẻ duy nhất được đo bằng IOR phiên bản 3.3.0, được hỗ trợ bởi OpenMPI v4.1.2A1 để chạy điểm chuẩn trên 16 nút điện toán. Các thử nghiệm được thực hiện khác nhau từ một luồng cho đến 512 luồng do không có đủ lõi cho 1024 luồng (16 máy khách có tổng cộng 16 x2 x 20 = 640 lõi) và chi phí đăng ký quá mức rõ ràng đã ảnh hưởng đến kết quả IOzone ở 1024 luồng.

Hiệu ứng bộ nhớ đệm được giảm thiểu bằng cách đặt nhóm trang GPFS có thể điều chỉnh thành 32GiB trên máy khách và 96 GiB trên máy chủ, đồng thời sử dụng tổng kích thước dữ liệu là 8 TiB, nhiều hơn gấp đôi kích thước RAM từ máy chủ và máy khách cộng lại. Kích thước truyền 16 MiB đã được sử dụng cho đặc tính hiệu suất này. Phần kiểm tra hiệu suất trước đó có giải thích đầy đủ hơn cho những vấn đề đó.

Các lệnh sau được sử dụng để thực thi điểm chuẩn, trong đó Chủ đề là số lượng chủ đề được sử dụng (1 đến 512 tăng dần theo lũy thừa của hai) và my_hosts.$Threads là tệp tương ứng phân bổ từng luồng trên một nút khác nhau, sử dụng vòng- robin để phân tán chúng một cách đồng nhất trên 16 nút điện toán. Biến FileSize có kết quả là 8192 (GiB)/Luồng để chia đều tổng kích thước dữ liệu cho tất cả các luồng được sử dụng.

mpirun –allow-run-as-root -np $Threads –hostfile my_hosts.$Threads –mca btl_openib_allow_ib 1 –mca pml ^ucx –oversubscribe –prefix /usr/mpi/gcc/openmpi-4.1.2a1 /usr/local/bin/ior -a POSIX -v -i 1 -d 3 -e -k -o /mmfs1/perftest/ior/tst.file -w -s 1 -t 16m -b ${FileSize}G

mpirun –allow-run-as-root -np $Threads –hostfile my_hosts.$Threads –mca btl_openib_allow_ib 1 –mca pml ^ucx –oversubscribe –prefix /usr/mpi/gcc/openmpi-4.1.2a1 / usr/local/bin/ior -a POSIX -v -i 1 -d 3 -e -k -o /mmfs1/perftest/ior/tst.file -r -s 1 -t 16m -b ${FileSize}G

Hình 21. Hiệu suất tuần tự từ N đến 1

Từ kết quả, một lần nữa chúng ta có thể quan sát thấy rằng các ổ đĩa bổ sung mang lại lợi ích rất nhiều cho hiệu suất đọc và chỉ một chút cho hiệu suất ghi. Hiệu suất tăng trở lại rất nhanh với số lượng máy khách được sử dụng và sau đó đạt đến mức ổn định khá ổn định để đọc và ghi cho đến số lượng luồng tối đa được sử dụng trong thử nghiệm này. Lưu ý rằng hiệu suất đọc tối đa là 27,9 GB/giây ở 16 luồng và nút cổ chai là bộ điều khiển PowerVault ME4. Lưu ý rằng hiệu suất ghi tối đa là 21,7 GB/giây đã đạt được ở 16 luồng và đạt đến mức ổn định .

 

Các khối nhỏ ngẫu nhiên Hiệu suất IOzone N Máy khách đến N tệp

Hiệu suất N máy khách ngẫu nhiên đến N tệp được đo bằng IOzone phiên bản 3.492. Các thử nghiệm được thực hiện đa dạng từ một luồng cho đến 512 luồng. Điểm chuẩn này đã sử dụng 4 khối KiB để mô phỏng lưu lượng khối nhỏ.

Hiệu ứng bộ nhớ đệm đã được giảm thiểu bằng cách đặt nhóm trang GPFS có thể điều chỉnh thành 16GiB trên máy khách và 32 GiB trên máy chủ và sử dụng các tệp có kích thước gấp hai lần kích thước đó. Phần có tiêu đề Hiệu suất IOzone tuần tự N Máy khách đến N tệp bên trên có một lời giải thích đầy đủ hơn về lý do tại sao điều này có hiệu quả trên GPFS.

Lệnh sau đây được sử dụng để thực thi điểm chuẩn ở chế độ I/O ngẫu nhiên cho cả ghi và đọc, trong đó Chủ đề là biến có số lượng luồng được sử dụng (1 đến 512 tăng dần theo lũy thừa của hai) và danh sách luồng là tệp được phân bổ mỗi luồng trên một nút khác nhau, sử dụng vòng tròn để trải đều chúng đồng nhất trên 16 nút điện toán.

./iozone -i0 -c -e -w -r 16M -s ${Size}G -t $Threads -+n -+m ./threadlist

./iozone -i2 -O -w -r 4K -s ${Size}G -t $Threads -+n -+m ./threadlist

Hình 22. Hiệu suất ngẫu nhiên từ N đến N

Từ kết quả, chúng ta có thể quan sát thấy rằng hiệu suất ghi bắt đầu ở giá trị cao 23,1K IOPS ở 4 luồng và nó duy trì ở mức đó cho đến khi đột ngột tăng lên ở 256 luồng và đạt mức cao nhất là 34,2K IOPS ở 512 luồng. Đây không phải là hành vi mong đợi và cần thử nghiệm thêm để hiểu nguyên nhân.

Mặt khác, hiệu suất đọc bắt đầu ở mức 322 IOPS ở 4 luồng và tăng hiệu suất gần như tuyến tính với số lượng máy khách được sử dụng (hãy nhớ rằng số lượng luồng được nhân đôi cho mỗi điểm dữ liệu) và đạt hiệu suất tối đa là 32,33K IOPS ở 512 chủ đề. Việc sử dụng nhiều luồng hơn sẽ yêu cầu nhiều hơn 16 nút tính toán được chỉ định cho thử nghiệm này, để tránh chuyển ngữ cảnh và các sự cố liên quan khác có thể gây ra hiệu suất rõ ràng thấp hơn, trong đó các mảng trên thực tế có thể duy trì hiệu suất .

 

Hiệu suất siêu dữ liệu

Trong khi mô tả giải pháp bằng PixStor 5, kết quả cho các tệp trống cho thấy hiệu suất siêu dữ liệu được đo bằng MDtest phiên bản 3.3.0 và OpenMPI v4.0.1 gần như giống hệt nhau đối với hệ thống có hoặc không có các bản mở rộng PowerVault ME484. Lý do là các tệp trống hoàn toàn được tạo bên trong inode, vì vậy các nút lưu trữ và mảng PowerVault ME4084 hoàn toàn không được sử dụng. Hơn nữa, việc sử dụng các tệp nhỏ 4 KiB không vừa hoàn toàn bên trong các nút cho thấy rằng kết quả có hoặc không có phần mở rộng sẽ khác nhau một chút. Do đó, đối với công việc này, chỉ có đặc tính bao gồm trong các phần bên trên có tiêu đề Hiệu suất siêu dữ liệu với MDtest bằng các tệp trống Hiệu suất siêu dữ liệu với MDtest bằng 4 tệp KiB sẽ được bao gồm. Thay vì sao chép kết quả, siêu dữ liệu trên các thiết bị NVMe, sử dụng một cặp PowerEdge R650 với 10 thiết bị mỗi chiếc, sẽ được mô tả như một giải pháp thay thế cho mô-đun siêu dữ liệu có nhu cầu cao hiện tại dày đặc hơn gấp 3 lần. Giải pháp thay thế này sẽ có hiệu suất cao hơn và thậm chí còn tiết kiệm chi phí hơn do giá cấp phép. Đặc tính như vậy sẽ được đưa vào cùng với phần còn lại của công việc NVMe vào một ngày sau đó .

 

Bản tóm tắt

Giải pháp hiện tại có thể mang lại hiệu suất khá tốt, dự kiến ​​sẽ ổn định bất kể không gian sử dụng (vì hệ thống được định dạng ở chế độ phân tán), như có thể thấy trong Bảng 5. Hơn nữa, giải pháp mở rộng tuyến tính về dung lượng và hiệu suất khi thêm nhiều mô-đun nút lưu trữ và có thể mong đợi mức tăng hiệu suất tương tự từ mô-đun siêu dữ liệu có nhu cầu cao tùy chọn.

Bảng 5. Hiệu suất cao nhất và duy trì     

điểm chuẩn

Hiệu suất cao điểm

Hiệu suất bền vững

Viết

Đọc

Viết

Đọc

N máy khách tuần tự lớn đến N tệp

21,6 GB/giây

26,9 GB/giây

21,1 GB/giây

25,7 GB/giây

Khách hàng N tuần tự lớn cho một tệp được chia sẻ

21,7 GB/giây

27,9 GB/giây

21GB/giây

27,7 GB/giây

Các khối nhỏ ngẫu nhiên N máy khách đến N tệp

27,4K IOPS

32,3K IOPS

27,4K IOPS

32,3KIOP

Công suất và hiệu suất ước tính

Bảng sau đây cung cấp thông tin về khả năng sử dụng và hiệu suất cho tất cả các cấu hình khác nhau bao gồm mảng PowerVault ME4. Lưu ý rằng chỉ các giá trị màu đen được đo hoặc xác định trước (như số lượng đơn vị PowerVault ME4 hoặc không gian giá đỡ được sử dụng). Phần còn lại của các giá trị được ngoại suy dựa trên các giá trị đo được và kết quả hoạt động.

Công suất và hiệu suất có thể sử dụng ước tính cho các kích thước cấu hình khác nhau

Bảng 6. Dung lượng và hiệu suất có thể sử dụng ước tính cho các kích thước cấu hình khác nhau

Thiết kế đã được xác thực cho bộ lưu trữ HPC PixStor là một giải pháp hiệu suất cao, rất hiệu quả, dễ quản lý, được hỗ trợ đầy đủ, đa tầng, có thể mở rộng về thông lượng và dung lượng. Nó cũng kết nối thông qua các giao thức tiêu chuẩn như NFS, SMB hoặc đám mây. Giải pháp này dựa trên các máy chủ PowerEdge và mảng lưu trữ PowerVault ME4 cũng như phần mềm PixStor từ ArcaStream.

Công việc tiếp theo sẽ là một phụ lục cho giải pháp về các máy chủ PowerEdge được sử dụng làm tầng NVMe, bao gồm đặc tính hiệu suất để cho phép hướng dẫn rõ ràng về máy chủ nào phù hợp hơn với các nhu cầu cụ thể và/hoặc giảm các tùy chọn nếu thích hợp.