Thiết kế được Dell xác thực cho Bộ lưu trữ HPC pixstor – Bản cập nhật PowerVault ME5

Giới thiệu

Môi trường HPC ngày nay có nhu cầu lưu trữ tốc độ cao ngày càng tăng. Lưu trữ đang trở thành nút cổ chai trong nhiều khối lượng công việc do CPU có số lượng lõi cao hơn, bộ nhớ lớn hơn và nhanh hơn, bus PCIe nhanh hơn và mạng ngày càng nhanh hơn. Hệ thống tệp song song (PFS) thường giải quyết các yêu cầu HPC có nhu cầu cao này. PFS cung cấp quyền truy cập đồng thời vào một tệp hoặc một tập hợp tệp từ nhiều nút, phân phối dữ liệu hiệu quả và an toàn tới nhiều LUN trên một số máy chủ lưu trữ. 

Các hệ thống tệp này sử dụng phương tiện kéo sợi để cung cấp dung lượng cao nhất với chi phí thấp nhất. Tuy nhiên, tốc độ và độ trễ của vật liệu quay thường không thể theo kịp nhu cầu của nhiều khối lượng công việc HPC hiện đại. Việc sử dụng công nghệ flash (nghĩa là NVMe) ở dạng bộ đệm liên tục, các tầng nhanh hơn hoặc thậm chí là cào nhanh (cục bộ hoặc phân tán) có thể giảm thiểu sự cố này. HPC pixstor Storage cung cấp các nút NVMe cấp dung lượng cao, tiết kiệm chi phí như một thành phần để giải quyết nhu cầu băng thông cao và cho mô-đun Siêu dữ liệu yêu cầu cao tùy chọn.

Blog này là một phần của loạt bài viết về các giải pháp PFS cho môi trường HPC, đặc biệt là cho Bộ lưu trữ pixstor HPC linh hoạt, có thể mở rộng, hiệu quả và đáng tin cậy Trọng tâm của nó là nâng cấp lên các nút lưu trữ bằng cách sử dụng mảng Dell PowerVault ME5084 mới, mang lại hiệu suất tăng đáng kể so với thế hệ trước (mảng ME4084). 

Lưu ý : Bởi vì arcastream đã thay đổi thương hiệu của nó thành tất cả các ký tự chữ thường, nên chúng tôi đã sửa đổi các phiên bản của “arcastream”, “pixstor” và “ngenea” cho phù hợp.

Ngành kiến ​​​​trúc

Hình dưới đây cho thấy kiến ​​trúc dành cho thế hệ mới của Thiết kế được Dell xác thực cho Bộ lưu trữ HPC pixstor. Nó sử dụng các máy chủ Dell PowerEdge R650, R750 và R7525 cũng như mảng lưu trữ PowerVault ME5084 mới, với phần mềm pixstor 6.0 từ công ty đối tác của chúng tôi là arcastream. 

Hình   Kiến trúc tham khảo

Các mảng PowerVault ME484 EBOD tùy chọn có thể tăng dung lượng của giải pháp khi SAS bổ sung cho các mảng lưu trữ PowerVault ME5084. Phần mềm pixstor bao gồm Hệ thống tệp song song chung (GPFS), còn được gọi là Thang phổ, là thành phần PFS được coi là bộ lưu trữ do phần mềm xác định do tính linh hoạt và khả năng mở rộng của nó. Ngoài ra, phần mềm pixstor bao gồm nhiều thành phần phần mềm arcastream khác như phân tích nâng cao, quản trị và giám sát đơn giản hóa, tìm kiếm tệp hiệu quả, khả năng cổng nâng cao, v.v.

Các thành phần chính của giải pháp pixstor là:

  • Máy chủ quản lý —Máy chủ PowerEdge R650 cung cấp quyền truy cập UI và CLI để quản lý và giám sát giải pháp pixstor, cũng như thực hiện các khả năng tìm kiếm nâng cao, biên soạn một số thông tin siêu dữ liệu trong cơ sở dữ liệu để tăng tốc độ tìm kiếm và ngăn quá trình tìm kiếm tải đĩa chia sẻ mạng siêu dữ liệu ( NSD). 
  • Mô-đun lưu trữ —Mô-đun lưu trữ là khối xây dựng chính cho giải pháp lưu trữ pixstor. Mỗi mô-đun bao gồm:
    • Một cặp máy chủ lưu trữ
    • Một, hai hoặc bốn mảng lưu trữ phụ trợ (ME5084) với khả năng mở rộng dung lượng tùy chọn (ME484)
    • Đĩa chia sẻ mạng (NSD) có trong mảng lưu trữ phụ trợ
  • Máy chủ lưu trữ (SS) —Máy chủ lưu trữ là một thành phần mô-đun lưu trữ thiết yếu. Các cặp HA của máy chủ PowerEdge R750 (miền chuyển đổi dự phòng) kết nối với mảng ME5084 bằng cáp SAS 12 Gbps để quản lý NSD dữ liệu và cung cấp quyền truy cập vào NSD bằng giao diện mạng tốc độ cao dự phòng. Đối với cấu hình pixstor tiêu chuẩn, các máy chủ này có vai trò kép là máy chủ siêu dữ liệu và quản lý NSD siêu dữ liệu (sử dụng SSD thay thế tất cả các ổ cứng dự phòng). Hình dưới đây cho thấy việc phân bổ các bộ điều hợp cho máy chủ PowerEdge R750:

Hình    Nút lưu trữ PowerEdge R750 – Cấp phát vị trí

  • Lưu trữ phụ trợ—Lưu trữ phụ trợ là một phần của mô-đun lưu trữ lưu trữ dữ liệu hệ thống tệp, như trong Hình 1. Giải pháp sử dụng mảng đĩa 5U PowerVault ME5084 mật độ cao. Hình dưới đây cho thấy mảng ME5084 với hai bộ điều khiển SAS của nó. Hai cổng SAS từ mỗi bộ điều khiển (hai từ A0-A3 và hai từ B0-B3) được kết nối với các HBA khác nhau trong các khe 1, 2, 5 và 7 trên mỗi nút lưu trữ (bốn cáp SAS trên mỗi máy chủ tới mỗi mảng ME5084) . Mảng ME5084 yêu cầu gấp đôi số lượng cáp được sử dụng trước đây bởi mảng ME4 để phù hợp với hiệu suất ME5. Đầu nối SAS I/O của mỗi bộ điều khiển (bên cạnh cổng Ethernet quản lý RJ45) được sử dụng để kết nối Mô-đun I/O (IOM) trong mảng mở rộng ME484 bằng cổng I/O 0 (cổng SAS màu xanh bên trái của mỗi mô-đun IOM ) của Mô-đun I/O tương ứng (Bộ điều khiển A đến Mô-đun I/O A, Bộ điều khiển B đến Mô-đun I/O B). 

Hình 3 Mảng ME5084 – Bộ điều khiển và cổng SAS

Hình dưới đây cho thấy mặt sau của mảng mở rộng ME484.

  • Dung lượng lưu trữ mở rộng —Mở rộng dung lượng PowerVault ME484 tùy chọn (hiển thị trong hình dưới đây và bên trong hình vuông chấm màu cam trong Hình 1) được kết nối phía sau mảng ME5084 bằng cáp SAS 12 Gbps để mở rộng dung lượng của mô-đun lưu trữ. Đối với các giải pháp pixstor, mỗi mảng ME5084 bị hạn chế chỉ sử dụng một bản mở rộng ME484 để đạt được hiệu suất và độ tin cậy (mặc dù ME5084 chính thức hỗ trợ tối đa ba bản mở rộng ME484).

Hình   ME484 – Mô-đun I/O và các cổng SAS

  • Đĩa chia sẻ mạng (NSD) —NSD là thiết bị khối phụ trợ (nghĩa là RAID 6 LUN từ mảng ME5 hoặc thiết bị NVMe được sao chép) lưu trữ dữ liệu, siêu dữ liệu hoặc cả hai. Trong giải pháp pixstor, dữ liệu hệ thống tệp và siêu dữ liệu được lưu trữ trong các NSD khác nhau. NSD dữ liệu sử dụng phương tiện quay (ổ cứng NLS SAS3) hoặc NVMe. NSD siêu dữ liệu sử dụng SSD trong cấu hình tiêu chuẩn hoặc thiết bị NVMe được sao chép cho nhu cầu siêu dữ liệu cao (siêu dữ liệu bao gồm thư mục, tên tệp, quyền, dấu thời gian và vị trí của dữ liệu trong các NSD khác).
  • Máy chủ siêu dữ liệu nhu cầu cao (HDMD) —Máy chủ HDMD là một thành phần của mô-đun siêu dữ liệu nhu cầu cao tùy chọn (trong hình vuông chấm màu vàng trong Hình 1). Các cặp máy chủ PowerEdge R650 NVMe có tối đa 10 thiết bị NVMe, mỗi thiết bị trong HA (miền chuyển đổi dự phòng) quản lý NSD siêu dữ liệu theo cặp được sao chép và cung cấp quyền truy cập bằng giao diện mạng tốc độ cao dự phòng. Các máy chủ được hỗ trợ khác (máy chủ PowerEdge R750 và PowerEdge R7525) có thể được sử dụng làm nút NVMe thay vì máy chủ PowerEdge R650.
  • Các nút NVMe —Một nút NVMe là thành phần chính của các mô-đun bậc NVMe tùy chọn (trong các ô vuông chấm màu đỏ trong Hình 2). Các cặp máy chủ PowerEdge mới nhất trong HA (miền chuyển đổi dự phòng) cung cấp tầng dựa trên flash hiệu suất cao cho giải pháp pixstor. Bậc NVMe bao gồm ba máy chủ PowerEdge: máy chủ PowerEdge R650 với 10 ổ đĩa được gắn trực tiếp NVMe, máy chủ PowerEdge R750 có 16 thiết bị được gắn trực tiếp NVMe hoặc máy chủ PowerEdge R7525 có 24 ổ đĩa được gắn trực tiếp. Để duy trì hiệu suất đồng nhất trên các nút NVMe và cho phép phân chia dữ liệu giữa các nút trong tầng, không trộn lẫn các mô hình máy chủ khác nhau trong cùng một tầng NVMe. Tuy nhiên, nhiều tầng NVMe, mỗi tầng có máy chủ khác nhau và được truy cập bằng các bộ tệp khác nhau được hỗ trợ.

    Các máy chủ PowerEdge đã chọn hỗ trợ các thiết bị NVMe PCIe4 và PCIe3. Tuy nhiên, không nên kết hợp các thiết bị NVMe PCIe4 với các thiết bị PCIe3 hiệu suất thấp hơn cho giải pháp và nó không được hỗ trợ cho cùng một bậc NVMe. Các cặp nút NVMe bổ sung có thể mở rộng hiệu suất và dung lượng cho tầng NVMe này. Dung lượng tăng lên được cung cấp bằng cách chọn dung lượng thích hợp cho các thiết bị NVMe được hỗ trợ trên máy chủ hoặc thêm nhiều cặp máy chủ hơn.

     Một điểm khác biệt quan trọng so với các bản phát hành pixstor trước đó là NVMesh không còn là một thành phần của giải pháp. Đối với mục đích HA, một giải pháp thay thế dựa trên bản sao GPFS của NSD đã được triển khai trên mỗi cặp HA của máy chủ NVMe, để có các NSD được nhân đôi về mặt chức năng.

  • Phần mềm máy khách gốc —Phần mềm máy khách gốc được cài đặt trên máy khách để cho phép truy cập vào hệ thống tệp. Hệ thống tệp phải được gắn kết để truy cập và xuất hiện dưới dạng một không gian tên duy nhất.
  • Các nút cổng —Các nút cổng tùy chọn (trong hình vuông chấm màu xanh lục trong Hình 1) là các máy chủ PowerEdge R750 (cùng phần cứng với các nút ngenea nhưng có phần mềm khác) trong cụm Cơ sở dữ liệu tầm thường theo cụm (CTDB) Samba cung cấp quyền truy cập NFS hoặc SMB cho các máy khách không có hoặc không thể cài đặt phần mềm máy khách gốc.
  • Các nút ngenea —Các nút ngenea tùy chọn (trong hình vuông chấm màu xanh lục trong Hình 1) là các máy chủ PowerEdge R750 (cùng phần cứng với các nút cổng nhưng sử dụng phần mềm khác) cung cấp quyền truy cập vào các hệ thống lưu trữ bên ngoài (ví dụ: bộ nhớ đối tượng, bộ nhớ đám mây , thư viện băng, v.v.) cho phép chúng được sử dụng như một tầng khác trong cùng một không gian tên duy nhất bằng các giao thức doanh nghiệp, bao gồm cả giao thức đám mây.
  • Bộ chuyển mạch quản lý —Bộ chuyển mạch Gigabit Ethernet PowerConnect N2248X-ON kết nối các máy chủ và mảng lưu trữ khác nhau. Nó được sử dụng để quản lý giải pháp kết nối tất cả các thành phần.
  • Bộ chuyển mạng tốc độ cao —Bộ chuyển mạch Mellanox QM8700 cung cấp khả năng truy cập tốc độ cao bằng cách sử dụng InfiniBand (IB) HDR. Đối với các giải pháp Ethernet, Mellanox SN3700 được sử dụng.

thành phần giải pháp

Giải pháp này được phát hành cùng với CPU Intel Xeon Scalable thế hệ thứ 3 mới nhất, còn được gọi là Ice Lake và RAM nhanh nhất hiện có (3200 MT/s). Bảng sau đây liệt kê các thành phần chính của giải pháp. Một số khác biệt đã được đưa ra giữa BOM mong muốn và phần cứng thử nghiệm thực tế vì phần cứng phát hành trước (cấp độ sản xuất) cho dự án của chúng tôi, chỉ có một số mẫu CPU được cung cấp, không bao gồm mẫu vòng đời dự kiến. 

Cột Khi phát hành liệt kê các thành phần được lên kế hoạch sử dụng khi phát hành và có sẵn cho khách hàng cùng với giải pháp. Cột Giường thử nghiệm liệt kê các thành phần thực sự được sử dụng để mô tả hiệu suất của giải pháp. Các ổ đĩa được liệt kê cho dữ liệu (12 TB NLS) đã được sử dụng để mô tả đặc tính hiệu suất, nhưng tất cả các ổ cứng và SSD được hỗ trợ trong Ma trận hỗ trợ PowerVault ME5có thể được sử dụng cho các giải pháp. Vì bộ điều khiển ME5 không còn là nút cổ chai đầu tiên của bộ lưu trữ phụ trợ, nên việc sử dụng các ổ đĩa có tốc độ định mức cao hơn (10K, 15K và SSD) có thể giúp tăng hiệu suất tuần tự (tối đa khoảng 30 đến 35 phần trăm cho thông lượng dự kiến) , có thể cung cấp IOPS ngẫu nhiên tốt hơn và có thể cải thiện hoạt động tạo và xóa siêu dữ liệu. Để dự phòng đầy đủ mạng tốc độ cao, phải sử dụng hai bộ chuyển mạch tốc độ cao (QM87000 cho IB hoặc SN3700 cho GbE); mỗi công tắc phải có một bộ điều hợp CX6 được kết nối từ mỗi máy chủ.

Các thành phần phần mềm được liệt kê mô tả các phiên bản được sử dụng trong quá trình thử nghiệm ban đầu. Tuy nhiên, các phiên bản phần mềm này có thể thay đổi theo thời gian giữa các lần phát hành chính thức để bao gồm các bản sửa lỗi quan trọng, hỗ trợ cho các thành phần phần cứng mới hoặc bổ sung các tính năng quan trọng.

Bảng liệt kê các ổ cứng và SSD dữ liệu có thể có, được liệt kê trong Ma trận hỗ trợ Dell PowerVault ME5 .

Bảng  . Các thành phần được sử dụng tại thời điểm phát hành và trên giường thử nghiệm

thành phần giải pháp Khi phát hành giường thử
Công tắc quản lý nội bộ Dell PowerSwitch N2248X-ON GbE PowerSwitch S3048-ON
Hệ thống con lưu trữ dữ liệu 1 x đến 4 x mảng PowerVault ME5084 2 x mảng Dell PowerVault ME5084
4x PowerVault ME484 tùy chọn (một cho mỗi mảng ME5084)

80 – 12 TB Ổ cứng HDD 3.5” NL SAS3

Các tùy chọn thay thế: 15K RPM: 900GB; 10K vòng/phút: 1,2TB, 2,4TB

SSD: 960GB, 1,92TB, 3,84TB; NLS: 4TB, 8TB, 12TB, 16TB, 20TB

8 LUN, 8+2 RAID 6 tuyến tính, kích thước khối 512 KiB

Ổ SSD SAS3 4 – 1,92 TB (hoặc 3,84 TB hoặc 7,68 TB) trên mỗi mảng ME5084 cho siêu dữ liệu – 2 x RAID 1 (hoặc 4 – Ổ cứng dự phòng toàn cầu, nếu sử dụng HDMD tùy chọn)

Hệ thống phụ lưu trữ HDDMD tùy chọn Một hoặc nhiều cặp máy chủ cấp NVMe
Bộ điều khiển lưu trữ RAID Song công 12 Gbps SAS
Dung lượng không cần mở rộng (với ổ cứng 12 TB) Nguyên bản: 4032 TB (3667 TiB hoặc 3,58 PiB)

Định dạng: khoảng 3072 GB (2794 TiB hoặc 2,73 PiB)

Dung lượng có mở rộng (Lớn)

(Ổ cứng 12 TB)

Nguyên bản: 8064 TB (7334 TiB hoặc 7,16 PiB)

Định dạng: khoảng 6144 GB (5588 TiB hoặc 5,46 PiB)

bộ vi xử lý Cổng/ngenea 2 x Intel Xeon Gold 6326 2,9 GHz, 16C/32T, 11,2GT/s, 24M bộ nhớ đệm, Turbo, HT (185 W) DDR4-3200 2 x Intel Xeon Bạch kim 8352Y

2,2 GHz, 32C/64T, 11,2GT/giây,

Bộ nhớ đệm 48M, Turbo, HT (205 W)

DDR4-3200

nút lưu trữ
nút quản lý 2x Intel Xeon Gold 6330 2 GHz, 28C/56T, 11,2GT/s, 42M bộ nhớ đệm, Turbo, HT (185 W) DDR4-2933
Nút R650 NVMe 2x Intel Xeon Gold 6354 3,00 GHz, 18C/36T, 11,2GT/s, 39M bộ nhớ đệm, Turbo, HT (205 W) DDR4-3200
Siêu dữ liệu nhu cầu cao tùy chọn 2x Intel Xeon Gold 6354 3,00 GHz, 18C/36T, 11,2GT/s, 39M bộ nhớ đệm, Turbo, HT (205 W) DDR4-3200
Nút R750 NVMe   2x Intel Xeon Platinum 8352Y, 2,2 GHz, 32C/64T, 11,2GT/s, 48M bộ nhớ đệm, Turbo, HT (205 W) DDR4-3200
Nút R7525 NVMe 2 x AMD EPYC 7302 3.0 GHz, 16C/32T, 128M L3 (155 W) 2 x AMD 7H12 2,6 GHz, 64C/64T 256M L3 (280 W)
Ký ức

 

Cổng/ngenea 16 x 16 GiB 3200 MT/s RDIMM (256 GiB)
nút lưu trữ
nút quản lý
Hệ điều hành Doanh nghiệp mũ đỏ Linux 8.5
Phiên bản hạt nhân 4.18.0-348.23.1.el8_5.x86_64
phần mềm pixstor 6.0.3.1-1
Thang đo phổ (GPFS) Thang đo phổ (GPFS) 5.1.3-1
phiên bản OFED Mellanox OFED 5.6-1.0.3.3
NIC hiệu suất cao Tất cả: 2 x Dell OEM ConnectX-6 Cổng đơn HDR VPI InfiniBand, Cấu hình thấp

Nút cổng và ngenea: Bộ điều hợp 4x CX6 VPI, 2x FS & 2x Bên ngoài

Công tắc hiệu suất cao Tất cả: 2 x Dell OEM ConnectX-6 Cổng đơn HDR VPI InfiniBand, Cấu hình thấp

Nút cổng và ngenea: Bộ điều hợp 4x CX6 VPI, 2x FS & 2x Bên ngoài

Đĩa cục bộ (hệ điều hành và phân tích/giám sát) Máy chủ NVMe: BOSS-S2 với 2x M.2 240 GB trong RAID 1

Các máy chủ khác: 3x 480 GB SSD SAS3 (RAID 1 + HS) cho hệ điều hành với bộ điều khiển RAID phía trước PERC H345

quản lý hệ thống iDRAC9 Enterprise + Dell OpenManage 10.0.1-4561

Đặc tính hiệu suất

Để mô tả thành phần giải pháp mới (mảng ME5084), chúng tôi đã sử dụng các điểm chuẩn sau:

  • IOzone N đến N tuần tự
  • IOR N đến 1 tuần tự
  • IOzone ngẫu nhiên
  • mdtest 

Sự chậm trễ trong việc phân phối các mảng ME5084 cần thiết cho việc cập nhật giải pháp đã đặt ra một giới hạn không mong muốn. Do đó, số lượng nguyên mẫu ME5 có sẵn cho giải pháp đã hạn chế công việc này. Chỉ có hai mảng ME5084 được sử dụng cho các bài kiểm tra điểm chuẩn, giống như cấu hình Trung bình. Tuy nhiên, để so sánh kết quả với thế hệ trước của mảng PowerVault (ME4084), tất cả các kết quả IOzone và IOR đều được ngoại suy cho một cấu hình lớn bằng cách nhân kết quả với 2. Khi các mảng ME5084 bổ sung được phân phối, tất cả các bài kiểm tra điểm chuẩn sẽ được lặp lại trên cấu hình Lớn, sau đó sử dụng lại các bản mở rộng ME484.

Đối với các điểm chuẩn này, giường thử nghiệm bao gồm các khách hàng trong bảng sau: 

Bảng   Giường thử nghiệm khách hàng

Thành phần Sự miêu tả
Số nút máy khách 16
nút máy khách C6420
Bộ xử lý trên mỗi nút máy khách 11 nút với 2 x Intel Xeon Gold 6230 20 lõi @ 2,1 GHz

5 nút với 2 x Intel Xeon Gold 6248 20 lõi @ 2,4 GHz

Bộ nhớ trên mỗi nút máy khách 6230 nút với 12 x 16 GiB 2933 MT/s RDIMM (192 GiB)

6248 nút với 12 x 16 GiB 2666 MT/s RDIMM (192 GiB)

BIOS 2.8.2
Hệ điều hành CentOS 8.4.2105
Nhân hệ điều hành 4.18.0-305.12.1.el8_4.x86_64
phần mềm pixstor 6.0.3.1-1
Thang đo phổ (GPFS) 5.1.3-0
phiên bản OFED MLNX_OFED_LINUX-5.4-1.0.3.0
CX6 FW 8 nút với cổng đơn Mellanox CX6: 20.32.1010

8 nút với cổng đơn Dell OEM CX6: 31.2006

Do chỉ có 16 nút điện toán khả dụng để thử nghiệm nên khi cần số lượng luồng cao hơn, các luồng đó sẽ được phân bổ đồng đều trên các nút điện toán (nghĩa là 32 luồng = 2 luồng trên mỗi nút, 64 luồng = 4 luồng trên mỗi nút, 128 luồng = 8 luồng trên mỗi nút, 256 luồng = 16 luồng trên mỗi nút, 512 luồng = 32 luồng trên mỗi nút, 1024 luồng = 64 luồng trên mỗi nút). Mục đích là để mô phỏng số lượng máy khách đồng thời cao hơn với số lượng nút tính toán hạn chế. Do điểm chuẩn hỗ trợ số lượng lớn luồng nên giá trị tối đa lên tới 1024 đã được sử dụng (được chỉ định cho từng thử nghiệm), tránh chuyển ngữ cảnh quá mức và các tác dụng phụ liên quan khác.

Hiệu suất IOzone tuần tự N máy khách đến N tệp

Hiệu suất của N máy khách liên tiếp đến N tệp được đo bằng IOzone phiên bản 3.492. Các thử nghiệm mà chúng tôi đã chạy thay đổi từ một luồng đơn lẻ cho đến 1024 luồng theo cấp lũy thừa là 2. 

Chúng tôi đã giảm thiểu các tác động của bộ nhớ đệm bằng cách đặt nhóm trang GPFS có thể điều chỉnh thành 16 GiB trên máy khách và sử dụng các tệp lớn hơn gấp đôi kích thước bộ nhớ của máy chủ và máy khách (8 TiB). Lưu ý rằng GPFS đặt dung lượng bộ nhớ tối đa có thể điều chỉnh được sử dụng để lưu dữ liệu vào bộ đệm ẩn, bất kể dung lượng RAM được cài đặt và dung lượng trống. Trong khi ở các giải pháp HPC khác của Dell, trong đó kích thước khối cho các lần truyền tuần tự lớn là 1 MiB, thì GPFS được định dạng bằng các khối 8 MiB; do đó, giá trị kích thước truyền được sử dụng trên điểm chuẩn để có hiệu suất tối ưu. Kích thước khối trên hệ thống tệp có vẻ quá lớn và lãng phí quá nhiều dung lượng, nhưng GPFS sử dụng phân bổ khối con để ngăn tình trạng đó. Trong cấu hình hiện tại, mỗi khối được chia thành 512 khối con, mỗi khối 16 KiB. 

Các lệnh sau được sử dụng để chạy điểm chuẩn cho các hoạt động đọc và ghi, trong đó biến $Threads là số lượng luồng được sử dụng (1 đến 1024 tăng dần theo lũy thừa của 2) và danh sách luồng  là tệp chỉ định mỗi luồng trên một nút khác nhau , sử dụng phương pháp quay vòng để trải chúng đồng nhất trên 16 nút tính toán.

Để tránh mọi hiệu ứng lưu trữ dữ liệu có thể xảy ra từ máy khách, tổng kích thước dữ liệu của các tệp lớn hơn gấp đôi tổng dung lượng RAM mà máy khách và máy chủ có. Đó là bởi vì mỗi máy khách có 128 GiB RAM (tổng 2 TiB) và mỗi máy chủ có 256 GiB (tổng 1 TiB), nên tổng dung lượng là 3 TiB, nhưng 8 TiB dữ liệu đã được sử dụng. 8 TiB được chia đều cho số luồng được sử dụng.

./iozone -i0 -c -e -w -r 8M -s ${Size}G -t $Threads -+n -+m ./threadlist

./iozone -i1 -c -e -w -r 8M -s ${Size}G -t $Threads -+n -+m ./threadlist

Hình    Hiệu suất tuần tự N đến N

QUAN TRỌNG:  Để cho phép so sánh trực tiếp các giá trị mảng ME5 với các giá trị mảng ME4 thu được trước đó trên biểu đồ, kết quả IOzone của cấu hình Trung bình (hai mảng ME5084) được nhân với 2 để ước tính hiệu suất của cấu hình Lớn (bốn mảng ME5084) . 

Từ kết quả, chúng tôi thấy rằng hiệu suất ghi tăng theo số lượng luồng được sử dụng và sau đó đạt đến mức ổn định ở tám luồng cho hoạt động đọc và ghi (các giá trị ở bốn luồng nhỏ hơn một chút). Hiệu suất đọc tăng thêm một chút rồi giảm xuống giá trị ổn định hơn. Hiệu suất ghi dường như ổn định hơn hiệu suất đọc với một biến thể nhỏ xung quanh hiệu suất được duy trì ở mức ổn định. 

Hiệu suất tối đa cho các hoạt động đọc là 31,4 GB/giây ở 16 luồng, thấp hơn khoảng 34,5 phần trăm so với thông số kỹ thuật của mảng ME5084 (xấp xỉ 48 GB/giây) và thấp hơn nhiều so với hiệu suất của liên kết HDR (4 x 25 GB/giây hoặc 100 GB/giây). Ngay cả khi chỉ sử dụng một liên kết HDR trên mỗi máy chủ lưu trữ (tốc độ trần 50 GB/giây), giá trị này vẫn cao hơn thông số kỹ thuật của mảng 4 x ME5084. Ghi hiệu suất cao nhất ở 512 luồng với 27,8 GB/giây, nhưng giá trị tương tự cũng được ghi nhận ở 32 luồng. Giá trị tối đa thấp hơn khoảng 30,5% so với thông số ME5 (40 GB/s). Thử nghiệm ME5 ban đầu đã sử dụng các thiết bị thô có ổ SSD ở RAID (trên mảng ME5024) và ổ cứng HDD ở (8+2) RAID 6 (trên mảng ME5084) và nó có thể đạt được các thông số kỹ thuật của bộ điều khiển. Vì thế, giả định hiện tại là thời gian tìm kiếm được giới thiệu bởi quyền truy cập phân tán GPFS (vị trí ngẫu nhiên của 8 khối GiB trên bề mặt của tất cả các ổ đĩa) đang hạn chế hiệu suất. Việc thêm các bản mở rộng ME484 có thể giúp đạt được hiệu suất gần hơn với các thông số kỹ thuật vì việc có gấp đôi LUN sẽ giảm ảnh hưởng của thời gian tìm kiếm trên toàn hệ thống tệp. Sách trắng tiếp theo của chúng tôi sẽ bao gồm hiệu suất cho các bản mở rộng ME484 và các bài kiểm tra điểm chuẩn sẽ giải quyết giả định này.

Hiệu suất IOR tuần tự N máy khách thành 1 tệp

Hiệu suất của các máy khách N tuần tự cho một tệp được chia sẻ duy nhất được đo bằng IOR phiên bản 3.3.0, với OpenMPI v4.1.2A1 để chạy điểm chuẩn trên 16 nút điện toán. Các thử nghiệm mà chúng tôi đã chạy đa dạng từ một luồng lên đến 512 luồng vì không có đủ lõi cho 1024 luồng trở lên. Điểm chuẩn này đã sử dụng 8 khối MiB để có hiệu suất tối ưu. Phần trước cung cấp giải thích đầy đủ hơn về lý do kích thước khối đó được chọn.

Chúng tôi đã giảm thiểu các tác động của bộ nhớ đệm dữ liệu bằng cách đặt nhóm trang GPFS có thể điều chỉnh thành 16 GiB và tổng kích thước tệp thành 8192 GiB để đảm bảo cả máy khách và máy chủ đều không thể lưu vào bộ nhớ đệm bất kỳ dữ liệu nào. Một phần bằng nhau của tổng số 8 TiB đó được chia cho số luồng ( biến $Size trong đoạn mã sau quản lý giá trị đó).

Các lệnh sau đây được sử dụng để chạy điểm chuẩn cho các hoạt động ghi và đọc, trong đó biến $Threads là số lượng luồng được sử dụng (1 đến 512 tăng dần theo lũy thừa của hai) và my_hosts.$Threads là tệp tương ứng phân bổ mỗi luồng trên một nút khác, sử dụng phương pháp vòng tròn để trải chúng đồng nhất trên 16 nút điện toán:

mpirun –allow-run-as-root -np $Threads –hostfile my_hosts.$Threads –mca btl_openib_allow_ib 1 –mca pml ucx –oversubscribe –prefix /usr/mpi/gcc/openmpi-4.1.2a1 – -map-by node /mmfs1/bench/ior -a POSIX -v -i 1 -d 3 -e -k -o /mmfs1/perftest/tst.file -w -s 1 -t 8m -b ${Size} g 

mpirun –allow-run-as-root -np $Threads –hostfile my_hosts.$Threads –mca btl_openib_allow_ib 1 –mca pml ucx –oversubscribe –prefix /usr/mpi/gcc/openmpi-4.1.2a1 – -map-by node /mmfs1/bench/ior -a POSIX -v -i 1 -d 3 -e -k -o /mmfs1/perftest/tst.file -r -s 1 -t 8m -b ${Size} g

Hình    Hiệu suất tuần tự N đến 1

QUAN TRỌNG:  Để cho phép so sánh trực tiếp các giá trị mảng ME5 với các giá trị mảng ME4 thu được trước đó trên biểu đồ, kết quả IOzone của cấu hình Trung bình (hai mảng ME5084) được nhân với 2 để ước tính hiệu suất của cấu hình Lớn (bốn mảng ME5084) .

Từ kết quả, chúng tôi thấy rằng hiệu suất đọc và ghi cao bất kể nhu cầu ẩn về cơ chế khóa vì tất cả các luồng đều truy cập vào cùng một tệp. Hiệu suất tăng nhanh với số lượng luồng được sử dụng và sau đó đạt mức ổn định ở tám luồng tương đối ổn định cho đến số lượng luồng tối đa được sử dụng trong bài kiểm tra này. Lưu ý rằng hiệu suất đọc tối đa là 30,9 GB/giây ở 16 luồng, nhưng tương tự như các thử nghiệm từ N đến N tuần tự, hiệu suất sẽ giảm nhẹ cho đến khi đạt được giá trị ổn định hơn. Hiệu suất ghi tối đa là 23 GB/giây đạt được ở 32 luồng và duy trì ổn định ở số lượng luồng cao hơn. 

Các khối nhỏ ngẫu nhiên Hiệu suất IOzone N máy khách thành N tệp

Hiệu suất N máy khách ngẫu nhiên đến N tệp được đo bằng IOzone phiên bản 3.492. Các thử nghiệm mà chúng tôi đã chạy thay đổi từ một luồng đơn lẻ cho đến 1024 luồng theo cấp lũy thừa là 2.

Các thử nghiệm mà chúng tôi đã chạy đa dạng từ một luồng đơn lên đến 512 luồng vì không có đủ lõi máy khách cho 1024 luồng. Mỗi luồng sử dụng một tệp khác nhau và các luồng được chỉ định bằng phương pháp vòng tròn trên các nút máy khách. Bài kiểm tra điểm chuẩn này đã sử dụng 4 khối KiB để mô phỏng lưu lượng khối nhỏ.

Chúng tôi đã giảm thiểu các hiệu ứng bộ đệm bằng cách đặt nhóm trang GPFS có thể điều chỉnh thành 4 GiB và để tránh mọi hiệu ứng bộ đệm dữ liệu có thể xảy ra từ máy khách. Tổng kích thước dữ liệu của các tệp được tạo lại là 8.192 GiB chia cho số luồng (biến $Size trong đoạn mã sau được sử dụng để quản lý giá trị đó). Tuy nhiên, các hoạt động ngẫu nhiên thực tế được giới hạn ở 128 GiB (4 GiB x 16 máy khách x 2) để tiết kiệm thời gian chạy có thể rất dài do IOPS thấp trên các ổ đĩa NLS. 

. ./iozone -i0 -I -c -e -w -r 8M -s ${Size}G -t $Threads -+n -+m ./me5_threadlist         <= Tạo tệp tuần tự

./iozone -i2 -I -O -w -r 4k -s ${Size}G -t $Threads -+n -+m ./me5_threadlist    <= Thực hiện đọc và ghi ngẫu nhiên

Hình    Hiệu suất ngẫu nhiên từ N đến N

QUAN TRỌNG:  Để cho phép so sánh trực tiếp các giá trị mảng ME5 với các giá trị mảng ME4 thu được trước đó trên biểu đồ, kết quả IOzone của cấu hình Trung bình (hai mảng ME5084) được nhân với 2 để ước tính hiệu suất của cấu hình Lớn (bốn mảng ME5084) .

Từ kết quả, chúng tôi thấy rằng hiệu suất ghi bắt đầu ở giá trị cao là 15,2K IOPS và tăng lên mức cao nhất là 20,8K IOPS ở 4 luồng, sau đó giảm dần cho đến khi đạt mức ổn định ở 16 luồng (15-17K IOPS). Hiệu suất đọc bắt đầu ở mức thấp 1,5K IOPS ở 16 luồng và tăng dần theo số lượng luồng được sử dụng (số lượng luồng được nhân đôi cho mỗi điểm dữ liệu) cho đến khi đạt được hiệu suất tối đa 31,8K IOPS ở 512 luồng mà không đạt đến mức ổn định. Việc sử dụng nhiều luồng hơn sẽ yêu cầu hơn 16 nút tính toán để tránh tình trạng cạn kiệt tài nguyên và hoán đổi quá mức có thể làm giảm hiệu suất rõ ràng. Vì ổ cứng NLS tìm kiếm giới hạn thời gian IOPS tối đa từ lâu trước khi đạt đến thông số kỹ thuật ME5 của bộ điều khiển, nên việc sử dụng bản mở rộng ME484 có thể giúp tăng IOPS; và các ổ đĩa nhanh hơn (10K, 15K hoặc SSD) có thể giúp ích nhiều hơn nữa. Tuy nhiên,

Hiệu suất siêu dữ liệu với MDtest

HDMD tùy chọn được sử dụng trong thử nghiệm này là với một cặp máy chủ PowerEdge R650 với 10 thiết bị PM1735 NVMe PCIe 4 trên mỗi máy chủ. Hiệu suất siêu dữ liệu được đo bằng MDtest phiên bản 3.3.0, với OpenMPI v4.1.2A1 để chạy điểm chuẩn trên 16 nút tính toán. Các bài kiểm tra mà chúng tôi đã chạy đa dạng từ một luồng cho đến 512 luồng. Điểm chuẩn chỉ được sử dụng cho các tệp (không có siêu dữ liệu thư mục), lấy số lượng hoạt động tạo, thống kê, đọc và xóa mà giải pháp có thể xử lý.

Vì cùng một mô-đun NVMe siêu dữ liệu nhu cầu cao đã được sử dụng cho các thử nghiệm điểm chuẩn trước đây của giải pháp lưu trữ pixstor, kết quả siêu dữ liệu tương tự như kết quả trước đó (bậc NVMe). Do đó, nghiên cứu với tệp trống và 3 tệp KiB đã được đưa vào để hoàn thiện, nhưng kết quả với 4 tệp KiB phù hợp hơn cho blog này. Vì 4 tệp KiB không thể vừa với một inode cùng với thông tin siêu dữ liệu, nên các mảng ME5 được sử dụng để lưu trữ dữ liệu cho từng tệp. Do đó, MDtest cũng có thể cung cấp ước tính gần đúng về hiệu suất của tệp nhỏ đối với thao tác đọc và phần còn lại của thao tác siêu dữ liệu bằng cách sử dụng mảng ME5.

Lệnh sau được sử dụng để chạy điểm chuẩn, trong đó biến $Threads là số lượng luồng được sử dụng (1 đến 512 tăng dần theo lũy thừa của hai) và my_hosts.$Threads là tệp tương ứng phân bổ mỗi luồng trên một nút khác nhau, sử dụng phương pháp quay vòng để trải chúng đồng nhất trên 16 nút tính toán. Kích thước tệp cho các thao tác đọc và tạo được lưu trữ trong $FileSize . Giống như điểm chuẩn IO ngẫu nhiên, số lượng luồng tối đa được giới hạn ở 512 vì không có đủ lõi trên các nút máy khách cho 1024 luồng. Chuyển ngữ cảnh có thể ảnh hưởng đến kết quả, báo cáo một số thấp hơn hiệu suất thực của giải pháp.

mpirun –allow-run-as-root -np $Threads –hostfile my_hosts.$Threads –prefix /usr/mpi/gcc/openmpi-4.1.2a1 –map-by node –mca btl_openib_allow_ib 1 /mmfs1/ băng ghế/mdtest -v -P -d /mmfs1/perftest -i 1 -b $Directories -z 1 -L -I 1024 -u -t -w $FileSize -e $FileSize

Vì tổng số IOPS, số tệp trên mỗi thư mục và số luồng có thể ảnh hưởng đến kết quả hoạt động nên chúng tôi quyết định giữ cố định tổng số tệp thành 2 tệp MiB (2^21 = 2097152), số lượng các tệp trên mỗi thư mục được cố định ở mức 1024 và số lượng thư mục thay đổi khi số lượng luồng thay đổi, như thể hiện trong bảng sau:

Bảng   Phân phối MDtest của các tệp trên các thư mục

Số của chủ đề Số lượng thư mục trên mỗi chủ đề Tổng số tệp
1 2048 2.097.152
2 1024 2.097.152
4 512 2.097.152
số 8 256 2.097.152
16 128 2.097.152
32 64 2.097.152
64 32 2.097.152
128 16 2.097.152
256 số 8 2.097.152
512 4 2.097.152

Hình    Hiệu suất siêu dữ liệu – các tập tin trống

Thang đo được chọn là logarit với cơ số 10 để cho phép so sánh các hoạt động có sự khác biệt về một số bậc độ lớn; nếu không, một số hoạt động sẽ xuất hiện giống như một đường thẳng gần bằng 0 trên thang tuyến tính. Biểu đồ logarit với cơ số 2 phù hợp hơn vì số luồng được tăng theo lũy thừa của 2. Biểu đồ như vậy sẽ trông giống nhau, nhưng mọi người có xu hướng nhận biết và ghi nhớ các số dựa trên lũy thừa của 10 tốt hơn.

Các tệp trống không liên quan đến tất cả các mảng ME5 và chỉ biểu thị hiệu suất trên máy chủ PowerEdge R650 có ổ NVMe. Hệ thống cung cấp kết quả tốt với hoạt động thống kê đạt giá trị cao nhất ở 256 luồng với gần 8,6 triệu thao tác/giây và sau đó giảm xuống ở 512 luồng. Hoạt động tạo đạt tối đa 239,6K op/s ở 64 luồng rồi giảm nhẹ cho đến khi đạt mức ổn định ở 128 luồng. Hoạt động đọc đạt tối đa 3,7M thao tác/giây ở 128 luồng, sau đó giảm dần. Tốc độ cao nhất của thao tác loại bỏ là 312,9K thao tác/giây ở 64 luồng, sau đó giảm nhẹ và dường như đạt đến mức ổn định.

Hiệu suất siêu dữ liệu với 3 tệp KiB

Hình    Hiệu suất siêu dữ liệu – 3 tệp KiB

Thang đo được chọn là logarit với cơ số 10 để cho phép so sánh các hoạt động có sự khác biệt về một số bậc độ lớn; nếu không, một số hoạt động sẽ xuất hiện giống như một đường thẳng gần bằng 0 trên thang tuyến tính. Biểu đồ logarit với cơ số 2 phù hợp hơn vì số luồng được tăng theo lũy thừa của 2. Biểu đồ như vậy sẽ trông giống nhau, nhưng mọi người có xu hướng nhận biết và ghi nhớ các số dựa trên lũy thừa của 10 tốt hơn. 

Lưu ý rằng 3 tệp KiB vẫn hoàn toàn phù hợp với các nút và do đó không liên quan đến mảng ME5 mà chỉ thể hiện hiệu suất trên máy chủ PowerEdge R650 có ổ NVMe. Hệ thống cung cấp kết quả tốt với hoạt động thống kê đạt giá trị cao nhất ở 512 luồng với 9,9 triệu thao tác/giây. Hoạt động tạo đạt tối đa 192,2K thao tác/giây ở 128 luồng và dường như đạt đến mức ổn định. Hoạt động đọc đạt tối đa 3M thao tác/giây ở 128 luồng. Thao tác xóa đạt đỉnh 298,7K thao tác/giây ở 128 luồng. 

Hiệu suất siêu dữ liệu với 4 tệp KiB

Hình  10   Hiệu suất siêu dữ liệu – 4 tệp KiB

Thang đo được chọn là logarit với cơ số 10 để cho phép so sánh các hoạt động có sự khác biệt về một số bậc độ lớn; nếu không, một số hoạt động sẽ xuất hiện giống như một đường thẳng gần bằng 0 trên thang tuyến tính. Biểu đồ logarit với cơ số 2 phù hợp hơn vì số luồng được tăng theo lũy thừa của 2. Biểu đồ như vậy sẽ trông giống nhau, nhưng mọi người có xu hướng nhận biết và ghi nhớ các số dựa trên lũy thừa của 10 tốt hơn.

Hệ thống cung cấp kết quả tốt với hoạt động thống kê đạt giá trị cao nhất ở 256 luồng với gần 9,8 triệu thao tác/giây và sau đó giảm xuống ở 512 luồng. Hoạt động tạo đạt tối đa 115,6K op/s ở 128 luồng rồi giảm nhẹ cho đến khi đạt 512 luồng trong đó giá trị giảm xuống dưới 40 phần trăm so với mức cao nhất. Hoạt động đọc đạt tối đa 4M IOPS ở 256 luồng, có vẻ như quá cao đối với ổ NLS (có thể ngụ ý rằng hệ thống tệp đang lưu vào bộ nhớ đệm tất cả dữ liệu cần thiết cho hầu hết các điểm dữ liệu), đột ngột giảm xuống còn 512 luồng. Cần nhiều công việc hơn để hiểu sự sụt giảm đột ngột đối với hoạt động tạo và hiệu suất đọc cao. Cuối cùng, loại bỏ hoạt động cao nhất ở 286,6K thao tác/giây ở 128 luồng và giảm ở số lượng luồng cao hơn.

Kết luận và công việc tương lai

Mảng ME5 mới giúp tăng hiệu suất đáng kể (71 phần trăm cho thao tác đọc và 82 phần trăm cho thao tác ghi từ thông số kỹ thuật). Các mảng mới đã trực tiếp tăng hiệu suất cho giải pháp pixstor, nhưng không đạt đến mức mong đợi từ thông số kỹ thuật, như đã thấy trong Bảng 4. Vì giải pháp pixstor sử dụng quyền truy cập phân tán theo mặc định, nên các bản mở rộng ME484 được kỳ vọng sẽ giúp tiến gần hơn đến giới hạn của bộ điều khiển ME5.

Giải pháp này cung cấp cho khách hàng HPC một hệ thống tệp song song đáng tin cậy (Spectrum Scale – còn được gọi là GPFS) được sử dụng bởi nhiều cụm HPC Top500. Ngoài ra, nó cung cấp các khả năng tìm kiếm đặc biệt mà không làm giảm hiệu suất, cũng như quản lý và giám sát nâng cao. Bằng cách sử dụng các giao thức tiêu chuẩn như NFS, SMB và các giao thức khác, các cổng tùy chọn cho phép chia sẻ tệp tới nhiều máy khách nếu cần. Các nút ngenea tùy chọn cho phép phân tầng các bộ lưu trữ khác của Dell như Dell PowerScale, Dell ECS, các nhà cung cấp khác và thậm chí cả bộ lưu trữ đám mây.

Bảng     Hiệu suất cao nhất và bền vững với mảng ME5084

điểm chuẩn Hiệu suất cao điểm hiệu suất bền vững
Viết Đọc Viết Đọc
Máy khách N tuần tự lớn đến N tệp 31,4 GB/giây 27,8 GB/giây 28GB/giây 26GB/giây
Máy khách N tuần tự lớn cho một tệp được chia sẻ 30,9 GB/giây 27,8 GB/giây 27,3 GB/giây 27GB/giây
Khối nhỏ ngẫu nhiên N máy khách thành N tệp 31,8K IOPS 20,8K IOPS 15,5K IOPS 27K IOPS
Siêu dữ liệu Tạo 4 tệp KiB 115,6K IOPS 50K IOPS
Tệp siêu dữ liệu Stat 4 KiB 9,8M IOPS IOPS 1,4M
Siêu dữ liệu Xóa 4 tệp KiB 286,7K IOPS 195K IOPS

Khi thêm hai ME5084 bổ sung vào giải pháp pixstor, giải pháp này sẽ được đo điểm chuẩn đầy đủ dưới dạng Cấu hình lớn (bốn mảng ME5084). Nó cũng sẽ được đo điểm chuẩn đầy đủ sau khi thêm các mảng mở rộng (bốn mảng ME484). Một tài liệu khác sẽ được phát hành với điều này và bất kỳ thông tin bổ sung nào.