Lưu trữ do HPC xác định bằng phần mềm với PixStor (4)

Cấu hình lưu trữ trên Mảng ME4

Thiết kế đã được xác thực cho Bộ lưu trữ HPC PixStor có hai biến thể — cấu hình tiêu chuẩn và biến thể bao gồm mô-đun siêu dữ liệu có nhu cầu cao . Ở cấu hình tiêu chuẩn, cùng một cặp máy chủ PowerEdge R750 sử dụng mảng PowerVault ME4084 của chúng để lưu trữ DỮ LIỆU trên ổ cứng NLS SAS3 và siêu dữ liệu trên ổ cứng thể rắn SAS3. TRÊN  Hình 12 chúng ta có thể thấy cấu hình PowerVault ME4084 này cho biết các ổ đĩa được gán cho các LUN khác nhau như thế nào. Lưu ý rằng mỗi PowerVault ME4084 có tám RAID6 tuyến tính (8 đĩa dữ liệu + 2 đĩa chẵn lẻ) Đĩa ảo chỉ được sử dụng cho DATA khi ổ cứng được chọn xen kẽ các khe đĩa số chẵn cho một LUN và các khe đĩa số lẻ cho LUN tiếp theo và mẫu đó lặp lại cho đến khi tất cả 80 đĩa NLS được sử dụng. Bốn khe đĩa cuối cùng có ổ SSD SAS3, được định cấu hình thành hai cặp RAID 1 tuyến tính và chỉ chứa siêu dữ liệu. RAID tuyến tính được chọn thay vì RAID ảo để cung cấp hiệu suất tối đa có thể cho mỗi đĩa ảo. Tương tự, RAID 6 đã được chọn thay vì ADAPT mặc dù có lợi thế về tốc độ khi xây dựng lại sau khi bị lỗi.

Khi mô-đun lưu trữ có một PowerVault ME4084 duy nhất, sau đó GPFS được hướng dẫn sao chép RAID 1 đầu tiên trên RAID 1 thứ hai như một phần của nhóm lỗi. Tuy nhiên, khi mô-đun lưu trữ có 2 hoặc 4 PowerVault ME4084, các mảng đó được chia theo cặp và GPFS được hướng dẫn sao chép từng RAID 1 trên một mảng sang mảng kia, sử dụng các nhóm lỗi khác nhau. Do đó, mỗi RAID 1 luôn có một bản sao được quản lý bởi nhóm lỗi GPFS.

Tất cả các ổ đĩa ảo đều có các ổ đĩa được liên kết mở rộng toàn bộ kích thước của chúng và được ánh xạ tới tất cả các cổng, do đó, tất cả chúng đều có thể truy cập được vào bất kỳ cổng HBA nào từ hai PowerEdge R750 được kết nối với chúng. Ngoài ra, mỗi PowerEdge R750 có một cổng HBA được kết nối với từng bộ điều khiển PowerVault ME4084 từ mảng lưu trữ của chúng. Như vậy, ngay cả khi một máy chủ đang hoạt động và chỉ một cáp SAS duy nhất vẫn được kết nối với từng PowerVault ME4084, giải pháp vẫn có thể cung cấp quyền truy cập vào tất cả dữ liệu được lưu trữ trong các mảng ME4. Mảng mở rộng dung lượng tùy chọn PowerVault ME484 sử dụng chính xác cấu hình của PowerVault ME4084 mà chúng được kết nối, bao gồm bốn ổ SSD dành cho siêu dữ liệu .

Các ổ đĩa ME4084 (hoặc MD484) được gán cho LUN cho cấu hình Tiêu chuẩn

Hình 12. Ổ đĩa PowerVault ME4084 (hoặc MD484) được gán cho LUN cho cấu hình Tiêu chuẩn   

Khi sử dụng mô-đun siêu dữ liệu có nhu cầu cao tùy chọn , tám RAID 6 được chỉ định giống như cấu hình tiêu chuẩn và cũng chỉ được sử dụng để lưu trữ dữ liệu. Tuy nhiên, thay vì SSD, bốn khe đĩa cuối cùng có ổ cứng NLS SAS3 được sử dụng làm dự phòng nóng cho bất kỳ đĩa nào bị lỗi trong mảng, xem Hình 13.

Các ổ đĩa ME4084 (hoặc ME484) được gán cho LUN để định cấu hình với siêu dữ liệu có nhu cầu cao

Hình 13. Ổ đĩa PowerVault ME4084 (hoặc ME484) được gán cho LUN để cấu hình với siêu dữ liệu có nhu cầu cao   

Với mô-đun siêu dữ liệu có nhu cầu cao, các mảng mở rộng dung lượng tùy chọn PowerVault ME484 cũng sử dụng chính xác cấu hình của PowerVault ME4084 mà chúng được kết nối, bao gồm cả bốn ổ cứng dự phòng.

Một cặp máy chủ PowerEdge R750 bổ sung được kết nối với một hoặc nhiều PowerVault ME4024, được dùng để lưu trữ siêu dữ liệu. Các mảng đó được gắn với ổ đĩa thể rắn SAS3 được định cấu hình là mười hai Đĩa ảo RAID 1 (VD) và các đĩa cho các VD đó được chọn bắt đầu từ khe đĩa 1 và đối với máy nhân bản của nó, di chuyển mười hai đĩa sang bên phải (khe N & Khe N+12 ), như có thể thấy trong Hình 14. Tương tự như cấu hình tiêu chuẩn, khi sử dụng một mảng PowerVault ME4024, GPFS sẽ được hướng dẫn sao chép siêu dữ liệu bằng cách sử dụng các cặp RAID 1 LUN như một phần của nhóm lỗi. Tuy nhiên, nếu sử dụng nhiều PowerVault ME4024 thì phần LUN của các nhóm lỗi được giữ trong các mảng riêng biệt.

Tất cả các ổ đĩa ảo trên mô-đun lưu trữ và mô-đun HDMD được xuất dưới dạng ổ đĩa có thể truy cập vào bất kỳ cổng HBA nào từ hai PowerEdge R750 được kết nối với mảng PowerVault ME4 tương ứng và mỗi PowerEdge R750 có một cổng HBA được kết nối với từng bộ điều khiển PowerVault ME4 từ mảng lưu trữ của họ. Như vậy, ngay cả khi một máy chủ đang hoạt động và chỉ một cáp SAS duy nhất vẫn được kết nối với từng ME4, thì giải pháp vẫn có thể cung cấp quyền truy cập vào tất cả dữ liệu (hoặc siêu dữ liệu) được lưu trữ trong các mảng đó .

Các ổ đĩa ME4024 được gán cho LUN để định cấu hình với siêu dữ liệu có nhu cầu cao

Hình 14. Ổ đĩa PowerVault ME4024 được gán cho LUN để cấu hình với siêu dữ liệu có nhu cầu cao   

Cuối cùng, mạng tốc độ cao được kết nối thông qua bộ điều hợp CX6 để xử lý việc trao đổi thông tin với máy khách, đồng thời cũng để đánh giá xem một phần nút của mô-đun có hoạt động hay không.

 

Cấu hình cấp NVMe

Mỗi máy chủ PowerEdge R650 có 10 thiết bị NVMe được kết nối trực tiếp với CPU trong Ổ cắm 1 (vì vậy đây không phải là cấu hình cân bằng về miền NUMA) và hai bộ điều hợp HCAs Mellanox ConnectX-6 Cổng đơn VPI HDR (một cho mỗi ổ cắm CPU). Đối với cấu hình được đặc trưng, ​​các thiết bị Dell AG 1.6TB (PM1735) PCIe4 đã được sử dụng, vì chúng có cùng hiệu suất đọc và ghi cho các khối lớn và hiệu suất I/O ngẫu nhiên khá tốt cho các lần truyền nhỏ, đây là những tính năng hay khi cố gắng mở rộng quy mô và ước tính số lượng cặp cần thiết để đáp ứng các yêu cầu của tầng flash này. Tuy nhiên, mọi thiết bị NVMe được hỗ trợ trên PowerEdge R650 đều được hỗ trợ cho các nút NVMe.

Các ổ NVMe đó được định cấu hình thành tám thiết bị RAID 10 trên một cặp máy chủ, sử dụng NVMesh làm thành phần NVMe trên Fabric để cho phép dự phòng dữ liệu — không chỉ ở cấp độ thiết bị mà còn ở cấp độ máy chủ. Ngoài ra, khi bất kỳ dữ liệu nào đi vào hoặc ra khỏi một trong các thiết bị RAID10 đó, tất cả 20 ổ đĩa trong cả hai máy chủ đều được sử dụng, làm tăng băng thông truy cập băng thông của tất cả các ổ đĩa. Do đó, hạn chế duy nhất đối với các máy chủ cấp NVMe này là chúng phải được sử dụng theo cặp.

PowerEdge R650s được thử nghiệm trong cấu hình này có hai bộ điều hợp CX6 VPI HDR 200 Gbps IB. Cả hai giao diện CX6 đều được sử dụng tích cực để di chuyển dữ liệu, đồng bộ hóa RAID 10 NVMe trên kết cấu và làm kết nối cho hệ thống tệp với máy khách. Ngoài ra, chúng cung cấp khả năng dự phòng phần cứng ở cấp độ bộ điều hợp, cổng, cáp nhưng hiệu suất bị ảnh hưởng nếu chỉ có một bộ điều hợp hoạt động. Tài liệu tiếp theo sẽ mô tả chi tiết các tùy chọn cho thế hệ mới của cấp độ NVMe, bao gồm cả đặc tính hiệu suất của cấp độ đó .

 

Nút cổng

Các nút cổng sử dụng PowerEdge R750 nhưng với cấu hình RAID khác có bốn khe cắm x16 và hai x8 khả dụng cho bất kỳ bộ điều hợp nào khác. Bốn khe cắm x16 có bộ điều hợp VPI một cổng Mellanox ConnectX-6, có thể được định cấu hình cho kết nối IB HDR hoặc Ethernet 200 Gb hoặc bất kỳ tốc độ nào được các bộ điều hợp đó hỗ trợ, ít nhất một trong số các bộ điều hợp đó phải được kết nối với bộ lưu trữ PixStor giải pháp để có quyền truy cập vào hệ thống tệp, hai kết nối nếu cần có dự phòng trên bất kỳ cổng nào. Ngoài ra, các cổng có thể được kết nối với các mạng khác có thêm NIC được hỗ trợ bởi PowerEdge R750 trên hai khe cắm x8 có sẵn (một khe cắm x8 bên trong được sử dụng bởi bộ điều hợp PERC đặc biệt để quản lý SSD cục bộ cho HĐH).

điệu SambaClustered Trivial DataBase (CTDB)là một cơ sở dữ liệu theo cụm được sử dụng để quản lý các dịch vụ NFS và SMB trên các nút cổng, cung cấp tính sẵn sàng cao, cân bằng tải và giám sát các nút trong cụm CTDB. Đối với mỗi cổng trong cụm CTDB, một mục nhập Hệ thống tên miền (DNS) có bản ghi IP của chúng sẽ được thêm vào, sao cho tất cả đều có cùng tên máy chủ, một loại “tên cổng công cộng”. Sau đó, tên cổng đó sẽ được các máy khách sử dụng để gắn kết các dịch vụ đó, theo cách đó, daemon máy chủ định danh (được đặt tên) có thể chỉ định tất cả các cổng trong cụm CTDB cho các máy khách theo kiểu luân chuyển tuần tự. Khi cần, NFS-Ganesha (mã nguồn mở, không gian người dùng, máy chủ tệp NFS) có thể được sử dụng thay thế cho các dịch vụ máy chủ NFS thông thường và nó cũng được quản lý bởi cụm CTDB.

Đằng sau các cổng, hệ thống PixStor phải được truy cập và xuất cho khách hàng. Để mô tả đặc điểm của các cổng trong công việc này, một giải pháp PixStor với siêu dữ liệu có nhu cầu cao và các mô-đun mở rộng dung lượng đã được sử dụng.

Do bộ lưu trữ phụ trợ vẫn giữ nguyên nên hiệu suất của nút cổng dự kiến ​​sẽ không thay đổi đáng kể. Do đó, đặc tính hiệu suất cổng không được bao gồm trong tài liệu này .

 

Nút Ngenea

Phần cứng dành cho các nút Ngenea hoàn toàn giống với phần cứng dành cho các nút cổng, nhưng được cài đặt phần mềm khác và yêu cầu giấy phép phần mềm khác. Vì các nút này chưa được thử nghiệm tại thời điểm xuất bản tác phẩm này nên một blog trong tương lai sẽ mô tả chúng chi tiết hơn và trình bày một số đặc tính hiệu suất cho các giải pháp lưu trữ PixStor.