Nâng cao tính khả dụng của các dịch vụ lưu trữ với Hệ thống lưu trữ NFS (2)

Tổng quan về đối tác

Dell Technologies và Red Hat hợp tác để khai thác sự đổi mới và cung cấp các giải pháp, dịch vụ và hỗ trợ tích hợp.

 

Red Hat

Red Hat Enterprise Linux là nền tảng Linux dành cho doanh nghiệp hàng đầu thế giới. Đó là một hệ điều hành mã nguồn mở mà từ đó bạn có thể thay đổi quy mô các ứng dụng hiện có và triển khai
các công nghệ mới nổi trên bare – metal, ảo, vùng chứa và tất cả các loại
môi trường đám mây.

 

Cấu hình và điều chỉnh

Thiết kế đã được xác thực của Dell Technologies dành cho Bộ lưu trữ HPC NFS được tối ưu hóa và điều chỉnh để có hiệu suất cho mục đích chung tốt nhất trong môi trường HPC giả định các mục đích sử dụng phổ biến như thư mục chính cho nhiều người dùng với số lượng tệp trên mỗi thư mục cao, tệp lớn và quyền truy cập ngẫu nhiên vào thư mục tương đối lớn tệp (vài GiB) từ các quy trình độc lập đồng thời.

Truy cập đồng thời vào một tệp được chia sẻ được hỗ trợ, nhưng hiệu suất của nó không được mô tả trong tài liệu này. Ngoài ra, dữ liệu phải được bảo vệ bởi hai bộ chẵn lẻ (ổ đĩa RAID 6), tự động cho phép ghi vào một số lượng lớn đĩa mà không cần bất kỳ cấu hình bổ sung nào (tám x ổ đĩa 8+2_RAID6 bị loại bỏ qua LVM = 80 ổ cứng hoạt động cùng nhau, sau đó được định dạng dưới dạng một hệ thống tệp XFS duy nhất), được chia sẻ với các nút máy khách HPC thông qua hệ thống tệp mạng mới nhất (NFSv4), với dịch vụ NFS được lưu trữ từ môi trường (HA) có tính sẵn sàng cao (cụm HA chủ động-thụ động), với một vài điểm duy nhất của thất bại càng tốt (lý tưởng là không).

Hệ điều hành được hỗ trợ tối thiểu để sử dụng bộ xử lý Intel Xeon Scalable thế hệ thứ ba và Red Hat Enterprise Linux 8, là RHEL 8.2. Tuy nhiên, phiên bản RHEL 8.3 đã được chọn vì phiên bản này cung cấp các phiên bản mới hơn cho một số thành phần quan trọng, ngụ ý một số cải tiến và thời gian sản xuất lâu hơn trước khi xem xét cập nhật phần mềm.

Các hướng dẫn triển khai và thiết kế hệ thống của giải pháp này vẫn phù hợp với dòng giải pháp Giải pháp lưu trữ NFS (NSS)-Tính sẵn sàng cao (HA). Ví dụ:  NSS7.4-HA , dùng chung Dell EMC PowerVault ME4084, chuyển đổi PDU giá đỡ cho hàng rào máy chủ (APC AP7921B) và chuyển mạch Ethernet bằng PowerSwitch S3048-ON với giải pháp này.

Thiết kế dành cho Lưu trữ NFS này dựa trên các máy chủ Dell EMC PowerEdge R750 với bộ xử lý Xeon Scalable thế hệ thứ ba của Intel, có tên mã là “Ice Lake”. Bộ xử lý Intel Xeon Scalable cải tiến có tới 40 lõi, bộ nhớ đệm cấp cuối cùng lên tới 60 MiB, tám kênh bộ nhớ 3200 MT/s trên mỗi ổ cắm CPU (một hoặc hai DIMM trên mỗi kênh bộ nhớ) và các khe cắm PCIe 4.0, tất cả các tính năng chính cho bản địa hóa cải thiện hiệu suất, vì nút cổ chai thường nằm trong bộ lưu trữ phía sau. Mạng tốc độ cao mới, InfiniBand HDR100, cung cấp các cải tiến như: Công nghệ mạng tự phục hồi, tốc độ tin nhắn được cải thiện, định tuyến thích ứng, kiểm soát tắc nghẽn, chất lượng dịch vụ, bảo mật, giảm tải, v.v.

Hệ điều hành mới RHEL 8.3 cung cấp các cải tiến quan trọng trong nhiều lĩnh vực khác nhau, bao gồm cả hệ thống con IO, hệ thống tệp XFS, bộ HA, kết nối mạng và giám sát tài nguyên tốt hơn. Tuy nhiên, điểm cải tiến chính mà RHEL 8.x mang lại là những tiến bộ của XFS cho phép Red Hat tăng giới hạn dung lượng được hỗ trợ mặc định từ 500 TiB trong RHEL 7.x, lên 1 PiB trong RHEL 8.x. Điều này cho phép Dell EMC PowerVault ME4084 sử dụng tất cả  các dung lượng ổ cứng  NLS 3,5” mới được hỗ trợ  đĩa lên đến 18TB.

Hình 1 cho thấy kiến ​​trúc của Thiết kế đã được Xác thực của Dell Technologies dành cho Lưu trữ NFS. Cặp máy chủ PowerEdge R750 hoạt động như máy chủ NFS trong cấu hình cụm có tính sẵn sàng cao chủ động-thụ động, cả hai đều được kết nối qua cáp SAS 12 Gb/giây với mảng lưu trữ Dell EMC PowerVault ME4084.

Có hai thẻ SAS HBA355e trong mỗi máy chủ NFS, với mỗi thẻ HBA được kết nối với bộ điều khiển PowerVault ME4084 SAS khác nhau qua cáp SAS. Do đó, một thẻ SAS HBA đơn lẻ hoặc một lỗi cáp SAS đơn lẻ không ảnh hưởng đến tính khả dụng của dữ liệu trên máy chủ đang hoạt động. Tuy nhiên, hiệu suất sẽ bị giảm do thay vì truy cập 4 LUN trên mỗi cáp SAS, tất cả 8 LUN sẽ sử dụng cùng một đường dẫn SAS. Cấu hình mảng lưu trữ về cơ bản vẫn giữ nguyên như được sử dụng trong các giải pháp NFS dựa trên ME4 gần đây và cấu hình cụm HA rất giống với cấu hình được sử dụng trong phiên bản 7.4, tuy nhiên, phiên bản mới nhất của phần mềm HA đi kèm với RHEL 8 đã kéo theo một số thay đổi.

Bạn nên định cấu hình cài đặt BIOS của máy chủ NFS dựa trên cấu hình HPC như được mô tả trong  đặc tính BIOS blog cho bộ xử lý Intel Ice Lake . Điều này bao gồm điều chỉnh BIOS như: tắt bộ xử lý logic, cấu hình hệ thống được đặt thành Tối ưu hóa hiệu suất, cài đặt khác ảnh hưởng đến quá trình truyền được đặt thành bật: DeadLineLlcAlloc, LlcPrefetch, XptPrefetch, UpiPrefetch, DcuIpPrefetcher, DcuStreamerPrefetcher và ProcAdjCacheLine.

Tuy nhiên, do các giải pháp lưu trữ bị ràng buộc I/O và giải pháp này có bộ điều hợp HBA trong cả hai ổ cắm, nên việc vô hiệu hóa cụm Sub-NUMA sẽ tránh được độ trễ giữa các miền trong mỗi ổ cắm với nhiều bộ nhớ khả dụng hơn cho bộ đệm, bộ đệm. Bạn nên cập nhật phiên bản BIOS và chương trình cơ sở mới nhất cho tất cả các thành phần máy chủ khác nhau (SSD, PERC, Bảng nối đa năng, LOM, InfiniBand CX6, PSU, v.v.) bao gồm cả iDRAC.

Tương tự, bạn nên sử dụng phiên bản chương trình cơ sở mới nhất cho bộ điều khiển PowerVault ME4084 (phiên bản hiện tại GT280R008-04) và ổ cứng của nó. Nếu có thể sửa đổi cấu hình InfiniBand của các nút máy khách, để có hiệu suất IP qua InfiniBand (IPoIB) tốt nhất, bạn nên sử dụng datagram và MTU 4096 cho tất cả các kết nối InfiniBand. Vượt qua các miền trong mỗi ổ cắm với nhiều bộ nhớ khả dụng hơn cho bộ đệm, bộ đệm. Bạn nên cập nhật phiên bản BIOS và chương trình cơ sở mới nhất cho tất cả các thành phần máy chủ khác nhau (SSD, PERC, bảng nối đa năng, LOM, InfiniBand CX6, PSU, v.v.) bao gồm cả iDRAC. Tương tự, bạn nên sử dụng phiên bản chương trình cơ sở mới nhất cho bộ điều khiển PowerVault ME4084 (phiên bản hiện tại GT280R008-04) và ổ cứng của nó. Nếu có thể sửa đổi cấu hình InfiniBand của các nút máy khách, 4096 cho tất cả các kết nối InfiniBand được khuyến nghị. P158#y1

Hình 2. Kiến trúc cho Thiết kế đã được Xác thực của Dell Technologies dành cho bộ lưu trữ HPC NFS

Nhóm Kỹ thuật HPC đã thực hiện một loạt các bài kiểm tra điểm chuẩn hiệu suất và tính khả dụng cao trên giải pháp Lưu trữ NFS này, để so sánh với kết quả hiệu suất của phiên bản trước đó có tên là NSS7.4-HA .

Chức năng HA

Kiến trúc chung của dòng NSS-HA vẫn giữ nguyên, bao gồm chức năng sẵn sàng cao. Có nhiều loại lỗi và lỗi riêng biệt ảnh hưởng đến chức năng của giải pháp NFS có tính sẵn sàng cao. Bảng sau đây liệt kê các lỗi tiềm ẩn có thể chấp nhận được trong giải pháp này, trong đó dịch vụ NFS đang chạy trên máy chủ hoạt động của cụm chuyển đổi dự phòng HA, trong khi máy chủ thụ động sẵn sàng và ở chế độ chờ, trong trường hợp cần rào hoặc thay thế máy chủ đang hoạt động, để tiếp tục cung cấp dịch vụ NFS cho khách hàng.

Bảng 2. Cơ chế xử lý lỗi

loại lỗi

Cơ chế xử lý sự cố

Lỗi đĩa hệ điều hành cục bộ trên máy chủ

Hệ điều hành được cài đặt trên thiết bị ảo RAID1 (hai đĩa). Nếu ổ cứng HDD PowerVault ME40484 nhỏ hơn 12TB, thì bạn có thể định cấu hình một ổ SSD khác làm ổ dự phòng toàn cầu. Bộ điều khiển PERC xử lý mọi lỗi SSD và báo cáo chúng cho HĐH. Một đĩa hệ điều hành bị lỗi không có khả năng làm cho máy chủ không hoạt động, đặc biệt nếu một dự phòng nóng được bật.

Lỗi ổ đĩa Swap Space cục bộ trên máy chủ

Không gian hoán đổi trên RAID 0 dựa trên SSD cục bộ không hoạt động trong quá trình hoạt động bình thường và nó chỉ được yêu cầu bởi xfs_repair sau các lỗi nghiêm trọng trên hệ thống tệp XFS. Ngoài ra, một không gian hoán đổi nhỏ hơn (4 GiB) thường được tạo như một phần của cài đặt RHEL mặc định.

Lỗi máy chủ đơn

Sự kiện được giám sát bởi dịch vụ cụm. Trong trường hợp xảy ra lỗi, dịch vụ NFS và các dịch vụ khác theo yêu cầu của NFS sẽ chuyển đổi dự phòng sang máy chủ thụ động.

Nguồn điện hoặc xe buýt điện

sự thất bại

Mỗi máy chủ có hai PSU dự phòng và mỗi PSU phải được kết nối với một bus nguồn riêng. Máy chủ có thể tiếp tục hoạt động với một PSU duy nhất

Lỗi thiết bị hàng rào

Cụm được cấu hình với hai thiết bị đấu kiếm.
iDRAC 9 Enterprise trên mỗi máy chủ được sử dụng làm thiết bị hàng rào chính. Hai PDU được chuyển đổi AP7921B là thiết bị hàng rào thứ cấp.

Lỗi cáp SAS hoặc cổng SAS

Hai thẻ SAS HBA được cài đặt trên mỗi máy chủ NFS và mỗi thẻ có cáp SAS đến bộ điều khiển SAS khác nhau trong PowerVault ME4084 được chia sẻ. Dịch vụ đa đường dẫn của hệ điều hành quản lý tất cả các đường dẫn SAS có sẵn, chỉ giữ một đường dẫn hoạt động trên mỗi LUN. Một thẻ SAS hoặc lỗi cáp sẽ không ảnh hưởng đến tính khả dụng của dữ liệu, nhưng hiệu suất có thể bị giảm tùy thuộc vào tải I/O.

Lỗi bộ điều khiển ME4084 SAS đơn

Nếu một bộ điều khiển PowerVault ME4084 SAS duy nhất bị lỗi, thì bộ điều khiển còn lại sẽ tiếp quản các giao dịch I/O (tận dụng bộ đệm được chia sẻ giữa các bộ điều khiển), quyền sở hữu nhóm đĩa, ổ đĩa, kết nối SAS, v.v. và hướng dẫn các dịch vụ đa đường trên hệ điều hành để cả hai máy chủ để điều chỉnh các đường dẫn SAS để chỉ kích hoạt những đường dẫn được kết nối với chính nó (sử dụng ALUA). Hiệu suất có thể bị suy giảm tùy thuộc vào tải I/O.

Lỗi cáp hoặc thẻ Dual SAS

Sự kiện được theo dõi bởi dịch vụ cụm. Nếu tất cả các đường dẫn dữ liệu SAS đến bộ lưu trữ dùng chung bị mất, thì máy chủ hoạt động sẽ bị rào lại và tất cả các dịch vụ dưới sự kiểm soát của cụm sẽ chuyển sang máy chủ thụ động.

Lỗi liên kết InfiniBand hoặc 10GbE

Sự kiện được theo dõi bởi dịch vụ cụm. Máy chủ hoạt động được rào lại và tất cả các dịch vụ dưới sự kiểm soát của cụm chuyển đổi dự phòng sang máy chủ thụ động.

lỗi switch ethernet riêng

Mặc dù một điểm thất bại duy nhất, đây không phải là tài nguyên quan trọng cho cụm, trừ khi một sự kiện đấu kiếm cần diễn ra. Dịch vụ NFS tiếp tục chạy trên máy chủ đang hoạt động. Nếu có lỗi thành phần bổ sung trước khi bộ chuyển đổi ethernet trực tuyến trở lại, dịch vụ sẽ bị dừng và cần có sự can thiệp thủ công từ quản trị viên hệ thống.

Lỗi giao diện mạng Heartbeat

Sự kiện được theo dõi bởi dịch vụ cụm. Máy chủ hoạt động được rào lại và tất cả các dịch vụ dưới sự kiểm soát của cụm không chuyển sang máy chủ thụ động.

Chức năng HA được xác minh bằng cách gắn hệ thống tệp giải pháp bằng NFSv4 trên máy khách. Các lỗi sau được mô phỏng trên cụm HA dựa trên các lỗi và lỗi được liệt kê trong bảng trên.

  • Lỗi máy chủ (gây hoảng loạn hạt nhân trên máy chủ đang hoạt động)
  • Lỗi liên kết Heartbeat (xóa liên kết ethernet của máy chủ đang hoạt động sang bộ chuyển mạch mạng riêng)
  • Lỗi liên kết dữ liệu công khai (xóa liên kết dữ liệu IB HDR100 hoặc 10 GbE trên máy chủ đang hoạt động)
  • Lỗi công tắc riêng (ngắt nguồn sang công tắc riêng)
  • Lỗi thiết bị hàng rào chính (xóa liên kết iDRAC trên máy chủ đang hoạt động)
  • Lỗi liên kết SAS đơn (xóa một liên kết SAS khỏi máy chủ đang hoạt động)
  • Nhiều lỗi liên kết SAS (xóa cả hai liên kết SAS khỏi máy chủ đang hoạt động)
  • Lỗi bộ điều khiển PowerVault ME4084 SAS đơn lẻ — có thể được mô phỏng bằng cách loại bỏ một bộ điều khiển SAS trên PowerVault ME4084. Tuy nhiên, vì thử nghiệm HA đó được thực hiện như một phần của quá trình phát triển PowerVault ME4084 cho mỗi bản phát hành chương trình cơ sở nên kịch bản này không được thử nghiệm trên giải pháp này.

Phần còn lại của tài liệu này mô tả nền tảng thử nghiệm và cung cấp thông tin về hiệu suất I/O liên quan đến các trường hợp sử dụng dự kiến ​​đối với Thiết kế được xác thực của Dell Technologies dành cho Bộ lưu trữ HPC NFS bằng cách sử dụng một số điểm chuẩn tiêu chuẩn. Để đối chiếu sự khác biệt về hiệu suất giữa Thiết kế hiện tại cho Bộ lưu trữ NFS và bản phát hành cuối cùng, số hiệu suất tương ứng của bản phát hành cuối cùng có tên “NSS7.4-HA” cũng được trình bày.

 

Cấu hình thử nghiệm

Nền tảng thử nghiệm được sử dụng để đánh giá hiệu suất và chức năng của Thiết kế được Dell Technologies xác thực cho Bộ lưu trữ HPC NFS được mô tả tại đây. Lưu ý rằng các CPU được sử dụng để kiểm tra hiệu suất khác với các CPU được chọn cho giải pháp. Đó là do các cấu hình PowerEdge R750 trước khi phát hành được mua cho dự án này có các tùy chọn bộ xử lý hạn chế và bộ xử lý mong muốn không có sẵn. Tuy nhiên, do nút cổ chai đã biết của giải pháp (và các phiên bản trước dựa trên PowerVault ME4084) là bộ điều khiển mảng lưu trữ, nên việc có nhiều lõi hơn dự kiến ​​sẽ không có bất kỳ tác động nào đến kết quả hiệu suất.

Bảng 3. Cấu hình phần cứng

cấu hình phần cứng

Mô hình máy chủ NFS

Máy chủ Dell EMC PowerEdge R750

bộ vi xử lý

2x CPU Intel ® Xeon ® Gold Platinum 8352Y @ 2.20GHz, 32 lõi trên mỗi bộ xử lý

Ký ức

16 x 16GiB 3200 MT/s RDIMM (256 GiB)

Đĩa cục bộ và bộ điều khiển RAID

PERC H345 (Mặt trước – Nhúng).

Năm ổ cứng 480GB SSD SAS.

Hai ổ SSD trong RAID1 cho HĐH, ba ổ SSD trong RAID0 cho không gian trao đổi (xfs_repair sử dụng nó sau khi lỗi XFS).

Bộ điều hợp mạng (dữ liệu) của khách hàng

NVIDIA ® ConnectX-6 VPI InfiniBand ® HDR100 (khe 6).

1GbE Ethernet (quản lý và nội bộ)

Bo mạch Gigabit Ethernet LOM 2 cổng Broadcom ® 5720

Bộ điều khiển lưu trữ bên ngoài

2x 12Gbps SAS HBA355e (khe 2 và 5)

Quản lý hệ thống

iDRAC9 doanh nghiệp

Nguồn cấp

Bộ cấp nguồn dự phòng kép 1100W

cấu hình lưu trữ

Bao vây lưu trữ

1x Vỏ Dell EMC PowerVault ME4084

bộ điều khiển RAID

Bộ điều khiển RAID song công có trên Dell EMC PowerVault ME4084

Ổ đĩa cứng

Ổ cứng 84x 10TB 7.2K NL SAS

Các thành phần khác

Bộ chuyển mạch Gigabit Ethernet riêng

PowerSwitch S3048-ON

Đơn vị phân phối điện hàng rào

2x PDU giá chuyển mạch APC, model AP7921B

Bảng 4. Phiên bản phần mềm máy chủ

Phần mềm

Hệ điều hành

Red Hat Enterprise Linux (RHEL) 8.3 x86_64

Phiên bản hạt nhân

4.18.0-240.el8.x86_64

Bộ cụm

Red Hat Cluster Suite đi kèm với RHEL 8.3

Hệ thống tập tin

Hệ thống tệp có thể mở rộng Red Hat (XFS) 5.0.0-4

Công cụ quản lý hệ thống Dell

Quản trị viên máy chủ Dell EMC OpenManage

10.0.1-4517_A00

Bảng 5. Bộ lưu trữ HPC HA NFS – Cấu hình máy khách