Giải pháp Microsoft HCI của Dell Technologies: Được thiết kế để mang lại hiệu suất cực kỳ linh hoạt

Hệ thống tích hợp Dell EMC dành cho Microsoft Azure Stack HCI (Azure Stack HCI) là một giải pháp HCI được sản xuất hoàn chỉnh dựa trên nền tảng là dòng nút AX linh hoạt của chúng tôi.

Trước khi tôi đi vào một số kết quả kiểm tra hiệu suất thú vị, hãy để tôi chuẩn bị trước. Azure Stack HCI kết hợp các tính năng điện toán, lưu trữ và kết nối mạng được xác định bằng phần mềm của Hệ điều hành Microsoft Azure Stack HCI, với các nút AX từ Dell Technologies để mang lại sự cân bằng hoàn hảo cho cơ sở hạ tầng được xác định bằng phần mềm có hiệu suất, linh hoạt và tiết kiệm chi phí.

Hình 1 minh họa danh mục cấu hình nút AX rộng lớn của chúng tôi với nhiều tùy chọn thành phần nhằm đáp ứng yêu cầu của hầu hết mọi trường hợp sử dụng – từ văn phòng chi nhánh hoặc từ xa nhỏ nhất đến khối lượng công việc cơ sở dữ liệu đòi hỏi khắt khe nhất. 

 Hình 1: các nền tảng hiện tại hỗ trợ Giải pháp Microsoft HCI của Dell Technologies

Mỗi khung, ổ đĩa, bộ xử lý, mô-đun DIMM, bộ điều hợp mạng cũng như các phiên bản BIOS, chương trình cơ sở và trình điều khiển liên quan đều đã được nhóm Kỹ thuật của Dell Technologies lựa chọn và thử nghiệm cẩn thận để tối ưu hóa hiệu suất và khả năng phục hồi của Giải pháp Microsoft HCI của Dell Technologies. Hệ thống tích hợp của chúng tôi được thiết kế để đảm bảo độ sẵn sàng của phần cứng là 99,9999%*.

* Dựa trên mô hình độ tin cậy của thành phần Bellcore cho các nút AX-740xd và bộ chuyển mạch S5248S-ON a) trong cụm 2 đến 4 nút được định cấu hình với dự phòng N + 1 và b) trong cụm 4 đến 16 nút được định cấu hình với N + 2 dư thừa, tháng 3 năm 2021.

Quản lý toàn diện với Dell EMC OpenManager Tích hợp với Trung tâm quản trị Windows, thời gian nhanh chóng để định giá với các tùy chọn Dell EMC ProDeploy và Dell EMC ProSupport ở cấp độ giải pháp hoàn thiện danh mục hiện đại này.

Bạn sẽ nhận thấy trong bảng đó rằng chúng tôi có một phần bổ sung mới — AX-7525: một nền tảng dựa trên AMD, socket kép được thiết kế để mang lại hiệu năng cực cao và khả năng mở rộng cao.

AX-7525 có các ổ NVMe gắn trực tiếp không có bộ chuyển mạch PCIe, cung cấp đầy đủ tiềm năng PCIe Gen4 cho từng thiết bị lưu trữ, mang lại IOPS lớn và thông lượng ở độ trễ tối thiểu.

Để biết nền tảng này hoạt động như thế nào và có khả năng phục hồi như thế nào, các chuyên gia Dell Technologies của chúng tôi đã thử nghiệm cụm AX-7525 4 nút. Mỗi nút có cấu hình sau:

  • 24 ổ NVMe (PCIe Gen 4)
  • Bộ xử lý AMD EPYC 7742 64 lõi socket kép (128 lõi)
  • RAM 1TB
  • 1 NIC Ethernet RDMA Mellanox CX6 100 gigabit

Tiêu đề dễ hiểu là thiết lập này liên tục phân phối gần 6 triệu IOP với độ trễ dưới 1 mili giây. Người ta có thể nghĩ rằng chúng tôi đã thực hiện các bài kiểm tra hiệu suất này để đạt được những con số ấn tượng này chỉ với cụm 4 nút!

Thực tế là chúng tôi đã tìm cách thiết lập ‘số anh hùng’ làm cơ sở – đảm bảo rằng cụm của chúng tôi được đặt cấu hình tối ưu. Tuy nhiên, chúng tôi không dừng lại ở đó. Chúng tôi muốn tìm hiểu xem cấu hình này sẽ hoạt động như thế nào với các mẫu IO trong thế giới thực. Blog này sẽ không đi sâu vào chi tiết chi tiết của sách trắng nhưng chúng tôi sẽ xem xét phương pháp thử nghiệm cho các tình huống khác nhau đó và giải thích kết quả hiệu suất.

Hình 2 hiển thị cụm 4 nút và cấu trúc liên kết mạng hội tụ đầy đủ mà chúng tôi đã xây dựng cho phòng thí nghiệm:

 Hình 2: Thiết lập phòng thí nghiệm

Chúng tôi đã thực hiện hai bộ thử nghiệm khác nhau trong môi trường này:

  • Các thử nghiệm với cấu hình IO nhằm xác định IOPS tối đa và ngưỡng thông lượng của cụm
    • Kiểm tra 1: Sử dụng cụm 4 nút khỏe mạnh
  • Các thử nghiệm với cấu hình IO mang tính đại diện hơn cho khối lượng công việc trong đời thực (xử lý giao dịch trực tuyến (OLTP), xử lý phân tích trực tuyến (OLAP) và các loại khối lượng công việc hỗn hợp)
    • Kiểm tra 2: Sử dụng cụm 4 nút khỏe mạnh
    • Thử nghiệm 3: Sử dụng cụm 4 nút đã xuống cấp, có một nút bị lỗi
    • Thử nghiệm 4: Sử dụng cụm 4 nút xuống cấp, bị lỗi 2 nút

Để tạo khối lượng công việc trong đời thực, chúng tôi đã sử dụng VMFleet , công cụ này tận dụng các tập lệnh PowerShell để tạo các máy ảo Hyper-V thực thi DISKSPD nhằm tạo ra cấu hình IO mong muốn.

Chúng tôi đã chọn loại khả năng phục hồi nhân bản ba chiều cho các ổ đĩa mà chúng tôi đã tạo bằng VMFleet vì hiệu suất vượt trội của nó so với các tùy chọn mã hóa xóa trong Storage Spaces Direct.

Bây giờ chúng ta đã hiểu rõ hơn về cách bố trí phòng thí nghiệm và phương pháp thử nghiệm, hãy chuyển sang kết quả của bốn thử nghiệm.

Thử nghiệm 1: Cấu hình IO để đẩy các giới hạn trên cụm 4 nút hoạt động tốt với 64 máy ảo trên mỗi nút

Dưới đây là chi tiết về hồ sơ khối lượng công việc và hiệu suất chúng tôi thu được:

Hồ sơ IO Kích thước khối Số đề IO nổi bật Viết % mẫu IO Tổng số IO Độ trễ
B4-T2-O32-W0-PR 4k 2 32 0% 100% đọc ngẫu nhiên 5.727.985 1,3 mili giây

(đọc)

B4-T2-O16-W100-PR 4k 2 16 100% Viết ngẫu nhiên 100% 700.256 9 mili giây*

(viết)

            Thông lượng
B512-T1-O8-W0-PSI 512k 1 số 8 0% Đọc tuần tự 100% 105 GB/giây
B512-T1-O1-W100-PSI 512k 1 1 100% Ghi tuần tự 100% 8 GB/giây

* Lý do cho độ trễ cao hơn một chút này là do chúng tôi đang đẩy quá nhiều IO nổi bật và chúng tôi đã đạt được hiệu suất ổn định. Chúng tôi nhận thấy rằng ngay cả với 32 máy ảo, chúng tôi vẫn đạt được cùng một IO, bởi vì tất cả những gì chúng tôi đang làm kể từ thời điểm đó trở đi là tăng thêm tải mà a) không thúc đẩy thêm bất kỳ IO nào và b) chỉ làm tăng thêm độ trễ.

Thử nghiệm này đặt ra tiêu chuẩn cho các giới hạn và hiệu suất tối đa mà chúng tôi có thể đạt được từ cụm 4 nút này: gần 6 triệu IO đọc, 700 nghìn IO ghi và băng thông 105 GB/giây để đọc và 8 GB/giây để ghi. 

Thử nghiệm 2: Cấu hình IO khối lượng công việc thực tế trên cụm 4 nút hoạt động tốt với 32 máy ảo trên mỗi nút

Cấu hình IO cho thử nghiệm này bao gồm nhiều tình huống thực tế:

  • Định hướng OLTP: chúng tôi đã thử nghiệm phổ rộng các kích thước khối, từ 4k đến 32k và ghi tỷ lệ IO, thay đổi từ 20% đến 50%.
  • Định hướng OLAP: cấu hình OLAP IO phổ biến nhất là kích thước khối lớn và truy cập tuần tự. Các khối lượng công việc khác có mô hình tương tự là sao lưu tệp và truyền phát video. Chúng tôi đã thử nghiệm kích thước khối từ 64k đến 512k và tỷ lệ IO ghi từ 20% đến 50%.

Hình dưới đây hiển thị chi tiết và kết quả chúng tôi thu được cho tất cả các mẫu IO được thử nghiệm khác nhau:

    Hình 3: Kết quả thử nghiệm 2 

Kết quả siêu ấn tượng và điều quan trọng cần chú ý (ở bên trái) là 1,6 triệu IOPS với độ trễ trung bình 1,2 mili giây đối với cấu hình OLTP IO điển hình có kích thước khối 8 KB và tỷ lệ ghi ngẫu nhiên 30%. Ngay cả ở kích thước khối 32k và tỷ lệ IO ghi 50%, chúng tôi đã đo được 400.000 IO với độ trễ dưới 7 mili giây.

Ngoài ra, điều rất đáng chú ý là thông lượng cực cao mà chúng tôi đã chứng kiến ​​trong tất cả các thử nghiệm, đặc biệt nhấn mạnh vào tốc độ đáng kinh ngạc là 29,65 GB/s với cấu hình IO có kích thước khối 512k và tỷ lệ ghi 20%.

Thử nghiệm 3 và 4: đẩy các giới hạn và cấu hình IO khối lượng công việc thực tế trên cụm 4 nút đã xuống cấp

Để mô phỏng lỗi một nút (Thử nghiệm 3), chúng tôi đã tắt nút 4, khiến nút 2 có thêm quyền sở hữu đối với 32 máy ảo được khởi động lại từ nút 4, nâng tổng số lên 64 máy ảo trên nút 2.

Tương tự, để mô phỏng lỗi hai nút (Thử nghiệm 4), chúng tôi tắt nút 3 và 4, dẫn đến quá trình phân bổ lại VM từ nút 3 đến nút 1 và từ nút 4 đến nút 2. Nút 1 và 2 kết thúc bằng 64 VM mỗi cái.

Môi trường cụm tiếp tục tạo ra kết quả ấn tượng ngay cả trong trạng thái xuống cấp này. Bảng bên dưới so sánh các kịch bản thử nghiệm sử dụng cấu hình IO nhằm xác định ngưỡng tối đa.

Hồ sơ IO Cụm khỏe mạnh Lỗi một nút Lỗi hai nút
Tổng số IO Độ trễ Tổng số IO Độ trễ Tổng số IO Độ trễ
B4-T2-O32-W0-PR 4.856.796 0,38 mili giây

(đọc)

4.390.717 0,38 mili giây

(đọc)

3.842.997 0,26 mili giây

(đọc)

B4-T2-O16-W100-PR 753.886 3,2 mili giây

(viết)

482.715 5,7 mili giây

(viết)

330.176 11,4 mili giây

(viết)

  Thông lượng Thông lượng Thông lượng
B512-T1-O8-W0-PSI 91 GB/giây 113 GB/giây 77 GB/giây
B512-T1-O1-W100-PSI 8 GB/giây 6 GB/giây 10 GB/giây

Hình 4 minh họa kết quả kiểm tra các kịch bản khối lượng công việc thực tế cho cụm hoạt động tốt và cho trạng thái suy giảm một nút và hai nút.

  Hình 4: Kết quả thử nghiệm 3 và 4

Một lần nữa, chúng tôi tiếp tục thấy kết quả hiệu suất vượt trội từ góc độ IO, độ trễ và thông lượng, ngay cả khi một hoặc hai nút bị lỗi.

Một điểm cân nhắc quan trọng mà chúng tôi quan sát thấy là đối với kích thước khối 4k và 8k, IO giảm và độ trễ tăng như mong đợi, trong khi đối với kích thước khối 32k trở lên, chúng tôi nhận thấy rằng:

  • Độ trễ ít thay đổi hơn trong các trường hợp lỗi vì việc ghi IO không cần phải được thực hiện trên nhiều nút trong cụm.
  • Sau sự cố ở hai nút, IO thực sự đã tăng (20-30%) và thông lượng (trung bình 52%)!

Có hai lý do cho việc này:

  1. Các tập được nhân đôi 3 chiều đã trở thành các tập được nhân đôi 2 chiều trên hai nút còn sót lại. Hiệu ứng này khiến số IO ghi vào ổ đĩa phụ trợ ít hơn 33%. Độ trễ ghi tổng thể của ổ đĩa giảm, khiến IO đọc và ghi cao hơn. Điều này chỉ được áp dụng khi CPU không bị tắc nghẽn.
  2. Mỗi nút còn lại nhân đôi số lượng máy ảo đang chạy (từ 32 lên 64), điều này trực tiếp chuyển thành tiềm năng lớn hơn cho nhiều IO hơn.

Phần kết luận

Chúng tôi rất vui được chia sẻ với bạn những số liệu này về hiệu suất cực kỳ linh hoạt mà hệ thống tích hợp của chúng tôi mang lại, trong quá trình hoạt động bình thường hoặc trong trường hợp xảy ra lỗi.

Hệ thống tích hợp Dell EMC dành cho Microsoft Azure Stack HCI, đặc biệt là với nền tảng AX-7525, là một giải pháp vượt trội dành cho những khách hàng đang gặp khó khăn trong việc hỗ trợ nhu cầu ngày càng lớn của tổ chức về khối lượng công việc sử dụng nhiều tài nguyên và để duy trì hoặc cải thiện các thỏa thuận cấp độ dịch vụ (SLA) tương ứng của họ.