Giải pháp Microsoft HCI từ Dell Technologies: Được thiết kế để có hiệu suất cực kỳ bền bỉ

Hệ thống tích hợp Dell EMC cho Microsoft Azure Stack HCI (Azure Stack HCI) là giải pháp HCI được sản xuất hoàn chỉnh dựa trên nền tảng là họ nút AX linh hoạt của chúng tôi.

Trước khi đi sâu vào một số kết quả thử nghiệm hiệu suất thú vị, hãy để tôi giới thiệu sơ qua. Azure Stack HCI kết hợp các tính năng tính toán, lưu trữ và mạng được xác định bằng phần mềm của Microsoft Azure Stack HCI OS với các nút AX từ Dell Technologies để mang lại sự cân bằng hoàn hảo cho cơ sở hạ tầng được xác định bằng phần mềm có hiệu suất cao, linh hoạt và tiết kiệm chi phí.

Hình 1 minh họa danh mục rộng lớn các cấu hình nút AX của chúng tôi với nhiều tùy chọn thành phần để đáp ứng các yêu cầu của hầu hết mọi trường hợp sử dụng – từ văn phòng chi nhánh hoặc văn phòng từ xa nhỏ nhất đến khối lượng công việc cơ sở dữ liệu đòi hỏi khắt khe nhất. 

 Hình 1: các nền tảng hiện tại hỗ trợ Giải pháp HCI của Microsoft từ Dell Technologies

Mỗi khung máy, ổ đĩa, bộ xử lý, mô-đun DIMM, bộ điều hợp mạng và BIOS, chương trình cơ sở và phiên bản trình điều khiển liên quan của chúng đã được nhóm Kỹ thuật Dell Technologies lựa chọn và thử nghiệm cẩn thận để tối ưu hóa hiệu suất và khả năng phục hồi của Giải pháp Microsoft HCI từ Dell Technologies. Hệ thống tích hợp của chúng tôi được thiết kế để có khả năng sử dụng phần cứng 99,9999%*.

* Dựa trên mô hình độ tin cậy của thành phần Bellcore cho các nút AX-740xd và bộ chuyển mạch S5248S-ON a) trong cụm 2 đến 4 nút được cấu hình với dự phòng N + 1 và b) trong cụm 4 đến 16 nút được cấu hình với dự phòng N + 2, tháng 3 năm 2021.

Quản lý toàn diện với Dell EMC OpenManage Tích hợp với Trung tâm quản trị Windows, thời gian thu hồi vốn nhanh với các tùy chọn Dell EMC ProDeploy và Dell EMC ProSupport cấp giải pháp hoàn thiện danh mục đầu tư hiện đại này.

Bạn sẽ nhận thấy trong bảng đó có một sản phẩm mới được bổ sung — AX-7525: một nền tảng dựa trên AMD, ổ cắm kép được thiết kế để có hiệu suất cực cao và khả năng mở rộng cao.

AX-7525 có ổ đĩa NVMe gắn trực tiếp không có công tắc PCIe, cung cấp đầy đủ tiềm năng PCIe Gen4 cho mỗi thiết bị lưu trữ, mang lại IOPS và thông lượng lớn với độ trễ tối thiểu.

Để có ý tưởng về hiệu suất và khả năng phục hồi của nền tảng này, các chuyên gia Dell Technologies của chúng tôi đã thử nghiệm cụm AX-7525 4 nút. Mỗi nút có cấu hình sau:

  • 24 ổ NVMe (PCIe Gen 4)
  • Bộ xử lý AMD EPYC 7742 64 lõi (128 lõi) ổ cắm kép
  • RAM 1 TB
  • 1 Mellanox CX6 100 gigabit Ethernet RDMA NIC

Tiêu đề dễ hiểu là thiết lập này liên tục cung cấp gần 6 triệu IOP ở độ trễ dưới 1ms. Người ta có thể nghĩ rằng chúng tôi đã chỉnh sửa các bài kiểm tra hiệu suất này để đạt được những con số ấn tượng này chỉ với một cụm 4 nút!

Thực tế là chúng tôi đã tìm cách thiết lập ‘số lượng anh hùng’ làm cơ sở – đảm bảo rằng cụm của chúng tôi được cấu hình tối ưu. Tuy nhiên, chúng tôi không dừng lại ở đó. Chúng tôi muốn tìm hiểu xem cấu hình này sẽ hoạt động như thế nào với các mẫu IO trong thế giới thực. Blog này sẽ không đi sâu vào các chi tiết chi tiết của sách trắng, nhưng chúng tôi sẽ xem xét phương pháp thử nghiệm cho các tình huống khác nhau đó và giải thích kết quả hiệu suất.

Hình 2 cho thấy cụm 4 nút và cấu trúc mạng hội tụ hoàn toàn mà chúng tôi đã xây dựng cho phòng thí nghiệm:

 Hình 2: Thiết lập phòng thí nghiệm

Chúng tôi đã thực hiện hai bộ thử nghiệm khác biệt trong môi trường này:

  • Các thử nghiệm với các cấu hình IO nhằm xác định ngưỡng IOPS và thông lượng tối đa của cụm
    • Kiểm tra 1: Sử dụng cụm 4 nút khỏe mạnh
  • Các thử nghiệm với các cấu hình IO đại diện nhiều hơn cho khối lượng công việc thực tế (xử lý giao dịch trực tuyến (OLTP), xử lý phân tích trực tuyến (OLAP) và các loại khối lượng công việc hỗn hợp)
    • Kiểm tra 2: Sử dụng cụm 4 nút khỏe mạnh
    • Kiểm tra 3: Sử dụng cụm 4 nút bị suy giảm, với lỗi một nút duy nhất
    • Kiểm tra 4: Sử dụng cụm 4 nút bị suy giảm, với lỗi ở hai nút

Để tạo khối lượng công việc thực tế, chúng tôi đã sử dụng VMFleet , tận dụng các tập lệnh PowerShell để tạo máy ảo Hyper-V thực thi DISKSPD nhằm tạo ra các cấu hình IO mong muốn.

Chúng tôi đã chọn loại khả năng phục hồi gương ba chiều cho các ổ đĩa mà chúng tôi tạo bằng VMFleet vì hiệu suất vượt trội của nó so với các tùy chọn mã hóa xóa trong Storage Spaces Direct.

Bây giờ chúng ta đã hiểu rõ hơn về cách bố trí phòng thí nghiệm và phương pháp thử nghiệm, hãy cùng chuyển sang kết quả của bốn bài kiểm tra.

Kiểm tra 1: Hồ sơ IO để đẩy giới hạn trên cụm 4 nút khỏe mạnh với 64 VM trên mỗi nút

Sau đây là thông tin chi tiết về khối lượng công việc và hiệu suất mà chúng tôi đạt được:

Hồ sơ IO Kích thước khối Số lượng sợi IO nổi bật Viết % Mẫu IO Tổng số IO Độ trễ
B4-T2-O32-W0-PR 4k 2 32 0% Đọc ngẫu nhiên 100% 5.727.985 1,3 giây

(đọc)

B4-T2-O16-W100-PR 4k 2 16 100% Viết ngẫu nhiên 100% 700,256 9 mili giây*

(viết)

            Thông lượng
B512-T1-O8-W0-PSI 512k 1 8 0% Đọc tuần tự 100% 105 GB/giây
B512-T1-O1-W100-PSI 512k 1 1 100% Ghi tuần tự 100% 8 GB/giây

* Lý do cho độ trễ cao hơn một chút này là vì chúng tôi đang đẩy quá nhiều IO Nổi bật và chúng tôi đã đạt đến mức ổn định về hiệu suất. Chúng tôi nhận thấy rằng ngay cả với 32 VM, chúng tôi vẫn đạt được cùng một IO, vì tất cả những gì chúng tôi làm từ thời điểm đó là thêm tải mà a) không thúc đẩy bất kỳ IO bổ sung nào và b) chỉ làm tăng độ trễ.

Bài kiểm tra này đặt ra tiêu chuẩn cho các giới hạn và hiệu suất tối đa mà chúng ta có thể đạt được từ cụm 4 nút này: gần 6 triệu IO đọc, 700 nghìn IO ghi và băng thông 105 GB/giây cho đọc và 8 GB/giây cho ghi. 

Kiểm tra 2: hồ sơ IO khối lượng công việc thực tế trên cụm 4 nút khỏe mạnh với 32 VM trên mỗi nút

Các cấu hình IO cho thử nghiệm này bao gồm nhiều tình huống thực tế khác nhau:

  • Hướng đến OLTP: chúng tôi đã thử nghiệm trên nhiều kích thước khối khác nhau, từ 4k đến 32k và tỷ lệ ghi IO, thay đổi từ 20% đến 50%.
  • Hướng đến OLAP: hồ sơ IO OLAP phổ biến nhất là kích thước khối lớn và truy cập tuần tự. Các khối lượng công việc khác theo một mô hình tương tự là sao lưu tệp và phát trực tuyến video. Chúng tôi đã thử nghiệm kích thước khối từ 64k đến 512k và tỷ lệ IO ghi từ 20% đến 50%.

Hình sau đây hiển thị thông tin chi tiết và kết quả chúng tôi thu được cho tất cả các mẫu IO đã thử nghiệm khác nhau:

    Hình 3: Kết quả thử nghiệm 2 

Kết quả cực kỳ ấn tượng và quan trọng cần lưu ý (bên trái) là 1,6 triệu IOPS ở độ trễ trung bình 1,2 mili giây cho cấu hình IO OLTP thông thường có kích thước khối 8 KB và tỷ lệ ghi ngẫu nhiên 30%. Ngay cả ở kích thước khối 32k và tỷ lệ IO ghi 50%, chúng tôi đã đo được 400.000 IO ở độ trễ dưới 7 mili giây.

Ngoài ra, điều đáng chú ý nữa là thông lượng cực lớn mà chúng tôi chứng kiến ​​trong tất cả các thử nghiệm, đặc biệt nhấn mạnh vào tốc độ đáng kinh ngạc 29,65 GB/giây với cấu hình IO có kích thước khối 512k và tỷ lệ ghi 20%.

Bài kiểm tra 3 và 4: đẩy giới hạn và hồ sơ IO khối lượng công việc thực tế trên cụm 4 nút bị suy giảm

Để mô phỏng lỗi một nút (Kiểm tra 3), chúng tôi đã tắt nút 4, khiến nút 2 nắm quyền sở hữu thêm 32 máy ảo được khởi động lại từ nút 4, nâng tổng số máy ảo trên nút 2 lên 64 máy ảo.

Tương tự như vậy, để mô phỏng lỗi của hai nút (Kiểm tra 4), chúng tôi đã tắt nút 3 và 4, dẫn đến quá trình phân bổ lại VM từ nút 3 sang nút 1 và từ nút 4 sang nút 2. Mỗi nút 1 và 2 có 64 VM.

Môi trường cụm tiếp tục tạo ra kết quả ấn tượng ngay cả trong trạng thái suy thoái này. Bảng dưới đây so sánh các kịch bản thử nghiệm sử dụng hồ sơ IO nhằm xác định ngưỡng tối đa.

Hồ sơ IO Cụm khỏe mạnh Một nút lỗi Lỗi hai nút
Tổng số IO Độ trễ Tổng số IO Độ trễ Tổng số IO Độ trễ
B4-T2-O32-W0-PR 4.856.796 0,38 giây

(đọc)

4.390.717 0,38 giây

(đọc)

3.842.997 0,26 giây

(đọc)

B4-T2-O16-W100-PR 753,886 3,2 giây

(viết)

482,715 5,7 mili giây

(viết)

330,176 11,4 giây

(viết)

  Thông lượng Thông lượng Thông lượng
B512-T1-O8-W0-PSI 91 GB/giây 113 GB/giây 77 GB/giây
B512-T1-O1-W100-PSI 8 GB/giây 6 GB/giây 10 GB/giây

Hình 4 minh họa kết quả thử nghiệm cho các tình huống khối lượng công việc thực tế đối với cụm hoạt động bình thường và trạng thái suy giảm của một nút và hai nút.

  Hình 4: Kết quả thử nghiệm 3 và 4

Một lần nữa, chúng tôi tiếp tục chứng kiến ​​kết quả hiệu suất vượt trội từ góc độ IO, độ trễ và thông lượng, ngay cả khi một hoặc hai nút bị lỗi.

Một cân nhắc quan trọng mà chúng tôi nhận thấy là đối với kích thước khối 4k và 8k, IO giảm và độ trễ tăng như mong đợi, trong khi đối với kích thước khối 32k trở lên, chúng tôi nhận ra rằng:

  • Độ trễ ít thay đổi hơn trong các tình huống lỗi vì IO ghi không cần phải được xác nhận trên nhiều nút trong cụm.
  • Sau khi hai nút bị lỗi, thực tế đã có sự gia tăng IO (20-30%) và thông lượng (trung bình 52%)!

Có hai lý do cho điều này:

  1. Các khối lượng phản chiếu 3 chiều trở thành các khối lượng phản chiếu 2 chiều trên hai nút còn lại. Hiệu ứng này dẫn đến ít hơn 33% IO ghi ổ đĩa phụ trợ. Độ trễ ghi ổ đĩa tổng thể giảm, thúc đẩy IO đọc và ghi cao hơn. Điều này chỉ áp dụng khi CPU không phải là nút thắt cổ chai.
  2. Mỗi nút còn lại đều tăng gấp đôi số lượng VM đang chạy (từ 32 lên 64), điều này trực tiếp chuyển thành tiềm năng lớn hơn cho nhiều IO hơn.

Phần kết luận

Chúng tôi rất vui khi chia sẻ với bạn những số liệu về hiệu suất cực kỳ bền bỉ mà các hệ thống tích hợp của chúng tôi mang lại trong quá trình hoạt động bình thường hoặc trong trường hợp xảy ra lỗi.

Hệ thống tích hợp Dell EMC cho Microsoft Azure Stack HCI, đặc biệt là với nền tảng AX-7525, là giải pháp vượt trội dành cho những khách hàng đang phải vật lộn để hỗ trợ nhu cầu ngày càng lớn của tổ chức đối với khối lượng công việc đòi hỏi nhiều tài nguyên và duy trì hoặc cải thiện các thỏa thuận về mức dịch vụ (SLA) tương ứng.