Đánh giá hiệu suất của các ứng dụng HPC trên Cụm ảo hóa VMware dựa trên Dell PowerEdge R650

Tổng quan

Điện toán hiệu năng cao (HPC) giải quyết các vấn đề tính toán phức tạp bằng cách thực hiện các tính toán song song trên nhiều máy tính và thực hiện các hoạt động nghiên cứu thông qua mô hình hóa và mô phỏng máy tính. Theo truyền thống, HPC được triển khai trên phần cứng kim loại trần, nhưng nhờ những tiến bộ trong công nghệ ảo hóa, giờ đây có thể chạy khối lượng công việc HPC trong môi trường ảo hóa. Ảo hóa trong HPC mang lại sự linh hoạt hơn, cải thiện việc sử dụng tài nguyên và cho phép hỗ trợ nhiều người thuê trên cùng một cơ sở hạ tầng. 

Tuy nhiên, ảo hóa là một lớp bổ sung trong ngăn xếp phần mềm và thường được hiểu là ảnh hưởng đến hiệu suất. Blog này giải thích một nghiên cứu về hiệu suất được thực hiện bởi Dell Technologies HPC và AI Innovation Lab hợp tác với VMware. Nghiên cứu này so sánh môi trường trần kim loại và môi trường ảo hóa trên nhiều khối lượng công việc HPC với các hệ thống dựa trên bộ xử lý thế hệ thứ ba có khả năng mở rộng Intel® Xeon®. Cả môi trường cơ bản và ảo hóa đều được triển khai trên giải pháp Dell HPC theo yêu cầu. 

Hình 1: Kiến trúc cụm

Để đánh giá hiệu suất của các ứng dụng và khối lượng công việc HPC, chúng tôi đã xây dựng cụm HPC 32 nút sử dụng Dell PowerEdge R650 làm nút điện toán. Dell Power Edge R650 là máy chủ ổ cắm kép 1U với bộ xử lý Intel® Xeon® Scalable thế hệ thứ ba. Cụm được cấu hình để sử dụng cả nút điện toán ảo và kim loại trần (chạy VMware vSphere 7). Cả hai nút kim loại trần và ảo hóa đều được gắn vào cùng một nút đầu.

Hình 1 cho thấy cấu trúc liên kết mạng đại diện của cụm này. Cụm được kết nối với hai mạng vật lý riêng biệt. Các nút điện toán được trải rộng trên hai bộ giá đỡ và cụm bao gồm hai mạng sau: 

  • Mạng HPC : Bộ chuyển mạch Dell PowerSwitch Z9332 kết nối bộ điều hợp NVIDIA® Connect®-X6 100 GbE để cung cấp mạng HPC dựa trên RDMA 100 GbE băng thông cao có độ trễ thấp cho khối lượng công việc HPC dựa trên MPI
  • Mạng dịch vụ : Một cặp bộ chuyển mạch trên cùng (ToR) dựa trên Dell PowerSwitch S5248F-ON 25 GbE riêng biệt dành cho bộ ảo hóa  

Chi tiết cấu hình Máy ảo (VM) để cài đặt hiệu suất tối ưu đã được ghi lại trong một blog trước đó . Ngoài các cài đặt được lưu ý trong blog trước, một số tùy chọn điều chỉnh BIOS bổ sung như cài đặt Snoop Hold Off, SubNumaCluster (SNC) và LLC Prefetch cũng đã được thử nghiệm. Snoop Hold Off (đặt thành 2 K chu kỳ) và SNC, đã giúp cải thiện hiệu suất trên hầu hết các ứng dụng đã được thử nghiệm và điểm chuẩn vi mô cho cả nút kim loại trần và nút ảo. Kích hoạt SNC trong BIOS máy chủ và không định cấu hình SNC chính xác trong VM có thể dẫn đến giảm hiệu suất.

 

Cấu hình hệ thống HPC trần và ảo hóa

Bảng 1 cho thấy chi tiết môi trường hệ thống được sử dụng cho nghiên cứu.

Bảng 1: Chi tiết cấu hình hệ thống cho cụm kim loại trần và ảo

Chức năng máy Thành phần
Nền tảng Máy chủ PowerEdge R650
Bộ xử lý Hai Intel® Xeon® thế hệ thứ ba 6348 (28 lõi @ 2,6 GHz)
Số lượng lõi Kim loại trần: 56 lõi 

Ảo: 52 vCPU (bốn lõi dành riêng cho ESXi)

Ký ức Mười sáu DIMMS DDR4 32 GB @3200 MT/s

Bare-Metal: Đã sử dụng hết 512 GB

Ảo: 440 GB dành riêng cho VM

 

NIC mạng HPC 100 GbE NVIDIA Mellanox Connect-X6
Mạng dịch vụ NIC 10/25 GbE NVIDIA Mellanox Connect-X5
Chuyển mạch mạng HPC Dell PowerSwitch Z9332 với hệ điều hành 10.5.2.3 
Chuyển mạch mạng dịch vụ Dell PowerSwitch S5248F-ON
Hệ điều hành Rocky Linux phát hành 8.5 (Green Obsidian)
hạt nhân 4.18.0-348.12.2.el8_5.x86_64
Phần mềm – MPI IntelMPI 2021.5.0 
Phần mềm – Trình biên dịch Intel OneAPI 2022.1.1
Phần mềm – OFED OFED 5.4.3 (Mellanox FW 22.32.20.04)
phiên bản sinh học 1.5.5 (đối với cả nút kim loại trần và nút ảo)

 

Chi tiết ứng dụng và điểm chuẩn

Biểu đồ sau đây phác thảo tập hợp các ứng dụng HPC được sử dụng cho nghiên cứu này từ các lĩnh vực khác nhau như Động lực học chất lỏng tính toán (CFD), Thời tiết và Khoa học đời sống. Các bộ dữ liệu điểm chuẩn khác nhau đã được sử dụng cho từng ứng dụng như được nêu chi tiết trong Bảng 2.

Bảng 2: Chi tiết về ứng dụng và tập dữ liệu điểm chuẩn

Ứng dụng Tên miền dọc Tập dữ liệu điểm chuẩn
WRF (v3.9.1.1) Thời tiết và Môi trường Conus 2.5KM , Maria 3KM
OpenFOAM (phiên bản 9) Sản xuất – Động lực học chất lỏng tính toán (CFD) Lưới ô 20M, 34M và 52M xe máy
Gromacs (phiên bản 2022) Khoa học đời sống – Động lực phân tử Điểm chuẩn HECBioSim – Nguyên tử 3M

Lignocellulose

BenchPEP

LAMMPS (ngày 4 tháng 5 năm 2022) Động lực học phân tử Điểm chuẩn rắn kim loại EAM (Nguyên tử 1M, 3M và 8M) HECBIOSIM – Nguyên tử 3M

 

Kết quả thực hiện

Tất cả các kết quả ứng dụng hiển thị ở đây đều chạy trên cả môi trường ảo và môi trường ảo sử dụng cùng một tệp nhị phân được biên dịch bằng Intel Compiler và chạy với Intel MPI. Nhiều lần chạy đã được thực hiện để đảm bảo tính nhất quán trong hiệu suất. Các điểm chuẩn tổng hợp cơ bản như Điểm chuẩn Linpack hiệu suất cao (HPL), Luồng và OSU MPI đã được chạy để đảm bảo rằng cụm hoạt động hiệu quả trước khi chạy điểm chuẩn ứng dụng HPC. Đối với nghiên cứu, tất cả các điểm chuẩn đều được chạy trong một môi trường nhất quán, tối ưu hóa và ổn định trên cả nút điện toán cơ bản và nút điện toán ảo.

Bộ xử lý Intel® Xeon® thế hệ thứ ba có khả năng mở rộng (Ice Lake 6348) có 56 lõi. Bốn lõi được dành riêng cho bộ ảo hóa ảo hóa (ESXi) cung cấp 52 lõi còn lại để chạy điểm chuẩn. Tất cả các kết quả được hiển thị ở đây bao gồm 56 lõi chạy trên kim loại trần và 52 lõi chạy trên các nút ảo.

Để đảm bảo khả năng mở rộng và hiệu suất tốt hơn, nhiều tổ hợp luồng và xếp hạng MPI đã được thử dựa trên các ứng dụng. Các kết quả tốt nhất được sử dụng để hiển thị tốc độ tăng tốc tương đối giữa cả hệ thống ảo và kim loại trần.

 

    Hình 2: So sánh hiệu suất giữa các nút kim loại trần và nút ảo cho WRF

 

  Hình 3: So sánh hiệu suất giữa các nút kim loại trần và nút ảo cho OpenFOAM

 

  Hình 4: So sánh hiệu suất giữa các nút kim loại trần và nút ảo cho GROMACS

 

  Hình 5: So sánh hiệu suất giữa các nút kim loại trần và nút ảo cho LAMMPS

Các kết quả trên chỉ ra rằng tất cả các ứng dụng MPI chạy trong môi trường ảo hóa đều có hiệu suất gần giống với môi trường kim loại trần nếu sử dụng các biện pháp điều chỉnh và tối ưu hóa thích hợp. Delta hiệu suất, chạy từ một nút đến 32 nút, nằm trong phạm vi 10% cho tất cả các ứng dụng. Đồng bằng này cho thấy không có tác động lớn đến việc mở rộng quy mô. 

Kiểm tra đồng thời

Trong môi trường HPC nhiều đối tượng thuê được ảo hóa, kỳ vọng là nhiều đối tượng thuê sẽ chạy nhiều phiên bản đồng thời của cùng một ứng dụng hoặc các ứng dụng khác nhau. Để mô phỏng cấu hình này, một thử nghiệm đồng thời đã được tiến hành bằng cách tạo nhiều bản sao của cùng một khối lượng công việc và chạy chúng song song. Thử nghiệm này kiểm tra xem có xuất hiện bất kỳ sự suy giảm hiệu suất nào so với kết quả chạy cơ bản hay không. Để thực hiện một số thử nghiệm đồng thời có ý nghĩa, chúng tôi đã mở rộng cụm ảo lên 48 nút bằng cách chuyển đổi 16 nút kim loại trần thành ảo. Đối với các thử nghiệm đồng thời, đường cơ sở được tạo bằng lần chạy 8 nút trong khi không có khối lượng công việc nào khác chạy trên cụm ảo 48 nút. Sau đó, sáu bản sao của cùng một khối lượng công việc được phép chạy đồng thời trên cụm ảo. Sau đó, kết quả được so sánh và mô tả cho tất cả các ứng dụng.

Sự đồng thời đã được thử nghiệm theo hai cách. Trong thử nghiệm đầu tiên, tất cả tám nút chạy một bản sao đều được đặt trong cùng một giá. Trong thử nghiệm thứ hai, các nút chạy một công việc được trải rộng trên hai giá đỡ để xem liệu có thấy bất kỳ sự khác biệt nào về hiệu suất do giao tiếp bổ sung qua mạng hay không.

Hình 6 đến 13 thể hiện kết quả của thử nghiệm đồng thời. Như đã thấy từ kết quả, không có sự suy giảm nào được quan sát thấy trong hiệu suất.

 Hình 6: Kiểm tra đồng thời 1 cho WRF 

  Hình 7: Kiểm tra đồng thời 2 cho WRF

   Hình 8: Kiểm tra đồng thời 1 cho FOAM mở

   Hình 9: Kiểm tra đồng thời 2 cho FOAM mở

    Hình 10: Kiểm tra đồng thời 1 cho GROMACS

   Hình 11: Kiểm tra đồng thời 2 cho GROMACS

   Hình 12: Kiểm tra đồng thời 1 cho LAMMPS 

  Hình 13: Kiểm tra đồng thời 2 cho LAMMPS

Một bộ thử nghiệm đồng thời khác được thực hiện bằng cách chạy đồng thời các ứng dụng khác nhau (WRF, GROMACS và Open FOAM) trong môi trường ảo. Trong thử nghiệm này, hai bản sao tám nút của mỗi ứng dụng chạy đồng thời trên cụm ảo để xác định xem có xảy ra bất kỳ biến đổi hiệu suất nào khi chạy nhiều ứng dụng song song trong các nút ảo hay không. Không có sự suy giảm hiệu suất nào được quan sát thấy trong kịch bản này khi so sánh với lần chạy cơ sở của ứng dụng riêng lẻ mà không có khối lượng công việc nào khác chạy trên cụm.

 

 Hình 14: Kiểm tra đồng thời với nhiều ứng dụng chạy song song

Chứng nhận Giải pháp Intel Select

Ngoài kiểm tra điểm chuẩn, hệ thống này còn được chứng nhận là Giải pháp Intel® Select  cho Mô phỏng và Tạo mô hình. Giải pháp Intel Select là các cấu hình được tối ưu hóa cho khối lượng công việc mà Intel kiểm tra điểm chuẩn và xác minh về hiệu năng cũng như độ tin cậy. Những giải pháp này có thể được triển khai dễ dàng tại cơ sở và trên đám mây, mang lại khả năng dự đoán và khả năng mở rộng.

Tất cả Giải pháp Intel Select đều là sự kết hợp phù hợp giữa các công nghệ điện toán, bộ nhớ, lưu trữ và mạng của trung tâm dữ liệu Intel nhằm mang lại hiệu năng có thể dự đoán, đáng tin cậy và hấp dẫn. Mỗi giải pháp đều đảm bảo rằng khối lượng công việc sẽ hoạt động như mong đợi, nếu không muốn nói là tốt hơn. Những giải pháp này có thể giúp các doanh nghiệp cá nhân không phải đầu tư các nguồn lực có thể được sử dụng để đánh giá, lựa chọn và mua các thành phần phần cứng nhằm đạt được sự đảm bảo đó.

Giải pháp Dell HPC Theo Yêu cầu là một trong nhóm chọn lọc gồm các giải pháp đã được thử nghiệm và xác thực trước, kết hợp bộ xử lý có khả năng mở rộng Intel® Xeon® thế hệ thứ ba và các công nghệ Intel khác vào một kiến ​​trúc đã được chứng minh. Các giải pháp được chứng nhận này có thể giảm thời gian và chi phí xây dựng cụm HPC, giảm chi phí phần cứng bằng cách tận dụng một hệ thống duy nhất cho cả khối lượng công việc mô phỏng và lập mô hình.

Phần kết luận

Việc chạy một ứng dụng HPC đòi hỏi phải cân nhắc cẩn thận để đạt được hiệu suất tối ưu. Mục tiêu chính của nghiên cứu hiện tại là sử dụng cách điều chỉnh thích hợp để thu hẹp khoảng cách hiệu suất giữa hệ thống ảo và kim loại trần. Với cài đặt phù hợp trên các ứng dụng HPC đã thử nghiệm (xem phần Tổng quan), chênh lệch hiệu suất giữa các nút ảo và nút kim loại trần đối với các thử nghiệm 32 nút là dưới 10%. Do đó, có thể chạy thành công các khối lượng công việc HPC khác nhau trong môi trường ảo hóa để tận dụng lợi ích của các tính năng ảo hóa. Thử nghiệm đồng thời đã giúp chứng minh rằng việc chạy nhiều ứng dụng đồng thời trong các nút ảo không làm giảm hiệu suất.