Hiệu suất Động lực phân tử quy mô nano (NAMD) với GPU dòng Dell EMC PowerEdge R750xa & NVIDIA A

Tổng quan

Trong thập kỷ qua, GPU đã trở nên phổ biến trong điện toán khoa học nhờ khả năng khai thác mức độ song song cao. NVIDIA đã tối ưu hóa các ứng dụng khoa học đời sống để chạy trên GPU đa năng của họ. Thật không may, những GPU này chỉ có thể được lập trình với khung CUDA, OpenACC hoặc OpenCL. Hầu hết cộng đồng khoa học đời sống không quen thuộc với các khuôn khổ này nên rất ít nhà sinh vật học hoặc nhà tin sinh học có thể sử dụng hiệu quả kiến ​​trúc GPU. Tuy nhiên, GPU đã xâm nhập vào lĩnh vực mô phỏng động lực phân tử (MDS) kể từ khi MD được phát triển vào những năm 1950. MDS yêu cầu công việc tính toán nặng nề để mô phỏng các cấu trúc phân tử sinh học hoặc các tương tác của chúng.

 

Trong blog này, hiệu suất của một ứng dụng MDS phổ biến, NAMD , được trình bày với nhiều GPU dòng A của NVIDIA như A100, A10, A30 và A40. NAMD là gói MD song song mã nguồn mở và miễn phí được thiết kế để phân tích các chuyển động vật lý của các nguyên tử và phân tử.

 

Dell Technologies đã phát hành máy chủ PowerEdge R750xa mới , một nền tảng khối lượng công việc GPU được thiết kế để hỗ trợ trí tuệ nhân tạo, học máy và các giải pháp điện toán hiệu năng cao. Nền tảng ổ cắm kép/2U hỗ trợ Bộ xử lý có khả năng mở rộng Intel Xeon thế hệ thứ 3 (mã có tên Ice Lake). Nó hỗ trợ tới 40 lõi cho mỗi bộ xử lý, có tám kênh bộ nhớ cho mỗi CPU và tối đa 32 DIMM DDR4 ở tốc độ DIMM 3200 MT/s. Máy chủ này có thể chứa tối đa bốn GPU PCIe có chiều rộng gấp đôi nằm ở phía trước bên trái và phía trước bên phải của máy chủ. Cấu hình máy chủ thử nghiệm được tóm tắt trong Bảng 1 và thông số kỹ thuật của GPU NVIDIA đã thử nghiệm được liệt kê trong Bảng 2.

 

Bảng 1: Cấu hình nút điện toán đã được thử nghiệm

Giường thử nghiệm
Máy chủ Dell EMC PowerEdge R750xa Dell EMC PowerEdge R740
CPU CPU Intel(R) Xeon(R) Platinum 8380 @ 2,30 GHz CPU Intel(R) Xeon(R) Platinum 8360Y @ 2,40 GHz CPU Intel(R) Xeon(R) Gold 6248 @ 2,50 GHz
GPU NVIDIA 4 x  A100 4xA10  _ 4 x  A30 2 x  A40
ĐẬP DDR4 1024 GB (32 x 32 GB) 3200 MT/s DDR4 384 GB (24 x 16 GB) 2933 MT/s
Hệ điều hành RHEL 8.3 (4.18.0-240.el8.x86_64)
Mạng hệ thống tập tin Mellanox InfiniBand HDR100
Hệ thống tập tin Giải pháp sẵn sàng của Dell EMC cho bộ lưu trữ dung lượng cao HPC BeeGFS
Hồ sơ hệ thống BIOS Tối ưu hóa hiệu suất
Bộ xử lý logic Tàn tật
Công nghệ ảo hóa Tàn tật
Cuda/Bộ công cụ 11.2 
OpenMPI 4.1.1
NAMD NAMD_Git-2021-04-01_Source

Bảng 2: Thông số kỹ thuật của GPU NVIDIA được thử nghiệm

GPU NVIDIA
  A100 A10 A30 A40
FP64 (TFLOPS) 9,7 không xác định 5.2 không xác định
Lõi Tensor FP64 (TFLOPS) 19,5 không xác định 10.3 không xác định
FP32 (TFLOPS) 19,5 31,2 10.3 37,4
Phao nổi 32 (TFLOPS) 156 | 312* 62,5 | 125* 82 | 165 * 74,8 | 149,6*
Lõi căng BFLOAT16 (TFLOPS) 312 | 624* 125 | 250* 165 | 330* 149,7 | 299,4*
Lõi Tensor FP16 (TFLOPS) 312 | 624* 125 | 250* 165 | 330* 149,7 | 299,4*
Lõi căng INT8 (TOPS) 624 | 1248* 250 | 500* 330 | 661* 299,3 | 598,6*
Lõi Tensor INT4 (TOPS) không xác định 500 | 1.000* 661 | 1321* 598,7 | 1.197,4*
bộ nhớ GPU 40GB HBM2 24GB GDDR6 24GB HBM2 48 GB GDDR6
Băng thông bộ nhớ GPU 1.555 GB/giây 600 GB/giây 933 GB/giây 696 GB/giây
Công suất thiết kế nhiệt tối đa (TDP) 400W 150W 165W 300W
GPU đa phiên bản Lên đến 7 MIG @ 5 GB không xác định 4 phiên bản GPU @ 6 GB mỗi phiên bản

2 phiên bản GPU @ 12 GB mỗi phiên bản

1 phiên bản GPU @ 24 GB

không xác định
Yếu tố hình thức PCIe Khe đơn, chiều cao đầy đủ, chiều dài đầy đủ (FHFL) Khe kép, chiều cao đầy đủ, chiều dài đầy đủ (FHFL) Khe kép 4,4″ (H) x 10,5″ (L)
Kết nối PCIe Thế hệ 4: 

64 GB/giây

PCIe Thế hệ 4: 

64 GB/giây

PCIe Thế hệ 4: 

64 GB/giây

 

PCIE Gen4 x 16 31,5 GB/s (hai chiều)

* Với sự thưa thớt

Đánh giá hiệu suất

NAMD

NAMD được biên soạn từ mã nguồn (NAMD_Git-2021-04-01_Source) bằng GCC 11.1 và CUDA 11.2. Chúng tôi đã sử dụng bộ dữ liệu thử nghiệm, hệ thống 1,06 triệu nguyên tử của Virus khảm thuốc lá vệ tinh (SMTV). 

 

Hình 1 cho thấy hiệu suất của bốn GPU với bộ dữ liệu STMV. Các số liệu này thể hiện sự thay đổi hiệu suất tính bằng nano giây mỗi ngày (ns/ngày) với số lượng lõi khác nhau được sử dụng với một, hai hoặc bốn GPU. Sự so sánh hợp lệ duy nhất giữa các GPU khác nhau là NVIDIA A100 và A10 vì hệ thống thử nghiệm được cấu hình giống hệt nhau. Mặc dù hiệu năng của NAMD bị ảnh hưởng bởi tốc độ xung nhịp CPU nhưng các hệ thống được thử nghiệm không có sự khác biệt đáng kể so với tốc độ xung nhịp của CPU. A10 được đánh giá ở mức FLOPS chính xác gấp ba lần so với A30 và A10 hoạt động tốt hơn A30 trong hai bài kiểm tra GPU ngay cả với CPU chậm hơn một chút. A100 vượt trội hơn khoảng 25% và 16% trong các bài kiểm tra GPU đơn và hai khi so sánh kết quả của A10 tương ứng.

 

Kết quả từ bốn bài kiểm tra GPU trong Hình 1 cho thấy hiệu suất tương tự đối với các GPU khác nhau. Điều này rất phù hợp với kết quả thử nghiệm trước đây của chúng tôi rằng NAMD không mở rộng quy mô sau hai GPU. Chúng ta có thể loại trừ một lập luận tiềm năng rằng kích thước dữ liệu có thể quá nhỏ vì 3 triệu dữ liệu nguyên tử, hệ thống nguyên tử HECBioSim3000k , là một cặp tetramers 1IVO và 1NQL hEGFR, cho thấy kết quả tương tự hoặc tệ hơn (những kết quả đó không được hiển thị ở đây) .

 

Hình 1: Hiệu suất NAMD với STMV, hệ thống 1 triệu nguyên tử

Như được hiển thị trong Hình 1, khi thử nghiệm bốn GPU, tất cả các GPU ngoại trừ A40 đều đạt mô phỏng ~9 ns/ngày. Và xét về hiệu suất tối đa, A10 thực hiện số lượng mô phỏng cao nhất, 9,121 ns/ngày. Tuy nhiên, những con số này không phản ánh đúng hiệu suất do những hạn chế về khả năng mở rộng. Mặc dù cả bốn kết quả kiểm tra GPU đều giống nhau, nhưng A100 có thông lượng tốt hơn các GPU khác trong bài kiểm tra hai GPU như trong Hình 2. Ngoài ra, điều đáng chú ý là A10 và A40 không phù hợp cho tính toán đa năng do đến việc thiếu hỗ trợ độ chính xác kép. 

 

Hình 2 cho thấy sự so sánh hiệu suất giữa các GPU khác nhau mà chúng tôi đã thử nghiệm trong nghiên cứu này. Một lần nữa, A30 hoạt động tốt hơn A10 tới 16 lõi. Thật khó để xác định lý do tại sao A30 không hoạt động tốt với số lượng lớn lõi CPU đang hoạt động (20 trở lên). 

 

Hình 2: So sánh kết quả kiểm tra STMV với hai GPU

Phần kết luận

A100 cho thấy hiệu năng vượt trội và là card có khả năng hoạt động tốt nhất trong số các GPU dòng A. Mặc dù A30 không hoạt động tốt như A10 trong thử nghiệm của chúng tôi nhưng nó là một lựa chọn nổi bật khác cho các ứng dụng đa năng. 

 

A10 hoạt động tốt so với A30 và là sản phẩm kế thừa của T4, đây là giải pháp tiết kiệm chi phí nhất cho các ứng dụng cụ thể như phân tích dữ liệu gen.

Vì không thể thu được sự khác biệt chính xác về hiệu suất giữa các GPU dòng A từ nghiên cứu này nên cần phải nghiên cứu thêm để có được bức tranh rõ ràng về các GPU có mục đích chung này.