Tổng quan
Trong thập kỷ qua, GPU đã trở nên phổ biến trong điện toán khoa học nhờ khả năng khai thác mức độ song song cao. NVIDIA đã tối ưu hóa các ứng dụng khoa học đời sống để chạy trên GPU đa năng của họ. Thật không may, những GPU này chỉ có thể được lập trình với khung CUDA, OpenACC hoặc OpenCL. Hầu hết cộng đồng khoa học đời sống không quen thuộc với các khuôn khổ này nên rất ít nhà sinh vật học hoặc nhà tin sinh học có thể sử dụng hiệu quả kiến trúc GPU. Tuy nhiên, GPU đã xâm nhập vào lĩnh vực mô phỏng động lực phân tử (MDS) kể từ khi MD được phát triển vào những năm 1950. MDS yêu cầu công việc tính toán nặng nề để mô phỏng các cấu trúc phân tử sinh học hoặc các tương tác của chúng.
Trong blog này, hiệu suất của một ứng dụng MDS phổ biến, NAMD , được trình bày với nhiều GPU dòng A của NVIDIA như A100, A10, A30 và A40. NAMD là gói MD song song mã nguồn mở và miễn phí được thiết kế để phân tích các chuyển động vật lý của các nguyên tử và phân tử.
Dell Technologies đã phát hành máy chủ PowerEdge R750xa mới , một nền tảng khối lượng công việc GPU được thiết kế để hỗ trợ trí tuệ nhân tạo, học máy và các giải pháp điện toán hiệu năng cao. Nền tảng ổ cắm kép/2U hỗ trợ Bộ xử lý có khả năng mở rộng Intel Xeon thế hệ thứ 3 (mã có tên Ice Lake). Nó hỗ trợ tới 40 lõi cho mỗi bộ xử lý, có tám kênh bộ nhớ cho mỗi CPU và tối đa 32 DIMM DDR4 ở tốc độ DIMM 3200 MT/s. Máy chủ này có thể chứa tối đa bốn GPU PCIe có chiều rộng gấp đôi nằm ở phía trước bên trái và phía trước bên phải của máy chủ. Cấu hình máy chủ thử nghiệm được tóm tắt trong Bảng 1 và thông số kỹ thuật của GPU NVIDIA đã thử nghiệm được liệt kê trong Bảng 2.
Bảng 1: Cấu hình nút điện toán đã được thử nghiệm
Giường thử nghiệm | ||||
Máy chủ | Dell EMC PowerEdge R750xa | Dell EMC PowerEdge R740 | ||
CPU | CPU Intel(R) Xeon(R) Platinum 8380 @ 2,30 GHz | CPU Intel(R) Xeon(R) Platinum 8360Y @ 2,40 GHz | CPU Intel(R) Xeon(R) Gold 6248 @ 2,50 GHz | |
GPU NVIDIA | 4 x A100 | 4xA10 _ | 4 x A30 | 2 x A40 |
ĐẬP | DDR4 1024 GB (32 x 32 GB) 3200 MT/s | DDR4 384 GB (24 x 16 GB) 2933 MT/s | ||
Hệ điều hành | RHEL 8.3 (4.18.0-240.el8.x86_64) | |||
Mạng hệ thống tập tin | Mellanox InfiniBand HDR100 | |||
Hệ thống tập tin | Giải pháp sẵn sàng của Dell EMC cho bộ lưu trữ dung lượng cao HPC BeeGFS | |||
Hồ sơ hệ thống BIOS | Tối ưu hóa hiệu suất | |||
Bộ xử lý logic | Tàn tật | |||
Công nghệ ảo hóa | Tàn tật | |||
Cuda/Bộ công cụ | 11.2 | |||
OpenMPI | 4.1.1 | |||
NAMD | NAMD_Git-2021-04-01_Source |
Bảng 2: Thông số kỹ thuật của GPU NVIDIA được thử nghiệm
GPU NVIDIA | ||||
A100 | A10 | A30 | A40 | |
FP64 (TFLOPS) | 9,7 | không xác định | 5.2 | không xác định |
Lõi Tensor FP64 (TFLOPS) | 19,5 | không xác định | 10.3 | không xác định |
FP32 (TFLOPS) | 19,5 | 31,2 | 10.3 | 37,4 |
Phao nổi 32 (TFLOPS) | 156 | 312* | 62,5 | 125* | 82 | 165 * | 74,8 | 149,6* |
Lõi căng BFLOAT16 (TFLOPS) | 312 | 624* | 125 | 250* | 165 | 330* | 149,7 | 299,4* |
Lõi Tensor FP16 (TFLOPS) | 312 | 624* | 125 | 250* | 165 | 330* | 149,7 | 299,4* |
Lõi căng INT8 (TOPS) | 624 | 1248* | 250 | 500* | 330 | 661* | 299,3 | 598,6* |
Lõi Tensor INT4 (TOPS) | không xác định | 500 | 1.000* | 661 | 1321* | 598,7 | 1.197,4* |
bộ nhớ GPU | 40GB HBM2 | 24GB GDDR6 | 24GB HBM2 | 48 GB GDDR6 |
Băng thông bộ nhớ GPU | 1.555 GB/giây | 600 GB/giây | 933 GB/giây | 696 GB/giây |
Công suất thiết kế nhiệt tối đa (TDP) | 400W | 150W | 165W | 300W |
GPU đa phiên bản | Lên đến 7 MIG @ 5 GB | không xác định | 4 phiên bản GPU @ 6 GB mỗi phiên bản
2 phiên bản GPU @ 12 GB mỗi phiên bản 1 phiên bản GPU @ 24 GB |
không xác định |
Yếu tố hình thức | PCIe | Khe đơn, chiều cao đầy đủ, chiều dài đầy đủ (FHFL) | Khe kép, chiều cao đầy đủ, chiều dài đầy đủ (FHFL) | Khe kép 4,4″ (H) x 10,5″ (L) |
Kết nối | PCIe Thế hệ 4:
64 GB/giây |
PCIe Thế hệ 4:
64 GB/giây |
PCIe Thế hệ 4:
64 GB/giây
|
PCIE Gen4 x 16 31,5 GB/s (hai chiều) |
* Với sự thưa thớt
Đánh giá hiệu suất
NAMD
NAMD được biên soạn từ mã nguồn (NAMD_Git-2021-04-01_Source) bằng GCC 11.1 và CUDA 11.2. Chúng tôi đã sử dụng bộ dữ liệu thử nghiệm, hệ thống 1,06 triệu nguyên tử của Virus khảm thuốc lá vệ tinh (SMTV).
Hình 1 cho thấy hiệu suất của bốn GPU với bộ dữ liệu STMV. Các số liệu này thể hiện sự thay đổi hiệu suất tính bằng nano giây mỗi ngày (ns/ngày) với số lượng lõi khác nhau được sử dụng với một, hai hoặc bốn GPU. Sự so sánh hợp lệ duy nhất giữa các GPU khác nhau là NVIDIA A100 và A10 vì hệ thống thử nghiệm được cấu hình giống hệt nhau. Mặc dù hiệu năng của NAMD bị ảnh hưởng bởi tốc độ xung nhịp CPU nhưng các hệ thống được thử nghiệm không có sự khác biệt đáng kể so với tốc độ xung nhịp của CPU. A10 được đánh giá ở mức FLOPS chính xác gấp ba lần so với A30 và A10 hoạt động tốt hơn A30 trong hai bài kiểm tra GPU ngay cả với CPU chậm hơn một chút. A100 vượt trội hơn khoảng 25% và 16% trong các bài kiểm tra GPU đơn và hai khi so sánh kết quả của A10 tương ứng.
Kết quả từ bốn bài kiểm tra GPU trong Hình 1 cho thấy hiệu suất tương tự đối với các GPU khác nhau. Điều này rất phù hợp với kết quả thử nghiệm trước đây của chúng tôi rằng NAMD không mở rộng quy mô sau hai GPU. Chúng ta có thể loại trừ một lập luận tiềm năng rằng kích thước dữ liệu có thể quá nhỏ vì 3 triệu dữ liệu nguyên tử, hệ thống nguyên tử HECBioSim3000k , là một cặp tetramers 1IVO và 1NQL hEGFR, cho thấy kết quả tương tự hoặc tệ hơn (những kết quả đó không được hiển thị ở đây) .
Hình 1: Hiệu suất NAMD với STMV, hệ thống 1 triệu nguyên tử |
Như được hiển thị trong Hình 1, khi thử nghiệm bốn GPU, tất cả các GPU ngoại trừ A40 đều đạt mô phỏng ~9 ns/ngày. Và xét về hiệu suất tối đa, A10 thực hiện số lượng mô phỏng cao nhất, 9,121 ns/ngày. Tuy nhiên, những con số này không phản ánh đúng hiệu suất do những hạn chế về khả năng mở rộng. Mặc dù cả bốn kết quả kiểm tra GPU đều giống nhau, nhưng A100 có thông lượng tốt hơn các GPU khác trong bài kiểm tra hai GPU như trong Hình 2. Ngoài ra, điều đáng chú ý là A10 và A40 không phù hợp cho tính toán đa năng do đến việc thiếu hỗ trợ độ chính xác kép.
Hình 2 cho thấy sự so sánh hiệu suất giữa các GPU khác nhau mà chúng tôi đã thử nghiệm trong nghiên cứu này. Một lần nữa, A30 hoạt động tốt hơn A10 tới 16 lõi. Thật khó để xác định lý do tại sao A30 không hoạt động tốt với số lượng lớn lõi CPU đang hoạt động (20 trở lên).
Hình 2: So sánh kết quả kiểm tra STMV với hai GPU |
Phần kết luận
A100 cho thấy hiệu năng vượt trội và là card có khả năng hoạt động tốt nhất trong số các GPU dòng A. Mặc dù A30 không hoạt động tốt như A10 trong thử nghiệm của chúng tôi nhưng nó là một lựa chọn nổi bật khác cho các ứng dụng đa năng.
A10 hoạt động tốt so với A30 và là sản phẩm kế thừa của T4, đây là giải pháp tiết kiệm chi phí nhất cho các ứng dụng cụ thể như phân tích dữ liệu gen.
Vì không thể thu được sự khác biệt chính xác về hiệu suất giữa các GPU dòng A từ nghiên cứu này nên cần phải nghiên cứu thêm để có được bức tranh rõ ràng về các GPU có mục đích chung này.
Bài viết mới cập nhật
Công bố các bản nâng cấp không gây gián đoạn dựa trên Drain (NDU)
Trong quy trình làm việc NDU, các nút được khởi động ...
Tăng tốc khối lượng công việc của Hệ thống tệp mạng (NFS) của bạn với RDMA
Giao thức NFS hiện nay được sử dụng rộng rãi trong ...
Mẹo nhanh về dữ liệu phi cấu trúc – OneFS Protection Overhead
Gần đây đã có một số câu hỏi từ lĩnh vực ...
Giới thiệu Dell PowerScale OneFS dành cho Quản trị viên NetApp
Để các doanh nghiệp khai thác được lợi thế của công ...