Hiệu suất WRF với bộ xử lý AMD EPYC 7003 Series Trên máy chủ Dell EMC PowerEdge

Mô hình Nghiên cứu và Dự báo Thời tiết ( WRF ) là mô hình dự báo thời tiết quy mô trung bình nguồn mở, chủ yếu được sử dụng trong môi trường nút đa tính toán để nghiên cứu khí quyển và dự báo vận hành. Model này hoạt động tốt trên thế hệ mới nhất của dòng vi xử lý AMD EPYC thế hệ thứ 3 ( 7003 Series), tên mã Milan. Trong blog này, chúng tôi nêu bật việc cải thiện hiệu suất của ứng dụng WRF trên bộ xử lý AMD Milan dựa trên máy chủ Dell EMC PowerEdge.

Blog này tiếp nối blog đầu tiên của chúng tôi trong loạt bài này, nơi chúng tôi giới thiệu kiến ​​trúc bộ xử lý AMD Milan, các tùy chọn điều chỉnh BIOS chính và hiệu suất vi chuẩn cơ bản. Chúng tôi đã phân tích sự cải thiện hiệu suất của máy chủ Dell EMC PowerEdge chạy bộ xử lý AMD EPYC Milan (7003 Series) mới nhất so với máy chủ Dell EMC PowerEdge chạy bộ xử lý AMD EPYC Rome (7002 Series) thế hệ thứ hai. Chi tiết phần cứng và phần mềm thử nghiệm được nêu trong bảng sau: 

Bảng 1: Chi tiết phần cứng và phần mềm đã thử nghiệm

Máy chủ Máy chủ Dell EMC PowerEdge 2 socket

(với Bộ xử lý AMD Milan)

Máy chủ Dell EMC PowerEdge 2 socket

(với Bộ xử lý AMD Rome)

Mô hình bộ xử lý

Lõi/ổ cắm

Tần số (Tăng cường cơ sở)

Bộ đệm TDP
 L3

Tốc độ bus bộ xử lý

7763 

64

2,45 GHz – 3,5 GHz

280 W

256MB

16 GT/giây 

7713 

64

2,0 GHz – 3,7 GHz

225 W

256MB

16 GT/giây 

7543 

32

2,8 GHz – 3,7 GHz

225 W

256MB

16 GT/giây 

7662 

64c

2,0 GHz – 3,35 GHz

200 W

256MB

16 GT/giây

7542 

32

2,9 GHz – 3,4 GHz

225 W

128MB

16 GT/giây 

Hệ điều hành Red Hat Enterprise Linux 8.3 (4.18.0-240.el8.x86_64)
Ký ức DDR4 256G (16 GB x 16) 3200 MT/s
Kết nối NVIDIA Mellanox HDR
BIOS/CPLD 2.2.5 / 1.1.12 (AMD 7763,AMD 7713,AMD 7543)

2.1.6 / 1.1.12 (AMD 7662)

2.1.5 / 0.10.3 (AMD 7542)

Các ứng dụng WRF v3.9.1.1, WRF v4.2.2 
Bộ dữ liệu điểm chuẩn conus 2,5km ,   conus mới 2,5km , wrf_large 3km
 Hình dưới đây hiển thị miền cho các bộ dữ liệu được thử nghiệm: 

Hình 1: Cấu hình miền cho các bộ dữ liệu conus 2,5 km, conus 2,5 km và wrf_large mới.

Bảng sau đây cung cấp mô tả ngắn gọn về từng tập dữ liệu:

Bảng 2: Cấu hình cho bộ dữ liệu conus 2,5 km conus 2,5 km và wrf_large mới

  conus 2,5 km conus mới 2,5 km wrf_large
Giờ chạy 3 3 2
Độ phân giải(m) 2500 2500 3000
Lớp dọc 35 35 50
Điểm lưới 1501 x 1201 1901 x 1301 1500 x 1500
khoảng_giây 10800 10800 21600

Kết quả được đo bằng cách lấy trung bình thời gian tính toán WRF của từng dấu thời gian từ tệp đầu ra rsl.error.0000.

 

Hiệu suất nút đơn

Các số liệu sau đây thể hiện hiệu suất ứng dụng đối với các bộ dữ liệu được đề cập trong Bảng 2. Trong mỗi hình, các số trên các thanh thể hiện sự thay đổi tương đối về hiệu suất ứng dụng so với hiệu suất ứng dụng thu được trên mẫu bộ xử lý AMD 7542 Rome. 


Hình 2: Sự khác biệt tương đối về hiệu suất của WRF theo bộ xử lý và loại tập dữ liệu được đề cập trong Bảng 1

WRF được biên dịch với cấu hình “dm + sm” và tất cả các lõi có sẵn đã được đăng ký trong quá trình chạy mô phỏng WRF. Để tối ưu hóa hiệu suất, chúng tôi đã thử các tùy chọn đếm quy trình MPI, kết hợp số luồng OpenMP và sơ đồ xếp lớp (WRF_NUM_TILES) khác nhau. Đối với các thử nghiệm nút đơn, hai quy trình MPI trên mỗi Core Complex Die (CCD) mang lại kết quả tốt nhất cho bộ dữ liệu conus 2,5 km và conus 2,5 km mới. Chúng tôi đã sử dụng tám quy trình cho mỗi CCD cho tập dữ liệu wrf_large.

Tùy thuộc vào tập dữ liệu, bộ xử lý AMD 7763 có thể mang lại hiệu suất tốt hơn tới 14% so với bộ xử lý AMD 7543. Trong blog trước , chúng tôi đã quan sát thấy những cải tiến về hiệu suất tốt hơn trên mẫu bộ xử lý Milan 32 lõi với các điểm chuẩn giới hạn băng thông bộ nhớ như HPCG và STREAM. WRF là một ứng dụng giới hạn băng thông bộ nhớ và có sự cải thiện hiệu suất đáng chú ý ở mẫu bộ xử lý 32 lõi: AMD 7543 mang lại hiệu suất tốt hơn tới 26% so với bộ xử lý AMD 7542.

Từ hiệu suất được hiển thị trong Hình 2 và dữ liệu sử dụng năng lượng trung bình được hiển thị trong Hình 3, chúng tôi nhận thấy rằng bộ xử lý AMD 7713 có thể mang lại hiệu suất trên mỗi watt tốt hơn tới 58% so với bộ xử lý AMD 7662. 

 

Hình 3: Công suất sử dụng theo nền tảng và loại bộ xử lý: mức sử dụng điện năng trung bình của máy chủ nhàn rỗi là 305 W (7542), 338 W (7662), 305 W (7543), 258 W (7713) và 272 W (7763)

Khả năng mở rộng đa nút

Để đánh giá khả năng mở rộng của WRF, chúng tôi đã sử dụng tám nút. Mỗi nút được trang bị bộ xử lý AMD 7713 và được kết nối với nhau bằng kết nối NVIDIA Mellanox HDR. Các nút được sử dụng để đo điểm chuẩn được kết nối với cùng một công tắc HDR. Bảng 1 cung cấp thông tin chi tiết về máy chủ và phần mềm đã được sử dụng để thử nghiệm. Văn bản ở đầu dòng thể hiện sự thay đổi tương đối về hiệu suất ứng dụng (trên 2,4 và 8 nút) so với hiệu suất ứng dụng đạt được trên một nút.


 

Hình 4: Hiệu suất đa nút của WRF trên bộ xử lý AMD Milan 7713 cho các bộ dữ liệu được liệt kê trong Bảng 1

Các số về khả năng mở rộng đã được làm tròn thành một chữ số. Chúng tôi quan sát thấy khả năng mở rộng tốt với tất cả các bộ dữ liệu được liệt kê trong Bảng 1.

Kết luận và khuyến nghị

WRF mang lại hiệu suất và hiệu suất trên mỗi watt tốt hơn trên bộ xử lý AMD Milan. Có sự cải thiện hiệu suất đáng kể trên mẫu bộ xử lý Milan 32 lõi và mô phỏng WRF có khả năng mở rộng tốt với các bộ dữ liệu được mô tả trong blog này. Tuy nhiên, khả năng mở rộng có thể khác nhau tùy thuộc vào tập dữ liệu đang được sử dụng và số lượng nút đang được kiểm tra. Đảm bảo rằng bạn kiểm tra tác động của kích thước ngăn xếp, quy trình và luồng trên mỗi quy trình trước khi sử dụng.