Mô hình Dự báo và Nghiên cứu Thời tiết ( WRF ) là một mô hình dự báo thời tiết quy mô trung bình mã nguồn mở được sử dụng chủ yếu trong môi trường nút đa điện toán để nghiên cứu khí quyển và dự báo hoạt động. Mô hình này hoạt động tốt trên thế hệ mới nhất của dòng bộ xử lý AMD EPYC thế hệ thứ 3 (Sê-ri 7003), tên mã Milan. Trong blog này, chúng tôi nêu bật sự cải thiện hiệu suất của ứng dụng WRF trên bộ xử lý AMD Milan dựa trên máy chủ Dell EMC PowerEdge.
Blog này nối tiếp blog đầu tiên của chúng tôi trong loạt bài này, nơi chúng tôi đã giới thiệu kiến trúc bộ xử lý AMD Milan, các tùy chọn điều chỉnh BIOS chính và hiệu suất vi điểm chuẩn cơ bản. Chúng tôi đã phân tích sự cải thiện hiệu suất của máy chủ Dell EMC PowerEdge dựa trên bộ xử lý AMD EPYC Milan (Sê-ri 7003) mới nhất so với máy chủ Dell EMC PowerEdge dựa trên bộ xử lý AMD EPYC Rome (Sê-ri 7002) thế hệ thứ hai. Chi tiết phần cứng và phần mềm thử nghiệm được nêu trong bảng sau:
Bảng 1: Chi tiết phần cứng và phần mềm thử nghiệm
Người phục vụ | Máy chủ 2 socket Dell EMC PowerEdge
(với Bộ xử lý AMD Milan) |
Máy chủ 2 socket Dell EMC PowerEdge
(với Bộ xử lý AMD Rome) |
|||
mô hình bộ xử lý
Lõi/ổ cắm Tần số (Base-Boost) Bộ đệm TDP Tốc độ bus bộ xử lý |
7763
64 2,45 GHz – 3,5 GHz 280 W 256 MB 16 GT/giây |
7713
64 2,0 GHz – 3,7 GHz 225 W 256 MB 16 GT/giây |
7543
32 2,8 GHz – 3,7 GHz 225 W 256 MB 16 GT/giây |
7662
64c 2,0 GHz – 3,35 GHz 200W 256 MB 16 GT/giây |
7542
32 2,9 GHz – 3,4 GHz 225 W 128 MB 16 GT/giây |
Hệ điều hành | Red Hat Enterprise Linux 8.3 (4.18.0-240.el8.x86_64) | ||||
Kỉ niệm | DDR4 256G (16 GB x 16) 3200 tấn/giây | ||||
kết nối | NVIDIA Mellanox HDR | ||||
BIOS/CPLD | 2.2.5/1.1.12 (AMD 7763,AMD 7713,AMD 7543)
2.1.6/1.1.12 (AMD 7662) 2.1.5/0.10.3 (AMD 7542) |
||||
Các ứng dụng | WRF v3.9.1.1, WRF v4.2.2 | ||||
bộ dữ liệu điểm chuẩn | conus 2,5km , conus mới 2,5km , wrf_large 3km |
Hình 1: Cấu hình miền cho bộ dữ liệu conus 2,5 km, conus 2,5 km và wrf_large mới.
Bảng sau đây cung cấp mô tả ngắn gọn về từng tập dữ liệu:
Bảng 2: Cấu hình cho bộ dữ liệu conus 2,5 km conus 2,5 km và wrf_large mới
conus 2.5 km | conus mới 2.5 km | wrf_large | |
giờ chạy | 3 | 3 | 2 |
Độ phân giải (m) | 2500 | 2500 | 3000 |
lớp dọc | 35 | 35 | 50 |
Điểm lưới | 1501 x 1201 | 1901 x 1301 | 1500 x 1500 |
khoảng thời gian_giây | 10800 | 10800 | 21600 |
Kết quả được đo bằng cách lấy trung bình thời gian tính toán WRF của từng dấu thời gian từ tệp đầu ra rsl.error.0000.
Hiệu suất nút đơn
Các số liệu sau đây cho thấy hiệu suất của ứng dụng đối với các bộ dữ liệu được đề cập trong Bảng 2. Trong mỗi hình, các số trên các thanh thể hiện sự thay đổi tương đối về hiệu suất của ứng dụng so với hiệu suất của ứng dụng thu được trên mẫu bộ xử lý AMD 7542 Rome.
Hình 2: Sự khác biệt tương đối về hiệu suất của WRF theo bộ xử lý và loại tập dữ liệu được đề cập trong Bảng 1
WRF được biên dịch với cấu hình “dm + sm” và tất cả các lõi có sẵn đã được đăng ký trong quá trình chạy mô phỏng WRF. Để tối ưu hóa hiệu suất, chúng tôi đã thử các tùy chọn số lượng quy trình MPI, kết hợp số lượng chuỗi OpenMP và lược đồ xếp ô (WRF_NUM_TILES) khác nhau. Đối với các thử nghiệm một nút, hai quy trình MPI trên mỗi Khuôn phức hợp lõi (CCD) mang lại kết quả tốt nhất cho bộ dữ liệu conus 2,5 km và conus 2,5 km mới. Chúng tôi đã sử dụng tám quy trình trên mỗi CCD cho bộ dữ liệu wrf_large.
Tùy thuộc vào bộ dữ liệu, bộ xử lý AMD 7763 có thể mang lại hiệu suất tốt hơn tới 14 phần trăm so với bộ xử lý AMD 7543. Trong blog trước , chúng tôi đã quan sát thấy các cải tiến hiệu suất tốt hơn trên mẫu bộ xử lý Milan 32 lõi với các điểm chuẩn giới hạn băng thông bộ nhớ như HPCG và STREAM. WRF là một ứng dụng giới hạn băng thông bộ nhớ và có sự cải thiện hiệu suất đáng chú ý trong kiểu bộ xử lý 32 lõi: AMD 7543 mang lại hiệu suất tốt hơn tới 26% so với bộ xử lý AMD 7542.
Từ hiệu suất được hiển thị trong Hình 2 và dữ liệu sử dụng năng lượng trung bình được hiển thị trong hình 3, chúng tôi lưu ý rằng bộ xử lý AMD 7713 có thể mang lại hiệu suất trên mỗi watt tốt hơn tới 58 phần trăm so với bộ xử lý AMD 7662.
Hình 3: Điện năng sử dụng theo nền tảng và loại bộ xử lý: điện năng sử dụng trung bình của máy chủ nhàn rỗi là 305 W (7542), 338 W (7662), 305 W (7543), 258 W (7713) và 272 W (7763)
Khả năng mở rộng đa nút
Để đánh giá khả năng mở rộng của WRF, chúng tôi đã sử dụng tám nút. Mỗi nút được trang bị bộ xử lý AMD 7713 và được kết nối với nhau bằng kết nối NVIDIA Mellanox HDR. Các nút được sử dụng để đo điểm chuẩn được kết nối với cùng một công tắc HDR. Bảng 1 cung cấp thông tin chi tiết về máy chủ và phần mềm được sử dụng để kiểm tra. Văn bản ở đầu dòng thể hiện sự thay đổi tương đối trong hiệu suất ứng dụng (trên 2,4 và 8 nút) đối với hiệu suất ứng dụng đạt được trên một nút.
Hình 4: Hiệu suất đa nút của WRF trên bộ xử lý AMD Milan 7713 cho bộ dữ liệu được liệt kê trong Bảng 1
Các con số về khả năng mở rộng đã được làm tròn thành một chữ số. Chúng tôi quan sát thấy khả năng mở rộng tốt với tất cả các bộ dữ liệu được liệt kê trong Bảng 1.
Kết luận và khuyến nghị
WRF mang lại hiệu năng và hiệu suất trên mỗi watt tốt hơn trên bộ vi xử lý AMD Milan. Có một sự cải thiện hiệu suất đáng kể trên mô hình bộ xử lý Milan 32 lõi và các mô phỏng WRF mở rộng tốt với các bộ dữ liệu được mô tả trong blog này. Tuy nhiên, khả năng mở rộng có thể khác nhau tùy thuộc vào tập dữ liệu đang được sử dụng và số lượng nút đang được kiểm tra. Đảm bảo rằng bạn kiểm tra tác động của kích thước ô xếp, quy trình và luồng trên mỗi quy trình trước khi sử dụng.