Mô hình Nghiên cứu và Dự báo Thời tiết ( WRF ) là mô hình dự báo thời tiết quy mô trung bình nguồn mở, chủ yếu được sử dụng trong môi trường nút đa tính toán để nghiên cứu khí quyển và dự báo vận hành. Model này hoạt động tốt trên thế hệ mới nhất của dòng vi xử lý AMD EPYC thế hệ thứ 3 ( 7003 Series), tên mã Milan. Trong blog này, chúng tôi nêu bật việc cải thiện hiệu suất của ứng dụng WRF trên bộ xử lý AMD Milan dựa trên máy chủ Dell EMC PowerEdge.
Blog này tiếp nối blog đầu tiên của chúng tôi trong loạt bài này, nơi chúng tôi giới thiệu kiến trúc bộ xử lý AMD Milan, các tùy chọn điều chỉnh BIOS chính và hiệu suất vi chuẩn cơ bản. Chúng tôi đã phân tích sự cải thiện hiệu suất của máy chủ Dell EMC PowerEdge chạy bộ xử lý AMD EPYC Milan (7003 Series) mới nhất so với máy chủ Dell EMC PowerEdge chạy bộ xử lý AMD EPYC Rome (7002 Series) thế hệ thứ hai. Chi tiết phần cứng và phần mềm thử nghiệm được nêu trong bảng sau:
Bảng 1: Chi tiết phần cứng và phần mềm đã thử nghiệm
Máy chủ | Máy chủ Dell EMC PowerEdge 2 socket
(với Bộ xử lý AMD Milan) |
Máy chủ Dell EMC PowerEdge 2 socket
(với Bộ xử lý AMD Rome) |
|||
Mô hình bộ xử lý
Lõi/ổ cắm Tần số (Tăng cường cơ sở) Bộ đệm TDP Tốc độ bus bộ xử lý |
7763
64 2,45 GHz – 3,5 GHz 280 W 256MB 16 GT/giây |
7713
64 2,0 GHz – 3,7 GHz 225 W 256MB 16 GT/giây |
7543
32 2,8 GHz – 3,7 GHz 225 W 256MB 16 GT/giây |
7662
64c 2,0 GHz – 3,35 GHz 200 W 256MB 16 GT/giây |
7542
32 2,9 GHz – 3,4 GHz 225 W 128MB 16 GT/giây |
Hệ điều hành | Red Hat Enterprise Linux 8.3 (4.18.0-240.el8.x86_64) | ||||
Ký ức | DDR4 256G (16 GB x 16) 3200 MT/s | ||||
Kết nối | NVIDIA Mellanox HDR | ||||
BIOS/CPLD | 2.2.5 / 1.1.12 (AMD 7763,AMD 7713,AMD 7543)
2.1.6 / 1.1.12 (AMD 7662) 2.1.5 / 0.10.3 (AMD 7542) |
||||
Các ứng dụng | WRF v3.9.1.1, WRF v4.2.2 | ||||
Bộ dữ liệu điểm chuẩn | conus 2,5km , conus mới 2,5km , wrf_large 3km |
Hình 1: Cấu hình miền cho các bộ dữ liệu conus 2,5 km, conus 2,5 km và wrf_large mới.
Bảng sau đây cung cấp mô tả ngắn gọn về từng tập dữ liệu:
Bảng 2: Cấu hình cho bộ dữ liệu conus 2,5 km conus 2,5 km và wrf_large mới
conus 2,5 km | conus mới 2,5 km | wrf_large | |
Giờ chạy | 3 | 3 | 2 |
Độ phân giải(m) | 2500 | 2500 | 3000 |
Lớp dọc | 35 | 35 | 50 |
Điểm lưới | 1501 x 1201 | 1901 x 1301 | 1500 x 1500 |
khoảng_giây | 10800 | 10800 | 21600 |
Kết quả được đo bằng cách lấy trung bình thời gian tính toán WRF của từng dấu thời gian từ tệp đầu ra rsl.error.0000.
Hiệu suất nút đơn
Các số liệu sau đây thể hiện hiệu suất ứng dụng đối với các bộ dữ liệu được đề cập trong Bảng 2. Trong mỗi hình, các số trên các thanh thể hiện sự thay đổi tương đối về hiệu suất ứng dụng so với hiệu suất ứng dụng thu được trên mẫu bộ xử lý AMD 7542 Rome.
Hình 2: Sự khác biệt tương đối về hiệu suất của WRF theo bộ xử lý và loại tập dữ liệu được đề cập trong Bảng 1
WRF được biên dịch với cấu hình “dm + sm” và tất cả các lõi có sẵn đã được đăng ký trong quá trình chạy mô phỏng WRF. Để tối ưu hóa hiệu suất, chúng tôi đã thử các tùy chọn đếm quy trình MPI, kết hợp số luồng OpenMP và sơ đồ xếp lớp (WRF_NUM_TILES) khác nhau. Đối với các thử nghiệm nút đơn, hai quy trình MPI trên mỗi Core Complex Die (CCD) mang lại kết quả tốt nhất cho bộ dữ liệu conus 2,5 km và conus 2,5 km mới. Chúng tôi đã sử dụng tám quy trình cho mỗi CCD cho tập dữ liệu wrf_large.
Tùy thuộc vào tập dữ liệu, bộ xử lý AMD 7763 có thể mang lại hiệu suất tốt hơn tới 14% so với bộ xử lý AMD 7543. Trong blog trước , chúng tôi đã quan sát thấy những cải tiến về hiệu suất tốt hơn trên mẫu bộ xử lý Milan 32 lõi với các điểm chuẩn giới hạn băng thông bộ nhớ như HPCG và STREAM. WRF là một ứng dụng giới hạn băng thông bộ nhớ và có sự cải thiện hiệu suất đáng chú ý ở mẫu bộ xử lý 32 lõi: AMD 7543 mang lại hiệu suất tốt hơn tới 26% so với bộ xử lý AMD 7542.
Từ hiệu suất được hiển thị trong Hình 2 và dữ liệu sử dụng năng lượng trung bình được hiển thị trong Hình 3, chúng tôi nhận thấy rằng bộ xử lý AMD 7713 có thể mang lại hiệu suất trên mỗi watt tốt hơn tới 58% so với bộ xử lý AMD 7662.
Hình 3: Công suất sử dụng theo nền tảng và loại bộ xử lý: mức sử dụng điện năng trung bình của máy chủ nhàn rỗi là 305 W (7542), 338 W (7662), 305 W (7543), 258 W (7713) và 272 W (7763)
Khả năng mở rộng đa nút
Để đánh giá khả năng mở rộng của WRF, chúng tôi đã sử dụng tám nút. Mỗi nút được trang bị bộ xử lý AMD 7713 và được kết nối với nhau bằng kết nối NVIDIA Mellanox HDR. Các nút được sử dụng để đo điểm chuẩn được kết nối với cùng một công tắc HDR. Bảng 1 cung cấp thông tin chi tiết về máy chủ và phần mềm đã được sử dụng để thử nghiệm. Văn bản ở đầu dòng thể hiện sự thay đổi tương đối về hiệu suất ứng dụng (trên 2,4 và 8 nút) so với hiệu suất ứng dụng đạt được trên một nút.
Hình 4: Hiệu suất đa nút của WRF trên bộ xử lý AMD Milan 7713 cho các bộ dữ liệu được liệt kê trong Bảng 1
Các số về khả năng mở rộng đã được làm tròn thành một chữ số. Chúng tôi quan sát thấy khả năng mở rộng tốt với tất cả các bộ dữ liệu được liệt kê trong Bảng 1.
Kết luận và khuyến nghị
WRF mang lại hiệu suất và hiệu suất trên mỗi watt tốt hơn trên bộ xử lý AMD Milan. Có sự cải thiện hiệu suất đáng kể trên mẫu bộ xử lý Milan 32 lõi và mô phỏng WRF có khả năng mở rộng tốt với các bộ dữ liệu được mô tả trong blog này. Tuy nhiên, khả năng mở rộng có thể khác nhau tùy thuộc vào tập dữ liệu đang được sử dụng và số lượng nút đang được kiểm tra. Đảm bảo rằng bạn kiểm tra tác động của kích thước ngăn xếp, quy trình và luồng trên mỗi quy trình trước khi sử dụng.
Bài viết mới cập nhật
Thuần hóa sự hỗn loạn của công nghệ: Giải pháp phục hồi sáng tạo của Dell
Sự cố CNTT nghiêm trọng ảnh hưởng đến 8,5 triệu hệ ...
Dell PowerScale và Marvel hợp tác để tạo ra quy trình làm việc truyền thông tối ưu
Hiện đang ở thế hệ thứ 9, giải pháp lưu trữ Dell ...
Bảo mật PowerScale OneFS SyncIQ
Trong thế giới sao chép dữ liệu, việc đảm bảo tính ...
Danh sách kiểm tra cơ sở bảo mật PowerScale
Là một biện pháp bảo mật tốt nhất, chúng tôi khuyến ...