Hiệu suất WRF với bộ xử lý có thể mở rộng Intel Xeon thế hệ thứ 3 trên máy chủ Dell EMC PowerEdge

Nhiều lĩnh vực như hàng không, du lịch, năng lượng và vận tải phụ thuộc rất nhiều vào dự báo thời tiết kịp thời và chính xác do các trung tâm dự báo thời tiết cung cấp. Các trung tâm dự báo hoạt động này sử dụng các mô hình dự báo thời tiết bằng số (NWP) để dự đoán thời tiết dựa trên điều kiện thời tiết hiện tại. Nghiên cứu và dự báo thời tiết (WRF) là một trong những hệ thống dự báo thời tiết số được sử dụng rộng rãi nhất để dự báo thời tiết. Cần có sự kết hợp phù hợp giữa tài nguyên tính toán mạnh mẽ, mạng tốc độ cao và lưu trữ thông lượng cao để đạt được hiệu suất tối đa trên cụm điện toán hiệu năng cao (HPC) để mô hình WRF đưa ra dự báo kịp thời.

Trong blog này, chúng tôi nêu bật sự cải thiện hiệu suất cho WRF với bộ xử lý Intel Ice Lake so với bộ xử lý Intel Cascade Lake với máy chủ Dell EMC PowerEdge. Các thử nghiệm này được thực hiện trên hai máy chủ Dell PowerEdge có ổ cắm bằng cách cài đặt tùy chọn BIOS cho cấu hình khối lượng công việc HPC . Chi tiết phần cứng và phần mềm thử nghiệm được nêu trong bảng sau:

Bảng 1: Chi tiết phần cứng và phần mềm đã thử nghiệm

Thành phần Máy chủ Dell EMC PowerEdge R750 Máy chủ Dell EMC PowerEdge R650 Máy chủ Dell EMC PowerEdge C6420 Máy chủ Dell EMC PowerEdge C6420
Mã hàng 8380 6338 8280 6252
Lõi/ổ cắm 40 32 28 24
Tần số (Turbo cơ bản-Max)
2,30 – 3,40 GHz 2,0 – 3,20 GHz 2,70 – 4,0 GHz 2,10 – 3,70 GHz
TDP 270 W 205 W 205 W 150 W
Bộ nhớ đệm L3 60 triệu 48M 38,5M 37,75M
Hệ điều hành Red Hat Enterprise Linux 8.3 4.18.0-240.22.1.el8_3.x86_64 Red Hat Enterprise Linux 8.3 4.18.0-240.22.1.el8_3.x86_64 Red Hat Enterprise Linux 8.3

4.18.0-240.el8.x86_64

Red Hat Enterprise Linux 8.3

4.18.0-240.el8.x86_64

Ký ức 32 GB x 16 (2Rx8) 3200 MT/s 32 GB x 16 (2Rx8) 3200 MT/s 16 GB x 12 (2Rx8)

2933 tấn/giây

16 GB x 12 (2Rx8)

2933 tấn/giây

BIOS/CPLD 1.2.4/1.0.5 2.11.2/1.1.0
Kết nối NVIDIA Mellanox HDR NVIDIA Mellanox HDR NVIDIA Mellanox HDR100 NVIDIA Mellanox HDR100
Trình biên dịch Studio song song Intel 2020 (cập nhật 4)
Bộ dữ liệu conus 2,5km ,   conus mới 2,5km , wrf_large 3km

Chúng tôi đã đo điểm chuẩn WRF-V3.9.1.1 với bộ dữ liệu conus 2,5km và conus 2,5km mới và WRF-V4.2.2 với bộ dữ liệu conus 2,5km và wrf_large 3km mới. Hình dưới đây hiển thị miền mô phỏng cho các bộ dữ liệu được thử nghiệm:

Hình 1:  Cấu hình miền cho các bộ dữ liệu conus 2,5 km, conus 2,5 km và wrf_large mới.

Bảng sau đây cung cấp mô tả ngắn gọn về từng tập dữ liệu:

Bảng 2:    Cấu hình cho bộ dữ liệu conus 2,5 km, conus 2,5 km và wrf_large mới

  conus 2,5 km conus mới 2,5 km wrf_large
Giờ chạy 3 3 2
Độ phân giải(m) 2500 2500 3000
Lớp dọc 35 35 50
Điểm lưới 1501 x 1201 1901 x 1301 1500 x 1500
khoảng_giây 10800 10800 21600

Kết quả được đo bằng cách lấy trung bình thời gian tính toán WRF của từng dấu thời gian từ tệp đầu ra rsl.error.0000. Các dấu thời gian trong quá trình đọc/ghi tệp (của wrfout* / wrfinput* ) không được tính vào mức trung bình.

Hiệu suất nút đơn

Các số liệu sau đây thể hiện hiệu suất ứng dụng của các bộ dữ liệu được đề cập trong Bảng 2. Trong mỗi hình, các số trên các thanh biểu thị hiệu suất tương đối so với hiệu suất đạt được với mẫu bộ xử lý Intel 6252 Cascade Lake. Các thanh màu xanh lam và xanh lục biểu thị hiệu suất ứng dụng đạt được với bộ xử lý Ice lake và Cascade Lake.

Hình 2: Hiệu suất tương đối của WRF theo bộ xử lý và loại tập dữ liệu được đề cập trong Bảng 1

WRF được biên dịch với cấu hình “dm + sm” với hướng dẫn avx2 và hỗ trợ netcdf nối tiếp (io_form* được đặt thành 2). Tất cả các lõi có sẵn đã được đăng ký trong quá trình chạy mô phỏng WRF. Để tối ưu hóa hiệu suất, chúng tôi đã thử nghiệm các số lượng quy trình MPI khác nhau, các kết hợp số lượng luồng OpenMP và sơ đồ xếp lớp (WRF_NUM_TILES).

Tùy thuộc vào tập dữ liệu, mẫu bộ xử lý 8380 có thể mang lại hiệu suất tốt hơn tới 19% so với mẫu bộ xử lý 6338. So với Cascade Lake, kiến ​​trúc Ice Lake có nhiều kênh bộ nhớ hơn và cung cấp băng thông bộ nhớ tổng hợp cao hơn. WRF, thường bị giới hạn băng thông bộ nhớ, có thể tận dụng băng thông bộ nhớ bổ sung (Bảng 3) do Ice Lake cung cấp và kết quả cho thấy sự cải thiện hiệu suất lên tới 65% so với các đối tác của Cascade Lake. So sánh Hướng dẫn trên mỗi chu kỳ (IPC) và Mức sử dụng băng thông DRAM  được thu thập bằng cách sử dụng trình lược tả Intel OneAPI Vtune trên bộ xử lý Intel Ice Lake và Cascade Lake được trình bày trong Bảng 3.

Bảng 3:  Số liệu được thu thập bằng trình phân tích vtune Intel OneAPI

8380 8280
IPC Băng thông (GB/s) IPC Băng thông (GB/s)
nón 2,5 km (WRFV3) 0,99 257,32 0,86 128,30
conus2.5km mới (WRFV3) 1,57 192,18 1,48 120,96
nón mới 2,5km (WRFV4) 1,36 191,43 1.14 115,46
wrf_large (WRFV4) 1,09 64,80 0,90 62,55

Ice Lake của Intel dự kiến ​​sẽ cung cấp IPC tốt hơn khoảng 20% ​​so với mẫu Cascade Lake ( 8380 so với 8280 ). Với các bộ dữ liệu được đề cập trong blog này, chúng tôi nhận thấy rằng bộ xử lý Intel 8380 báo cáo IPC tốt hơn từ 6 đến 19% so với bộ xử lý Intel 8280.

Hình 3 cho thấy mức tiêu thụ điện năng bằng cách sử dụng biểu đồ hình hộp và đường râu khi hệ thống đang được đo điểm chuẩn với bốn thử nghiệm như trong Hình 2. Hộp biểu thị mức độ phân tán của 50% dữ liệu năng lượng ở giữa và đường ở giữa biểu thị giá trị công suất trung bình . Các dấu chấm hiển thị các giá trị công suất ngoại lệ, hầu hết được ghi lại trong giai đoạn khởi tạo và hoàn thiện thử nghiệm.

Hình 3:  Năng lượng sử dụng theo nền tảng và loại bộ xử lý

Tần suất sử dụng trung bình của bộ xử lý 8380, 6338, 8280 và 6252 là khoảng 2,9, 2,5, 3,0,và 2,5 GHz tương ứng cho tất cả các bộ dữ liệu.

Khả năng mở rộng đa nút

Chúng tôi đã sử dụng tám nút để đánh giá khả năng mở rộng của WRF. Mỗi nút được trang bị bộ xử lý Intel 8380 và được kết nối với nhau bằng kết nối NVIDIA Mellanox HDR. Các nút được sử dụng để đo điểm chuẩn được kết nối với cùng một công tắc HDR. Bảng 1 cung cấp thông tin chi tiết về máy chủ và phần mềm đã được sử dụng để thử nghiệm. Văn bản ở trên cùng của thanh trong Hình 4 biểu thị hiệu suất tương đối (trên hai, bốn và tám nút) của ứng dụng so với hiệu suất của một nút duy nhất.

Hình 4:  Hiệu suất đa nút của WRF trên mẫu bộ xử lý Intel 8380 cho các bộ dữ liệu được liệt kê trong Bảng 1

Các số về khả năng mở rộng đã được làm tròn thành một chữ số. Chúng tôi quan sát thấy khả năng mở rộng tốt với tất cả các bộ dữ liệu được liệt kê trong Bảng 1.

Kết luận và khuyến nghị

Đối với WRF, Intel Ice Lake thể hiện sự cải thiện hiệu suất đáng kể so với bộ xử lý Intel Cascade Lake. Mô phỏng WRF có quy mô tốt với các bộ dữ liệu được mô tả trong blog này. Khả năng mở rộng có thể khác nhau tùy thuộc vào tập dữ liệu đang được sử dụng và số lượng nút đang được kiểm tra. Để có hiệu suất tốt nhất với WRF, cần đánh giá tác động của kích thước khối ảnh, quy trình và luồng trên mỗi quy trình.