Hiệu suất WRF với Bộ xử lý Intel Xeon có thể mở rộng thế hệ thứ 3 Trên máy chủ Dell EMC PowerEdge

Nhiều lĩnh vực như hàng không, du lịch, du lịch, năng lượng và vận tải phụ thuộc rất nhiều vào các dự báo thời tiết chính xác và kịp thời do các trung tâm dự báo thời tiết cung cấp. Các trung tâm dự báo hoạt động này sử dụng các mô hình dự báo thời tiết số (NWP) để dự đoán thời tiết dựa trên các điều kiện thời tiết hiện tại. Nghiên cứu và dự báo thời tiết (WRF) là một trong những hệ thống dự báo thời tiết số được sử dụng rộng rãi nhất để dự báo thời tiết. Cần có sự kết hợp phù hợp giữa tài nguyên tính toán mạnh mẽ, mạng tốc độ cao và lưu trữ thông lượng cao để đạt được hiệu suất tối đa trên cụm điện toán hiệu năng cao (HPC) để mô hình WRF đưa ra các dự báo kịp thời.

Trong blog này, chúng tôi nhấn mạnh cải tiến hiệu suất cho WRF với bộ xử lý Intel Ice Lake so với bộ xử lý Intel Cascade Lake với máy chủ Dell EMC PowerEdge. Các thử nghiệm này được thực hiện trên hai máy chủ Dell PowerEdge có ổ cắm bằng cách đặt tùy chọn BIOS thành cấu hình khối lượng công việc HPC . Chi tiết phần cứng và phần mềm thử nghiệm được nêu trong bảng sau:

Bảng 1: Chi tiết phần cứng và phần mềm thử nghiệm

Thành phần Máy chủ Dell EMC PowerEdge R750 Máy chủ Dell EMC PowerEdge R650 Máy chủ Dell EMC PowerEdge C6420 Máy chủ Dell EMC PowerEdge C6420
Mã hàng 8380 6338 8280 6252
Lõi/ổ cắm 40 32 28 24
Tần số (Base-Max Turbo)
2,30 – 3,40 GHz 2,0 – 3,20 GHz 2,70 – 4,0 GHz 2,10 – 3,70 GHz
TDP 270W 205 W 205 W 150W
L3Cache 60M 48M 38,5M 37.75M
Hệ điều hành Red Hat Enterprise Linux 8.3 4.18.0-240.22.1.el8_3.x86_64 Red Hat Enterprise Linux 8.3 4.18.0-240.22.1.el8_3.x86_64 Doanh nghiệp mũ đỏ Linux 8.3

4.18.0-240.el8.x86_64

Doanh nghiệp mũ đỏ Linux 8.3

4.18.0-240.el8.x86_64

Kỉ niệm 32 GB x 16 (2Rx8) 3200 tấn/giây 32 GB x 16 (2Rx8) 3200 tấn/giây 16 GB x 12 (2Rx8)

2933 tấn/giây

16 GB x 12 (2Rx8)

2933 tấn/giây

BIOS/CPLD 1.2.4/1.0.5 2.11.2/1.1.0
kết nối NVIDIA Mellanox HDR NVIDIA Mellanox HDR NVIDIA Mellanox HDR100 NVIDIA Mellanox HDR100
Trình biên dịch Studio song song Intel 2020 (bản cập nhật 4)
Bộ dữ liệu conus 2,5km ,   conus mới 2,5km , wrf_large 3km

Chúng tôi đã đo điểm chuẩn WRF-V3.9.1.1 với bộ dữ liệu conus 2,5km và conus 2,5km mới và WRF-V4.2.2 với bộ dữ liệu conus 2,5km và wrf_large 3km mới. Hình dưới đây cho thấy miền mô phỏng cho các bộ dữ liệu được thử nghiệm:

Hình 1:  Cấu hình miền cho bộ dữ liệu conus 2,5 km, conus 2,5 km và wrf_large mới.

Bảng sau đây cung cấp mô tả ngắn gọn về từng bộ dữ liệu:

Bảng 2:    Cấu hình cho bộ dữ liệu conus 2,5 km, conus 2,5 km và wrf_large mới

  conus 2.5 km conus mới 2.5 km wrf_large
giờ chạy 3 3 2
Độ phân giải (m) 2500 2500 3000
lớp dọc 35 35 50
Điểm lưới 1501 x 1201 1901 x 1301 1500 x 1500
khoảng thời gian_giây 10800 10800 21600

Kết quả được đo bằng cách lấy trung bình thời gian tính toán WRF của từng dấu thời gian từ tệp đầu ra rsl.error.0000. Dấu thời gian trong quá trình đọc/ghi tệp (của wrfout* / wrfinput* ) không được đưa vào mức trung bình.

Hiệu suất nút đơn

Các số liệu sau đây cho thấy hiệu suất của ứng dụng đối với các tập dữ liệu được đề cập trong Bảng 2. Trong mỗi hình, các số trên các thanh biểu thị hiệu suất tương đối so với hiệu suất đạt được với mẫu bộ xử lý Intel 6252 Cascade Lake. Các thanh màu xanh lam và xanh lục thể hiện hiệu suất ứng dụng đạt được với bộ xử lý Ice lake và Cascade Lake.

Hình 2: Hiệu suất tương đối của WRF theo bộ xử lý và loại tập dữ liệu được đề cập trong Bảng 1

WRF được biên dịch với cấu hình “dm + sm” với hướng dẫn avx2 và hỗ trợ netcdf nối tiếp (io_form* được đặt thành 2). Tất cả các lõi có sẵn đã được đăng ký trong quá trình chạy mô phỏng WRF. Để tối ưu hóa hiệu suất, chúng tôi đã thử nghiệm các số lượng quy trình MPI khác nhau, các kết hợp số lượng chuỗi OpenMP và sơ đồ xếp ô (WRF_NUM_TILES).

Tùy thuộc vào tập dữ liệu, kiểu bộ xử lý 8380 có thể mang lại hiệu suất tốt hơn tới 19 phần trăm so với kiểu bộ xử lý 6338. So với Cascade Lake, kiến ​​trúc Ice Lake có nhiều kênh bộ nhớ hơn và cung cấp băng thông bộ nhớ tổng hợp cao hơn. WRF, thường là giới hạn băng thông bộ nhớ, có thể tận dụng băng thông bộ nhớ bổ sung (Bảng 3) do Ice Lake cung cấp và kết quả cho thấy cải thiện hiệu suất lên tới 65 phần trăm so với các đối tác Cascade Lake. So sánh các hướng dẫn trên mỗi chu kỳ (IPC) và mức sử dụng băng thông DRAM  được thu thập bằng trình cấu hình Intel OneAPI Vtune trên bộ xử lý Intel Ice Lake và Cascade Lake được trình bày trong Bảng 3.

Bảng 3:  Các số liệu được thu thập bằng trình cấu hình vtune Intel OneAPI

8380 8280
IPC Băng thông (GB/giây) IPC Băng thông (GB/giây)
conus 2,5km (WRFV3) 0,99 257.32 0,86 128.30
conus2.5km mới (WRFV3) 1,57 192.18 1,48 120,96
conus mới 2,5km (WRFV4) 1,36 191.43 1.14 115,46
wrf_large (WRFV4) 1.09 64,80 0,90 62,55

Ice Lake của Intel dự kiến ​​sẽ cung cấp IPC tốt hơn khoảng 20% ​​so với mẫu Cascade Lake ( 8380 so với 8280 ). Với các bộ dữ liệu được đề cập trong blog này, chúng tôi nhận thấy rằng bộ xử lý Intel 8380 báo cáo IPC tốt hơn từ 6 đến 19% so với bộ xử lý Intel 8280.

Hình 3 cho thấy mức tiêu thụ điện năng bằng cách sử dụng biểu đồ hộp và râu khi hệ thống được đo điểm chuẩn với bốn thử nghiệm được hiển thị trong Hình 2. Hộp biểu thị mức độ lan truyền của 50% dữ liệu năng lượng trung tâm và đường trung tâm biểu thị giá trị năng lượng trung bình . Các dấu chấm hiển thị các giá trị sức mạnh ngoại lệ, hầu hết trong số đó được ghi lại trong giai đoạn khởi tạo và hoàn thiện các bài kiểm tra.

Hình 3:  Điện năng sử dụng theo nền tảng và loại bộ xử lý

Mức sử dụng tần số trung bình cho bộ xử lý 8380, 6338, 8280 và 6252 là khoảng 2,9, 2,5, 3,0,và 2,5 GHz tương ứng cho tất cả các bộ dữ liệu.

Khả năng mở rộng đa nút

Chúng tôi đã sử dụng tám nút để đánh giá khả năng mở rộng của WRF. Mỗi nút được trang bị bộ xử lý Intel 8380 và được kết nối với nhau bằng kết nối NVIDIA Mellanox HDR. Các nút được sử dụng để đo điểm chuẩn được kết nối với cùng một công tắc HDR. Bảng 1 cung cấp thông tin chi tiết về máy chủ và phần mềm được sử dụng để kiểm tra. Văn bản trên đầu thanh trong Hình 4 thể hiện hiệu suất tương đối (trên hai, bốn và tám nút) cho ứng dụng so với hiệu suất với một nút.

Hình 4:  Hiệu suất đa nút của WRF trên mẫu bộ xử lý Intel 8380 cho bộ dữ liệu được liệt kê trong Bảng 1

Các con số về khả năng mở rộng đã được làm tròn thành một chữ số. Chúng tôi quan sát thấy khả năng mở rộng tốt với tất cả các bộ dữ liệu được liệt kê trong Bảng 1.

Kết luận và khuyến nghị

Đối với WRF, Intel Ice Lake thể hiện sự cải thiện hiệu suất đáng kể so với bộ xử lý Intel Cascade Lake. Mô phỏng WRF mở rộng quy mô tốt với các bộ dữ liệu được mô tả trong blog này. Khả năng mở rộng có thể khác nhau tùy thuộc vào tập dữ liệu đang được sử dụng và số lượng nút đang được kiểm tra. Để có hiệu suất tốt nhất với WRF, tác động của kích thước ngăn xếp, quy trình và luồng trên mỗi quy trình phải được đánh giá.