Nhiều lĩnh vực như hàng không, du lịch, du lịch, năng lượng và vận tải phụ thuộc rất nhiều vào các dự báo thời tiết chính xác và kịp thời do các trung tâm dự báo thời tiết cung cấp. Các trung tâm dự báo hoạt động này sử dụng các mô hình dự báo thời tiết số (NWP) để dự đoán thời tiết dựa trên các điều kiện thời tiết hiện tại. Nghiên cứu và dự báo thời tiết (WRF) là một trong những hệ thống dự báo thời tiết số được sử dụng rộng rãi nhất để dự báo thời tiết. Cần có sự kết hợp phù hợp giữa tài nguyên tính toán mạnh mẽ, mạng tốc độ cao và lưu trữ thông lượng cao để đạt được hiệu suất tối đa trên cụm điện toán hiệu năng cao (HPC) để mô hình WRF đưa ra các dự báo kịp thời.
Trong blog này, chúng tôi nhấn mạnh cải tiến hiệu suất cho WRF với bộ xử lý Intel Ice Lake so với bộ xử lý Intel Cascade Lake với máy chủ Dell EMC PowerEdge. Các thử nghiệm này được thực hiện trên hai máy chủ Dell PowerEdge có ổ cắm bằng cách đặt tùy chọn BIOS thành cấu hình khối lượng công việc HPC . Chi tiết phần cứng và phần mềm thử nghiệm được nêu trong bảng sau:
Bảng 1: Chi tiết phần cứng và phần mềm thử nghiệm
Thành phần | Máy chủ Dell EMC PowerEdge R750 | Máy chủ Dell EMC PowerEdge R650 | Máy chủ Dell EMC PowerEdge C6420 | Máy chủ Dell EMC PowerEdge C6420 |
Mã hàng | 8380 | 6338 | 8280 | 6252 |
Lõi/ổ cắm | 40 | 32 | 28 | 24 |
Tần số (Base-Max Turbo) |
2,30 – 3,40 GHz | 2,0 – 3,20 GHz | 2,70 – 4,0 GHz | 2,10 – 3,70 GHz |
TDP | 270W | 205 W | 205 W | 150W |
L3Cache | 60M | 48M | 38,5M | 37.75M |
Hệ điều hành | Red Hat Enterprise Linux 8.3 4.18.0-240.22.1.el8_3.x86_64 | Red Hat Enterprise Linux 8.3 4.18.0-240.22.1.el8_3.x86_64 | Doanh nghiệp mũ đỏ Linux 8.3
4.18.0-240.el8.x86_64 |
Doanh nghiệp mũ đỏ Linux 8.3
4.18.0-240.el8.x86_64 |
Kỉ niệm | 32 GB x 16 (2Rx8) 3200 tấn/giây | 32 GB x 16 (2Rx8) 3200 tấn/giây | 16 GB x 12 (2Rx8)
2933 tấn/giây |
16 GB x 12 (2Rx8)
2933 tấn/giây |
BIOS/CPLD | 1.2.4/1.0.5 | 2.11.2/1.1.0 | ||
kết nối | NVIDIA Mellanox HDR | NVIDIA Mellanox HDR | NVIDIA Mellanox HDR100 | NVIDIA Mellanox HDR100 |
Trình biên dịch | Studio song song Intel 2020 (bản cập nhật 4) | |||
Bộ dữ liệu | conus 2,5km , conus mới 2,5km , wrf_large 3km |
Chúng tôi đã đo điểm chuẩn WRF-V3.9.1.1 với bộ dữ liệu conus 2,5km và conus 2,5km mới và WRF-V4.2.2 với bộ dữ liệu conus 2,5km và wrf_large 3km mới. Hình dưới đây cho thấy miền mô phỏng cho các bộ dữ liệu được thử nghiệm:
Hình 1: Cấu hình miền cho bộ dữ liệu conus 2,5 km, conus 2,5 km và wrf_large mới.
Bảng sau đây cung cấp mô tả ngắn gọn về từng bộ dữ liệu:
Bảng 2: Cấu hình cho bộ dữ liệu conus 2,5 km, conus 2,5 km và wrf_large mới
conus 2.5 km | conus mới 2.5 km | wrf_large | |
giờ chạy | 3 | 3 | 2 |
Độ phân giải (m) | 2500 | 2500 | 3000 |
lớp dọc | 35 | 35 | 50 |
Điểm lưới | 1501 x 1201 | 1901 x 1301 | 1500 x 1500 |
khoảng thời gian_giây | 10800 | 10800 | 21600 |
Kết quả được đo bằng cách lấy trung bình thời gian tính toán WRF của từng dấu thời gian từ tệp đầu ra rsl.error.0000. Dấu thời gian trong quá trình đọc/ghi tệp (của wrfout* / wrfinput* ) không được đưa vào mức trung bình.
Hiệu suất nút đơn
Các số liệu sau đây cho thấy hiệu suất của ứng dụng đối với các tập dữ liệu được đề cập trong Bảng 2. Trong mỗi hình, các số trên các thanh biểu thị hiệu suất tương đối so với hiệu suất đạt được với mẫu bộ xử lý Intel 6252 Cascade Lake. Các thanh màu xanh lam và xanh lục thể hiện hiệu suất ứng dụng đạt được với bộ xử lý Ice lake và Cascade Lake.
Hình 2: Hiệu suất tương đối của WRF theo bộ xử lý và loại tập dữ liệu được đề cập trong Bảng 1
WRF được biên dịch với cấu hình “dm + sm” với hướng dẫn avx2 và hỗ trợ netcdf nối tiếp (io_form* được đặt thành 2). Tất cả các lõi có sẵn đã được đăng ký trong quá trình chạy mô phỏng WRF. Để tối ưu hóa hiệu suất, chúng tôi đã thử nghiệm các số lượng quy trình MPI khác nhau, các kết hợp số lượng chuỗi OpenMP và sơ đồ xếp ô (WRF_NUM_TILES).
Tùy thuộc vào tập dữ liệu, kiểu bộ xử lý 8380 có thể mang lại hiệu suất tốt hơn tới 19 phần trăm so với kiểu bộ xử lý 6338. So với Cascade Lake, kiến trúc Ice Lake có nhiều kênh bộ nhớ hơn và cung cấp băng thông bộ nhớ tổng hợp cao hơn. WRF, thường là giới hạn băng thông bộ nhớ, có thể tận dụng băng thông bộ nhớ bổ sung (Bảng 3) do Ice Lake cung cấp và kết quả cho thấy cải thiện hiệu suất lên tới 65 phần trăm so với các đối tác Cascade Lake. So sánh các hướng dẫn trên mỗi chu kỳ (IPC) và mức sử dụng băng thông DRAM được thu thập bằng trình cấu hình Intel OneAPI Vtune trên bộ xử lý Intel Ice Lake và Cascade Lake được trình bày trong Bảng 3.
Bảng 3: Các số liệu được thu thập bằng trình cấu hình vtune Intel OneAPI
8380 | 8280 | |||
IPC | Băng thông (GB/giây) | IPC | Băng thông (GB/giây) | |
conus 2,5km (WRFV3) | 0,99 | 257.32 | 0,86 | 128.30 |
conus2.5km mới (WRFV3) | 1,57 | 192.18 | 1,48 | 120,96 |
conus mới 2,5km (WRFV4) | 1,36 | 191.43 | 1.14 | 115,46 |
wrf_large (WRFV4) | 1.09 | 64,80 | 0,90 | 62,55 |
Ice Lake của Intel dự kiến sẽ cung cấp IPC tốt hơn khoảng 20% so với mẫu Cascade Lake ( 8380 so với 8280 ). Với các bộ dữ liệu được đề cập trong blog này, chúng tôi nhận thấy rằng bộ xử lý Intel 8380 báo cáo IPC tốt hơn từ 6 đến 19% so với bộ xử lý Intel 8280.
Hình 3 cho thấy mức tiêu thụ điện năng bằng cách sử dụng biểu đồ hộp và râu khi hệ thống được đo điểm chuẩn với bốn thử nghiệm được hiển thị trong Hình 2. Hộp biểu thị mức độ lan truyền của 50% dữ liệu năng lượng trung tâm và đường trung tâm biểu thị giá trị năng lượng trung bình . Các dấu chấm hiển thị các giá trị sức mạnh ngoại lệ, hầu hết trong số đó được ghi lại trong giai đoạn khởi tạo và hoàn thiện các bài kiểm tra.
Hình 3: Điện năng sử dụng theo nền tảng và loại bộ xử lý
Mức sử dụng tần số trung bình cho bộ xử lý 8380, 6338, 8280 và 6252 là khoảng 2,9, 2,5, 3,0,và 2,5 GHz tương ứng cho tất cả các bộ dữ liệu.
Khả năng mở rộng đa nút
Chúng tôi đã sử dụng tám nút để đánh giá khả năng mở rộng của WRF. Mỗi nút được trang bị bộ xử lý Intel 8380 và được kết nối với nhau bằng kết nối NVIDIA Mellanox HDR. Các nút được sử dụng để đo điểm chuẩn được kết nối với cùng một công tắc HDR. Bảng 1 cung cấp thông tin chi tiết về máy chủ và phần mềm được sử dụng để kiểm tra. Văn bản trên đầu thanh trong Hình 4 thể hiện hiệu suất tương đối (trên hai, bốn và tám nút) cho ứng dụng so với hiệu suất với một nút.
Hình 4: Hiệu suất đa nút của WRF trên mẫu bộ xử lý Intel 8380 cho bộ dữ liệu được liệt kê trong Bảng 1
Các con số về khả năng mở rộng đã được làm tròn thành một chữ số. Chúng tôi quan sát thấy khả năng mở rộng tốt với tất cả các bộ dữ liệu được liệt kê trong Bảng 1.
Kết luận và khuyến nghị
Đối với WRF, Intel Ice Lake thể hiện sự cải thiện hiệu suất đáng kể so với bộ xử lý Intel Cascade Lake. Mô phỏng WRF mở rộng quy mô tốt với các bộ dữ liệu được mô tả trong blog này. Khả năng mở rộng có thể khác nhau tùy thuộc vào tập dữ liệu đang được sử dụng và số lượng nút đang được kiểm tra. Để có hiệu suất tốt nhất với WRF, tác động của kích thước ngăn xếp, quy trình và luồng trên mỗi quy trình phải được đánh giá.
Bài viết mới cập nhật
OneFS Cbind và DNS Caching
OneFS cbind là daemon bộ đệm DNS phân tán cho cụm ...
NANON OneFS
Theo cách nói của OneFS, các cụm PowerScale có kết nối ...
Mở khóa tiềm năng của dữ liệu phi cấu trúc với PowerScale OneFS S3
Trong bối cảnh lưu trữ dữ liệu đang phát triển nhanh ...
Trình điều khiển máy khách đa đường dẫn PowerScale và khả năng kích hoạt AI
Trình điều khiển máy khách đa đường dẫn PowerScale và khả ...