Hiệu suất điểm chuẩn tổng hợp của HPC bằng cách sử dụng Bộ xử lý có khả năng thay đổi Intel® Xeon® thế hệ thứ 2 – STREAM, HPL và HPCG

Bài viết của Savitha Pareek, Varun Bawa, & Ashish K Singh của HPC và Phòng thí nghiệm đổi mới trí tuệ nhân tạo vào tháng 6 năm 2019  Bộ xử lý dòng Intel® Xeon® có khả năng thay đổi thế hệ thứ

2 (tên mã kiến ​​trúc – Cascade Lake ) là Sản phẩm kế thừa Skylake của Intel và đã sẵn sàng cho thời kỳ đỉnh cao thời gian. Nhóm kỹ sư HPC tại Dell EMC có quyền truy cập vào một vài đơn vị thử nghiệm kỹ thuật và blog này trình bày kết quả nghiên cứu điểm chuẩn ban đầu của chúng tôi.

Mục đích của blog này là để minh họa và phân tích hiệu suất thu được trên các bộ xử lý dòng Intel® Xeon® Có khả năng thay đổi mới nhất và so sánh hiệu suất với phiên bản tiền nhiệm. Chúng tôi đã chọn điểm chuẩn STREAM, HPL và HPCG để phân tích. Nghiên cứu nêu bật tác động hiệu suất đối với một nút cũng như nhiều nút. Các thử nghiệm này đã được thực hiện trên Dell EMC PowerEdge C6420 (nghiên cứu một nút) và PowerEdge R740 (nghiên cứu nhiều nút) với các cài đặt BIOS được đề xuất cho khối lượng công việc HPC . Bộ xử lý Cascade Lake đi kèm với nhiều cải tiến như  Intel® Deep Learning Boost (Intel DL Boost) với VNNI, băng thông bộ nhớ cao hơn, đồng thời tăng hiệu suất và hiệu quả của dấu phẩy động vector.

Nghị quyết

Bảng 1: Thông tin về giường thử nghiệm

Người phục vụ  PowerEdge C6420 & PowerEdge R740
bộ vi xử lý Cấu hình nút đơn Cấu hình nhiều nút
Máy chủ – PowerEdge C6420 & PowerEdge R740 Máy chủ- PowerEdge R740
Skylake –

Intel Xeon® 6142[16C@2.6GHz]

Intel Xeon® 6130 [16C@2.1GHz]

Intel Xeon® 8180[28C @2.5GHz]

Hồ Cascade –

Intel Xeon® 8268[24C@2.90GHz]

Hồ Cascade –

Intel Xeon® 6242[16C @2.8GHz]

Intel Xeon® 6230 [20C@2.1GHz]

Intel Xeon® 8280 [28C @2.7GHz]

Kỉ niệm Kiểm tra Cascade Lake -192GB -12 x 16GB 2933 MT/s DDR4

Thử nghiệm Skylake – 192GB-12 x 16GB 2933 MT/s DDR4 (2666 MT/s đang hoạt động)

Hệ điều hành Doanh nghiệp mũ đỏ Linux 7.6
Phiên bản hạt nhân 3.10.0-957.el7.x86_64
Tùy chọn BIOS Turbo=Đã bật, Bộ xử lý logic=Đã tắt, SubNumaCluster=Đã bật, Công nghệ ảo hóa=Đã tắt.
InfiniBand Đường dẫn Intel Omni với IFS 10.9.2
Trình biên dịch Bản cập nhật Intel Parallel Studio XE 2018 4
Các ứng dụng
điểm chuẩn Miền Phiên bản Cấu hình thử nghiệm
HPL LINPACK hiệu năng cao- Tính toán Intel MKL – 2018 U4 Kích thước sự cố – ​​90% tổng bộ nhớ
HPCG Hiệu suất cao Conjugate Gradient – ​​Tính toán Intel MKL – 2018 U4 Kích thước vấn đề – 336 x 336 x 336
DÒNG Băng thông bộ nhớ 5.4 bộ ba

Các thử nghiệm được tiến hành để định lượng trong hai trường hợp sau:

  • Cải thiện hiệu suất trên một nút duy nhất từ ​​Skylake đến Cascade Lake
  • Cải thiện hiệu suất với nút đơn so với đa nút

DÒNG –

Để đạt được hiệu suất băng thông bộ nhớ cao nhất trên Intel Cascade Lake và Skylake, chúng tôi đã chọn điểm chuẩn STREAM , đây là điểm chuẩn tiêu chuẩn ngành trên thực tế trong miền HPC để đo băng thông bộ nhớ bền vững (tính bằng GB/giây). Giá trị TRIAD đã được sử dụng để so sánh băng thông bộ nhớ.

Hình 1: STREAM – Skylake vs Cascade Lake

Tần số bộ nhớ tối đa được hỗ trợ cho Skylake là 2666MT/s trong khi Cascade Lake hỗ trợ 2933MT/s, nghĩa là tần số bộ nhớ cao hơn 10% với Cascade Lake. Theo Hình 1, bộ xử lý Cascade Lake cho thấy băng thông bộ nhớ cao hơn 7 – 12% so với Skylake. Băng thông bộ nhớ trên mỗi lõi phụ thuộc vào SKU của bộ xử lý cụ thể. Do một số SKU Cascade Lake có thêm lõi so với Skylake, so sánh băng thông bộ nhớ trên mỗi lõi khác với so sánh tổng băng thông bộ nhớ. Theo Hình 1, cả 8280 và 6242 đều có băng thông bộ nhớ trên mỗi lõi cao hơn tới 7% so với những người tiền nhiệm tương ứng của chúng. Tuy nhiên, 6230 cho thấy băng thông bộ nhớ trên mỗi lõi thấp hơn 11% so với 6130 do số lõi của 6230 tăng 25%. Băng thông bộ nhớ trên mỗi lõi có thể là một yếu tố quan trọng đối với các ứng dụng nhạy cảm với băng thông bộ nhớ.

LINPACK –

Chúng tôi đã đo khả năng tính toán của bộ xử lý bằng Intel LINPACK. Kích thước sự cố (N) chiếm 90% bộ nhớ hệ thống trong khi kích thước khối (NB) là 384. Ở đây chúng tôi đề cập đến cả hiệu suất và khả năng mở rộng quy mô với bộ xử lý Cascade Lake.

Skylake vs Hồ Cascade 

Hình 2: Hiệu suất LINPACK (Skylake vs Cascade Lake)

Theo Hình 2, LINPACK cho thấy hiệu suất được cải thiện tới 15% với bộ xử lý Cascade Lake. So sánh này dựa trên số kiểu CPU, so sánh Skylake và những người kế nhiệm của họ trong dòng Intel Xeon® Có thể mở rộng. Intel Xeon® 6230 có thêm 4 lõi trên mỗi ổ cắm giúp tăng hiệu suất 15% so với 6130, trong khi cả 8280 và 6242 với số lượng lõi tương tự như các phiên bản tiền nhiệm của chúng đều bổ sung thêm cải thiện hiệu suất do tần số cơ sở CPU tăng lên và băng thông bộ nhớ cao hơn.

Hiệu suất đa nút – Đối với nghiên cứu đa nút, chúng tôi đã sử dụng cụm 8 nút của máy chủ PowerEdge R740 với Intel Xeon® 8268 và thu được kết quả cho 1, 2, 4 và 8 nút. Phần còn lại của cấu hình hệ thống được nói ở trên trong Bảng 2.

Hình 3: Hiệu suất LINPACK nhiều nút với 8268 @2.90GHz

Như hình 3 cho thấy, hiệu suất LINPACK cho một nút 8268 đơn lẻ là 3059 GFLOPS và 23946 GFLOPS cho 8 nút, có nghĩa là tỷ lệ 7,83X từ 1 nút đến 8 nút. Hiệu quả cho một nút là ~69%, trong khi ~67% cho 2, 4 và 8 nút. Hiệu quả giảm từ 1 nút xuống 2 nút; tuy nhiên, khả năng mở rộng sau đó chủ yếu là tuyến tính.

Điểm chuẩn HPCG

Điểm chuẩn HPCG dựa trên bộ giải gradient liên hợp, trong đó điều hòa trước là phương pháp đa lưới (MG) phân cấp ba cấp độ với Gauss-Seidel.

Điểm chuẩn HPCG xây dựng một hệ thống tuyến tính thưa thớt phân bố vật lý, toàn cầu hợp lý bằng cách sử dụng khuôn tô 27 điểm tại mỗi điểm lưới trong miền 3D sao cho phương trình tại điểm (i, j, k) phụ thuộc vào các giá trị của nó và 26 điểm lân cận xung quanh. Miền toàn cầu được tính theo điểm chuẩn là (NRx * Nx) X (NRy*Ny) X (NRz*Nz), trong đó Nx, Ny và Nz là kích thước của các lưới con cục bộ, được gán cho từng quy trình MPI và số thứ hạng MPI là NR = (NRx X NRy X NRz).

Để phân tích, chúng tôi đã chia các bài kiểm tra thành 2 loại-

Skylake vs Cascade Lake – Trong phần này, chúng tôi so sánh Skylake với Cascade Lake bằng cách sử dụng hiệu suất HPCG. Chúng tôi đã sử dụng kích thước lưới 336^3 chiếm hơn 1/4 tổng bộ nhớ hệ thống. Số lượng quy trình MPI trên mỗi nút và số lượng luồng dựa trên kết quả tốt nhất và việc sử dụng bộ nhớ.

  Hình 4: Hiệu suất HPCG (Skylake vs Cascade Lake)

Theo Hình 4, chúng tôi quan sát thấy hiệu suất HPCG được cải thiện đáng kể với bộ xử lý Cascade Lake so với các bộ xử lý tiền nhiệm. Vì HPCG là ứng dụng có nhiều bộ nhớ hơn, việc cải thiện hiệu suất với bộ xử lý Cascade Lake phù hợp với kết quả của điểm chuẩn STREAM trong đó 6230 hoạt động tốt hơn 10% so với 6130, 6242 hoạt động tốt hơn 12% so với 6142 và 8280 hoạt động tốt hơn 7% so với 8180.

HPCG với Multi-Node – Để đo điểm chuẩn nhiều nút, chúng tôi đã chọn kích thước lưới thứ nguyên cục bộ là 336^3 và kết hợp quy trình MPI tốt nhất và Chuỗi OpenMP.

Hình 5: Hiệu suất HPCG đa nút với Cascade Lake

Hình 5 cho thấy hiệu suất của HPCG với Cascade Lake 8268 @2.9GHz và mở rộng lên tới 8 nút. Hiệu suất HPCG là 43GFLOPS cho một nút và 84GFLOPS cho hai nút, nghĩa là cải thiện hiệu suất 1,96 lần với hai nút. Khi chúng tôi tiến lên phía trước với 4 và 8 nút, hiệu suất sẽ cải thiện lên tới 7,7 lần.

Sự kết luận

Với sự sẵn có của bộ xử lý Cascade Lake, các hệ thống PowerEdge giờ đây có thể hỗ trợ tốc độ bộ nhớ lên tới 2933 MT/s với bộ xử lý thế hệ mới hơn này. Các thử nghiệm của chúng tôi với bộ xử lý Cascade Lake cho thấy hiệu suất cải thiện 7-12% về băng thông bộ nhớ, cải thiện 4-15% về HPL và cải thiện 7-12% về HPCG trên các mẫu CPU mà chúng tôi so sánh. Các bài kiểm tra Cascade Lake từ 1 đến 8 nút cho thấy khả năng mở rộng tốt, như chúng ta đã thấy với Skylake trong quá khứ.

Ngoài ra, Cascade Lake giới thiệu các hướng dẫn VNNI có thể tăng tốc khối lượng công việc suy luận học sâu lên gấp 2-3 lần, sẽ được thảo luận thêm trong blog này .

Đối với công việc trong tương lai, chúng tôi dự định đánh giá lợi thế hiệu suất của Cascade Lake trên các ứng dụng HPC khác nhau như WRF, NAMD, GROMACS, CP2K và LAMMPS