TACC chạy mã HPC chính nhanh hơn

Các ứng dụng khoa học trên dòng CPU Max của Intel® Xeon® cho thấy những lợi ích vượt trội so với Frontera và nâng cao các mã có giới hạn băng thông bộ nhớ.\

Tóm tắt điều hành

Vào tháng 7 năm 2023, Trung tâm Máy tính Nâng cao Texas (TACC) tại Đại học Texas ở Austin đã thông báo rằng Quỹ Khoa học Quốc gia Hoa Kỳ (NSF) đã trao cho tổ chức này khoản tài trợ 10 triệu USD để mua phần cứng mới cho siêu máy tính Stampede3 nhằm hỗ trợ nghiên cứu học thuật trên toàn thế giới. CHÚNG TA

Các hệ thống Stampede trong hơn một thập kỷ đã là những hệ thống hàng đầu trong hệ sinh thái siêu máy tính hàn lâm NSF. Stampede3 sẽ bao gồm:

 

  • Hệ thống khả năng 4 petaflop mới dành cho mô phỏng cao cấp được hỗ trợ bởi 560 nút được xây dựng trên dòng CPU Max của Intel® Xeon® với bộ nhớ băng thông cao. Các nút này bổ sung thêm gần 63.000 lõi cho các công việc điện toán lớn nhất, đòi hỏi nhiều hiệu năng nhất.
  • Hệ thống con GPU/Trí tuệ nhân tạo (AI) mới bao gồm 10 máy chủ Dell PowerEdge XE9640 được cung cấp bởi 40 GPU Max Series của Trung tâm dữ liệu Intel® cho AI/Machine Learning (ML) và các ứng dụng thân thiện với GPU khác.
  • Tái tích hợp 224 nút bộ xử lý Intel® Xeon® có thể mở rộng thế hệ thứ 3 cho các ứng dụng bộ nhớ cao hơn và hơn 1.000 bộ xử lý Intel® Xeon® có thể mở rộng hiện có từ Stampede2. Những bộ xử lý này sẽ hỗ trợ tính toán thông lượng cao, khối lượng công việc tương tác và các khối lượng công việc nhỏ hơn khác.
  • Bổ sung công nghệ kết cấu Omni-Path Express 400 Gb/s mới của Cornelis Networks với băng thông bảng nối đa năng 24 TB/s. Cấu trúc mới cung cấp kết nối hiệu suất cao để cho phép độ trễ thấp và khả năng mở rộng tuyệt vời cho các ứng dụng cũng như khả năng kết nối cao với hệ thống con I/O. Máy chủ PowerEdge C6620 và máy chủ XE9640 sẽ được cài đặt
  • trong giá đỡ Dell Technologies DLC7000 được thiết kế mới, hỗ trợ làm mát bằng chất lỏng trực tiếp tới từng CPU và GPU, mang lại nhiệt độ gần như trung tính trong phòng.
  • Mạng Dell Technologies sẽ là nền tảng quản lý cho Stampede3.

 

“Chúng tôi tin rằng bộ nhớ băng thông cao của các nút CPU Xeon Max sẽ giúp mang lại hiệu suất tốt hơn bất kỳ CPU nào khác mà người dùng của chúng tôi đã thấy trước đây.”—Dan Stanzione, Giám đốc TACC

 

Tổng cộng, Stampede3 sẽ bao gồm 1.858 nút điện toán với hơn 140.000 lõi Intel, hơn 330 terabyte RAM, 13 petabyte dung lượng lưu trữ mới và gần 10 petaflop công suất cao nhất. Tất cả các thành phần sẽ được tích hợp vào cùng một kết cấu, hệ thống tệp và phân bổ.

Giám đốc TACC Dan Stanzione cho biết: “Chúng tôi tin rằng bộ nhớ băng thông cao của các nút Intel Xeon CPU Max Series sẽ giúp mang lại hiệu suất tốt hơn bất kỳ CPU nào khác mà người dùng của chúng tôi đã thấy trước đây”. “Chúng cung cấp hiệu suất băng thông bộ nhớ trên mỗi lõi cao hơn gấp đôi so với các nút bộ xử lý Intel Xeon thế hệ thứ 2 và thứ 3 hiện tại trong Stampede2.”

 

Man in front of weather maps on monitors.

 

Mô hình hệ thống Community Earth trên Intel Xeon CPU Max Series với DDR5 nhanh hơn 2,5 lần so với trên siêu máy tính Frontera của TACC ; mã này đã cải thiện thêm 30% trên CPU Intel Max Series ở chế độ chỉ HBM. 1

 

 

Thử thách

TACC là cơ sở siêu máy tính hàng đầu dành cho các nhà nghiên cứu hàn lâm ở Hoa Kỳ. Trung tâm luôn hướng tới khả năng tính toán thế hệ tiếp theo để tiếp tục hỗ trợ những thách thức lớn mà khoa học đang phải đối mặt. Khi tìm cách thay thế hệ thống Stampede2—hệ thống Intel/Dell Technologies là đặc trưng của cộng đồng HPC học thuật Hoa Kỳ—TACC đã đánh giá hiệu suất của các mã khoa học trên Intel® Xeon® CPU Max Series, dòng bộ xử lý có Bộ nhớ băng thông cao (HBM) ).

HBM là một trong những thành phần quan trọng trong sự phát triển của GPU. Nó cũng đóng vai trò quan trọng trong bảng xếp hạng siêu máy tính Fugaku số 1 thế giới năm 2020 và 2021 , bao gồm các bộ xử lý chạy bằng HBM. Dòng CPU Max Xeon của Intel là CPU x86 đầu tiên tích hợp HBM.

Để đánh giá hiệu suất của bộ xử lý mới, TACC đã sử dụng một loạt ứng dụng HPC trong thế giới thực nằm trong chương trình Ứng dụng Khoa học Đặc điểm (CSA) do NSF tài trợ. Thông qua chương trình CSA, TACC hợp tác với các nhà nghiên cứu để chuẩn bị các ứng dụng khoa học cho Cơ sở Điện toán Cấp Lãnh đạo (LCCF) , nơi sẽ lưu trữ siêu máy tính hàng đầu của cơ quan, có tên mã là Horizon, dự kiến ​​sẽ ra mắt vào năm 2026. Các ứng dụng đã được xác định bởi cộng đồng lớn -người sử dụng máy tính khoa học quy mô. Chúng phản ánh phạm vi rộng lớn của các lĩnh vực khoa học và phương pháp tính toán—từ ngôn ngữ, phương pháp đến quy trình làm việc—mà các nhà nghiên cứu sẽ chạy trên các siêu máy tính trong tương lai.

 

 

Bảng 1. Danh sách các mã Ứng dụng Khoa học Đặc điểm (CSA) và Nghiên cứu và Dự báo Thời tiết (WRF) để đánh giá điểm chuẩn.

 

 

Giải pháp

Các nhà nghiên cứu của TACC đã đánh giá điểm chuẩn của 13 mã CSA và mã Dự báo và Nghiên cứu Thời tiết (WRF) trên Dòng CPU Intel Xeon Max. Bảng 1 liệt kê các mã được sử dụng. Các mã tương tự đã được đo điểm chuẩn trên bộ xử lý Intel® Xeon® thế hệ thứ 2 của Frontera—hệ thống điện toán khả năng mạnh mẽ nhất của TACC và hiện đứng thứ 21 trong danh sách Top500 tháng 6 năm 2023.

Dòng CPU Max Xeon của Intel có thể chạy ở nhiều chế độ khác nhau—bao gồm chế độ chỉ có HBM và chế độ phẳng trong đó có thể tắt HBM, chỉ dựa vào DDR5. TACC đã kiểm tra tính hiệu quả của dòng CPU Max Xeon Intel ở cả hai chế độ bộ nhớ này để hiểu các đặc tính hiệu năng và lợi ích của HBM so với DDR5. Dòng CPU Intel Xeon Max mang lại hiệu suất tăng đáng kể ở cả hai chế độ, đặc biệt là đối với các ứng dụng có giới hạn băng thông bộ nhớ.

 

Map showing earthquake in Turkey.

 

Mã động đất 3D Mã Truyền sóng Anelastic chạy nhanh hơn 3,7 lần trên CPU Intel Max Series so với trên Frontera và cho thấy mức tăng 100% với HBM. 1

 

 

Kết quả

Cả hai chế độ đều mang lại lợi ích đáng kể so với bộ xử lý Intel Xeon thế hệ thứ 2 cung cấp năng lượng cho siêu máy tính TACC Frontera. Ví dụ: chỉ với bộ nhớ DDR5, các mã chạy trung bình nhanh hơn gấp 2 lần so với phiên bản trước. 1 Tuy nhiên, đối với các vấn đề song song lớn, ngốn dữ liệu và băng thông bộ nhớ bị giới hạn, Intel Xeon CPU Max Series với HBM thậm chí còn xuất sắc hơn—với tốc độ tăng trung bình gấp 2,6 lần. 1

Hơn một phần ba số mã chạy trên Intel Xeon CPU Max Series có HBM cho thấy hiệu suất cải thiện từ 50% trở lên so với chỉ chạy DDR5. Một số mã có hiệu suất nhanh hơn gấp 2 lần khi bổ sung HBM.

John Cazes, Giám đốc TACC của HPC cho biết: “Dòng CPU Intel Xeon Max mới có số lõi chính xác gấp đôi so với bộ xử lý Intel Xeon thế hệ thứ 2, vì vậy tôi kỳ vọng nó sẽ tốt hơn ít nhất hai lần”. “Tuy nhiên, với HBM, nó là 2,6 lần, vì vậy đây là một hệ số nhân tuyệt vời. Nó có đủ băng thông bộ nhớ để các lõi trên Intel Xeon CPU Max Series không thể bão hòa băng thông bộ nhớ mà HBM cung cấp. Đây là một vấn đề rất hiếm gặp trên CPU.”

Nhanh hơn… dự báo khí hậu, phát hiện vật liệu, mô phỏng vũ trụ

Trong số 14 ứng dụng được đánh giá có phần mềm dành cho các thí nghiệm quốc tế lớn, như Đài quan sát Neutrino IceCube , các mã được sử dụng rộng rãi từ cộng đồng vật lý thiên văn và động đất cũng như các mã tùy chỉnh khám phá các phương pháp tiếp cận đổi mới đối với học máy và mô hình hóa lỗ đen. Tham khảo Hình 1.

 

Bar graph shows benchmark results comparing 2nd Gen Intel® Xeon® Scalable processors vs. Intel® Xeon® CPU Max Series (flat mode with DIMMs and no HBM) vs. Intel® Xeon® CPU Max Series (with HBM).

 

Hình 1. So sánh hiệu suất được chuẩn hóa của các mã Ứng dụng Khoa học Đặc điểm (CSA) và Nghiên cứu và Dự báo Thời tiết (WRF). 1

 

 

Điểm nổi bật về hiệu suất

Một mã có những cải thiện hiệu suất đáng kể với HBM là cấu hình đặc biệt của Mô hình Hệ thống Trái đất Cộng đồng (CESM) đang được phát triển bởi dự án EarthWorks do NSF tài trợ, do Đại học bang Colorado dẫn đầu, để nghiên cứu các hiện tượng thời tiết và khí hậu theo mùa ở độ phân giải cực cao. CESM là một trong những mã khí hậu chính được cộng đồng khoa học trái đất sử dụng. CESM được phát triển và duy trì bởi Trung tâm Nghiên cứu Khí quyển Quốc gia (NCAR) phối hợp với cộng đồng nghiên cứu. Cấu hình EarthWorks của CESM trên Intel Xeon CPU Max Series có DDR5 nhanh hơn 2,5 lần so với trên Frontera; 1, mã đã đạt được mức cải thiện thêm 30 phần trăm (lên 3,2 lần) ở chế độ chỉ HBM. 1

David Randall, một trong những nhà phát triển cấu hình EarthWorks, cho biết: “Việc áp dụng sức mạnh của các công nghệ mới sẽ cho phép chúng tôi phát triển các mô hình giải quyết bão toàn cầu, giúp chúng tôi hiểu rõ hơn về những rủi ro đi kèm với biến đổi khí hậu”. “Tăng tốc từ 2,5 lần đến 3 lần có nghĩa là chúng tôi có thể tìm thấy câu trả lời nhanh hơn hoặc tăng độ phân giải và độ chính xác của mô hình hơn nữa.”

 

Images of the Earth.

 

Mô hình dự báo và nghiên cứu thời tiết (WRF) cho thấy bộ xử lý Intel Xeon CPU Max Series có DDR5 tăng tốc gấp 2,09 lần so với CPU của Frontera. Trên Intel Xeon CPU Max Series có HBM, WRF chạy nhanh hơn 3,5 lần so với bộ xử lý Intel Xeon thế hệ 2—tăng tốc 70% so với DDR5. 1

 

 

Mô hình dự báo và nghiên cứu thời tiết (WRF) là một hệ thống dự báo thời tiết số tiên tiến khác được thiết kế cho cả ứng dụng nghiên cứu khí quyển và dự báo vận hành. WRF nhận thấy bộ xử lý Intel Xeon CPU Max Series có DDR5 tăng tốc gấp 2,09 lần so với CPU của Frontera. 1 Trên Intel Xeon CPU Max Series có HBM, WRF chạy nhanh hơn 3,5 lần so với bộ xử lý Intel Xeon thế hệ 2—tăng tốc 70% so với DDR5. 1

Một mã khác đang thể hiện hiệu suất vượt trội trên cả hai chế độ bộ nhớ Intel Xeon CPU Max Series là mã động đất 3D, Truyền sóng Anelastic (AWP). Mã được phát triển bởi Yifeng Cui thuộc Trung tâm Siêu máy tính San Diego. Mã chạy trên Intel Xeon CPU Max Series nhanh hơn 3,7 lần so với trên Frontera và cho thấy mức tăng 100% với HBM. 1

Đối với các ứng dụng chưa được tối ưu hóa để tận dụng HBM, Cazes tin rằng sự sẵn có của Intel Xeon CPU Max Series sẽ dẫn đến những thay đổi về mã và thuật toán.

Stanzione cho biết: “Chúng tôi tin rằng bộ nhớ băng thông cao của các nút Intel Xeon CPU Max Series sẽ giúp mang lại hiệu suất tốt hơn bất kỳ CPU nào khác mà người dùng của chúng tôi đã thấy trước đây”. “Chúng cung cấp hiệu suất băng thông bộ nhớ trên mỗi lõi cao hơn gấp đôi so với các nút bộ xử lý Intel Xeon thế hệ thứ 2 và thứ 3 hiện tại trong Stampede2. Chúng tôi mong muốn triển khai Stampede3 như hệ thống HPC có năng lực và năng lực cao tiếp theo trong cơ sở hạ tầng mạng quốc gia dành cho tất cả các dự án nghiên cứu khoa học mở ở Hoa Kỳ”

Không cần thay đổi mã

Mã chuyển luôn là điều cần cân nhắc khi xem xét kiến ​​trúc CPU mới. Thời gian và công sức cần có để phát triển và tối ưu hóa mã sẽ làm giảm các chu kỳ sẵn có cho nỗ lực khoa học. Đối với nhiều nhóm nhỏ, việc chuyển các mã kế thừa phức tạp, đa phụ thuộc sang GPU là điều cực kỳ khó khăn.

 

“Vì chúng tôi có cùng thư viện hệ thống nên tôi chỉ cần nâng các tệp nhị phân mà chúng tôi đã chạy trên Frontera lên và chạy chúng trên Intel Xeon CPU Max Series và chúng đã hoạt động.”—John Cazes, Giám đốc TACC của HPC

 

Nhóm TACC có thể dễ dàng đánh giá và so sánh hiệu quả của các mã khoa học. Cần rất ít hoặc không cần thay đổi mã để chuyển mã từ CPU Frontera sang bộ xử lý trung tâm dữ liệu Intel thế hệ mới nhất. Điều này có lợi cho hàng nghìn mã và hàng tỷ dòng phần mềm khoa học mà các nhà khoa học đã tối ưu hóa cho bộ xử lý x86.

John Cazes, người đứng đầu HPC tại TACC cho biết: “Bởi vì chúng tôi có cùng các thư viện hệ thống, nên tôi chỉ cần nâng các tệp nhị phân mà chúng tôi đã chạy trên Frontera và chạy chúng trên Intel Xeon CPU Max Series và chúng đã hoạt động”. Điều này lặp lại quan điểm của những khách hàng ban đầu khác, bao gồm cả các nhà nghiên cứu từ Phòng thí nghiệm quốc gia Los Alamos và Numenta .

Hiệu suất của các mã này trên bộ xử lý Intel Xeon mới nhất thật hấp dẫn. Thêm vào hiệu suất, việc dễ dàng lấy mã từ Frontera trực tiếp sang CPU mới nhất mang lại cho các nhà nghiên cứu kết quả nhanh hơn mà không cần phải làm thêm.

Bản tóm tắt

Đánh giá 13 mã CSA và WRF, đánh giá của TACC cho thấy hiệu suất tăng đáng kể khi sử dụng cả hai chế độ DDR5 và chỉ HBM của Intel Xeon CPU Max Series so với Frontera. Thú vị nhất là lợi ích của HBM đối với nhiều mã khi chạy trên Intel Xeon CPU Max Series. Tăng tốc cũng xuất hiện dưới hình thức các nhà khoa học không cần phải dành thời gian chuyển mã giữa các hệ thống và CPU khác nhau của họ.

Stanzione cho biết: “Việc sử dụng bộ tăng tốc và GPU chắc chắn đang gia tăng trong HPC và AI, nhưng không rõ rằng phần lớn lợi thế không được cung cấp bởi bộ nhớ băng thông cao”. “Chúng tôi cũng cần CPU hiệu suất cao và dựa trên điểm chuẩn của chúng tôi, Dòng CPU Intel Xeon Max sẽ mang lại lợi ích rõ ràng cho người dùng của chúng tôi.”

Lợi ích về hiệu năng của dòng CPU Intel Xeon Max

Dưới đây là một số ví dụ về hiệu suất mà TACC nhận thấy đối với các mã chạy trên Dòng CPU Intel Xeon Max mới:

 

  • Cấu hình EarthWorks của CESM trên Intel Xeon CPU Max Series có DDR5 nhanh hơn 2,5 lần so với trên Frontera; 1, mã đã đạt được mức cải thiện thêm 30 phần trăm (lên 3,2 lần) ở chế độ chỉ HBM. 1
  • WRF chứng kiến ​​tốc độ tăng 2,09 lần trên bộ xử lý Intel Xeon Max Series có DDR5 so với CPU của Frontera.1 Trên Intel Xeon CPU Max Series có HBM, WRF chạy nhanh hơn 3,5 lần so với bộ xử lý Intel Xeon thế hệ 2—tăng tốc 70% so với DDR5. 1
  • Mã động đất 3D, Truyền sóng Anelastic (AWP) chạy nhanh hơn 3,7 lần trên Intel Xeon CPU Max Series so với trên Frontera và cho thấy mức tăng 100% với HBM. 1

Điểm nổi bật:

  • TACC chọn các máy chủ Dell PowerEdge C6620 được hỗ trợ bởi các máy chủ Intel Xeon CPU Max Series và Dell PowerEdge XE9640 có Intel Data Center GPU Max Series cho siêu máy tính Stampede3 mới sẽ cung cấp gần 10 petaflop công suất tối đa.
  • Việc lựa chọn được thực hiện dựa trên đánh giá hiệu năng của 14 mã HPC hàng đầu trên dòng CPU Intel Xeon Max Series mới nhất.
  • Tăng tốc độ trung bình 2,6 lần trên CPU Intel Xeon Max Series 1 ở chế độ bộ nhớ băng thông cao.
  • Hệ thống con mới được hỗ trợ bởi 40 dòng GPU Max của Trung tâm dữ liệu Intel dành cho các ứng dụng thân thiện với AI, ML và GPU.