Thiết kế đã được xác nhận của Dell dành cho Chính phủ

Tóm tắt điều hành

Thiết kế đã được xác thực của Dell dành cho Điện toán hiệu năng cao (HPC), Trí tuệ nhân tạo (AI) và phân tích dữ liệu của Chính phủ là các hệ thống cấp giá đỡ được tối ưu hóa theo khối lượng công việc dựa trên các tùy chọn khối xây dựng dành cho máy chủ, mạng, bộ lưu trữ và phần mềm để mang lại sự linh hoạt trong kiến ​​trúc thiết kế . Với sự hội tụ của khối lượng công việc HPC, AI và phân tích dữ liệu, các kiến ​​trúc hợp nhất được giới thiệu để tối ưu hóa hiệu suất trên cả khối lượng công việc tập trung vào điện toán và khối lượng công việc tập trung vào dữ liệu. Ngoài ra, kiến ​​trúc được tối ưu hóa cho khối lượng công việc tập trung vào điện toán HPC truyền thống (mô hình hóa và mô phỏng) cũng được giới thiệu để hỗ trợ các hệ thống điện toán chuyên dụng. Các thiết kế cơ sở được định chuẩn đóng vai trò là điểm khởi đầu cho các thiết kế tùy chỉnh nhằm đáp ứng các yêu cầu cụ thể của khách hàng.

Mục đích tài liệu

Mục đích của tài liệu này là cung cấp hướng dẫn thiết kế cho các hệ thống HPC tích hợp khả năng chạy khối lượng công việc cho HPC, AI và phân tích dữ liệu trên một hệ thống. Kiến trúc thay thế tập trung vào khối lượng công việc tập trung vào điện toán HPC truyền thống cũng được trình bày để hướng dẫn các thiết kế của khách hàng. Cách tiếp cận thiết kế khối xây dựng mang lại sự linh hoạt trong các lựa chọn kiến ​​trúc để đáp ứng tốt nhất các nhu cầu cụ thể của khách hàng.

Lưu ý : Nội dung của tài liệu này hợp lệ đối với các phiên bản phần mềm và phần cứng được mô tả. Để biết thông tin về các cấu hình cập nhật cho các phiên bản phần cứng và phần mềm mới hơn, hãy liên hệ với đại diện bán hàng Dell Technologies của bạn.

Khán giả

Tài liệu này dành cho kiến ​​trúc sư giải pháp và nhân viên vận hành CNTT muốn triển khai một môi trường duy nhất để chạy nhiều khối lượng công việc cho HPC, AI và phân tích dữ liệu. Thông tin này cũng hỗ trợ những khách hàng muốn phân đoạn khối lượng công việc tính toán tập trung trên một hệ thống chuyên dụng riêng biệt.

Thách thức khách hàng

Sự hội tụ của HPC, AI và phân tích dữ liệu đã thúc đẩy nhiều nhóm cơ sở hạ tầng cân nhắc hỗ trợ khối lượng công việc cho cả mục đích sử dụng tập trung vào điện toán và tập trung vào dữ liệu với một nhóm tài nguyên duy nhất. Tuy nhiên, một số nhóm cơ sở hạ tầng cần các cụm tập trung vào khối lượng công việc HPC truyền thống để mô phỏng và lập mô hình trong một môi trường tách biệt, riêng biệt.

Khách hàng dành nhiều thời gian để thiết kế, triển khai và điều chỉnh các cụm HPC với vô số biến số mà họ phải xem xét bao gồm kiến ​​trúc mạng, kiến ​​trúc lưu trữ, bộ nhớ, hệ thống tệp, hệ điều hành, cài đặt cấu hình, máy chủ/CPU, bộ tăng tốc, thư viện thời gian chạy, cấp độ người dùng thư viện, trình quản lý khối lượng công việc, ứng dụng và điểm chuẩn.

Khách hàng sẽ được hưởng lợi từ một bộ công cụ hoàn chỉnh để giảm thời gian thiết kế kiến ​​trúc, thời gian triển khai và chi phí quản lý đồng thời tạo ra sự linh hoạt cho các môi trường không đồng nhất.

Giới thiệu

Sách trắng này hỗ trợ những khách hàng đang đối mặt với những thách thức về cơ sở hạ tầng bằng cách tận dụng các cấu hình thiết kế đã được xác thực của Dell làm điểm khởi đầu cho các giải pháp thiết kế. Giải pháp này có thể giúp khách hàng tiết kiệm thời gian, nguồn lực và tiền bạc.

Hai thiết kế cơ sở giải quyết sự giao nhau giữa khối lượng công việc HPC, AI và phân tích dữ liệu với một hệ thống duy nhất, trong khi thiết kế cơ sở thứ ba giải quyết các hệ thống chuyên dụng để hỗ trợ khối lượng công việc cường độ cao điện toán HPC truyền thống. Phương pháp thiết kế này tận dụng các tùy chọn khối xây dựng cho máy chủ, kết nối mạng, lưu trữ và phần mềm để mang lại sự linh hoạt trong kiến ​​trúc thiết kế. Các thiết kế cơ sở được định chuẩn cho khối lượng công việc HPC truyền thống và khối lượng công việc AI. Phần mềm Bright Cluster Manager từ Bright Computing được sử dụng để xây dựng và quản lý các cụm cho HPC và Khoa học dữ liệu dưới dạng một thực thể duy nhất. Bảng 1 liệt kê các khối xây dựng chức năng.

Bảng 1.       Các thành phần khối xây dựng

Thành phần chức năng khối xây dựng

thông số kỹ thuật

Máy chủ cơ sở hạ tầng

AMD: R7525, R6525

Intel: R750, R650

máy chủ điện toán

AMD: XE8545, R7525, R6525, C6525

Intel: R750xa, R650, C6520

máy gia tốc

NVIDIA A100 40G/80G, A10, T4

Bản năng AMD MI100

Intel PAC FPGA

Kho

PowerScale Isilon 800

Dell HPC BeeGFS

HPC NSS của Dell

Dell HPC Pixstor

mạng

Nvidia QM8700 (HDR IB)

PowerSwitch N3248TE-ON

Phần mềm quản lý cụm

Trình quản lý cụm sáng 9.1

Giải pháp xây dựng

Máy chủ cơ sở hạ tầng

Các máy chủ cơ sở hạ tầng cung cấp các dịch vụ phi điện toán trong cụm bao gồm quyền truy cập của người dùng và quản trị. Thông thường, các máy chủ này có hai vai trò: nút quản lý và nút đăng nhập. Cấu hình chính xác và số lượng máy chủ cơ sở hạ tầng phụ thuộc vào kích thước và yêu cầu của cụm. Ví dụ: một nút quản lý duy nhất là đủ cho một cụm HPC nhỏ. Tuy nhiên, nếu một cụm có các yêu cầu về Tính khả dụng cao (HA), máy chủ thứ hai sẽ là cần thiết. Mặc dù không yêu cầu máy chủ đăng nhập, nhưng việc tách người dùng khỏi các hệ thống quản lý quan trọng giúp việc quản trị dễ dàng hơn và giảm thiểu thời gian ngừng hoạt động ngoài dự kiến. Ví dụ: một hệ thống điển hình có một máy chủ đăng nhập cho mỗi 30 đến 100 người dùng. Các nút cơ sở hạ tầng cũng có thể được sử dụng để cung cấp các dịch vụ bổ sung như NFS.

Cấu hình cơ sở cho các nút cơ sở hạ tầng là R6525 (AMD) và R650 (Intel). Mật độ không phải là vấn đề đáng lo ngại vì các nút cơ sở hạ tầng là một phần nhỏ của cụm tổng thể, do đó các hệ thống 1U hoặc 2U thông thường được sử dụng. Thông thường, các cụm có kiến ​​trúc nền tảng phù hợp với cơ sở hạ tầng của chúng và các máy chủ tính toán để dễ quản trị. Các nút đăng nhập đặc biệt được hưởng lợi từ việc có cùng kiến ​​trúc khi người dùng xây dựng ứng dụng của họ trên các nút đó.

Máy chủ tính toán

Máy chủ điện toán là tài nguyên điện toán chính trong cụm HPC. Các máy chủ này chịu trách nhiệm chạy các khối lượng công việc ưu tiên. Cấu hình điện toán tối ưu phụ thuộc vào các ứng dụng và mục tiêu cụ thể của khách hàng. Có một số cấu hình có sẵn bao gồm các tùy chọn không đồng nhất. Cấu hình không đồng nhất phổ biến vì nhiều môi trường có khối lượng công việc hỗn hợp. Ví dụ, trong môi trường HPC truyền thống, nhiều ứng dụng chỉ là CPU. Một tổ chức tập trung vào HPC truyền thống với một số mã GPU (như học sâu), sẽ được hưởng lợi từ việc điều chỉnh cấu hình theo hướng điện toán dày đặc với một vài máy chủ điện toán dựa trên GPU.

Bảng 2  liệt kê các nền tảng điện toán có sẵn. Các tùy chọn khác nhau về mật độ và loại tính toán (hỗ trợ GPU). Có cả tùy chọn dựa trên AMD và Intel, việc lựa chọn tùy thuộc vào nhu cầu và khối lượng công việc của khách hàng. Để biết các ví dụ cấu hình cụ thể, hãy xem ba khối xây dựng tham chiếu của chúng tôi trong phần tiếp theo.

Bảng 2.       Tính toán các tùy chọn cấu hình máy chủ

nền tảng Dell EMC PowerEdge XE8545

Dell EMC PowerEdge R750xa

Dell EMC PowerEdge R650

Dell EMC PowerEdge R6525

Dell EMC PowerEdge C6520

Dell EMC PowerEdge C6525

mạng

Bộ điều hợp NVIDIA ®  ConnectX®-6 HDR100 InfiniBand™ Bộ điều hợp
NVIDIA ®  ConnectX®-6 HDR InfiniBand

Kho

Dell cung cấp một loạt các giải pháp lưu trữ đa năng và HPC. Để biết tổng quan chung về danh mục giải pháp Dell HPC. Một số giải pháp này bao gồm:

  • Dell Validated Design cho NSS cung cấp thiết lập NFS được tối ưu hóa cho các cụm HPC nhỏ hơn.
  • PowerScale Isilon F800 cung cấp giải pháp all-flash với hệ thống tệp OneFS phổ biến đối với khách hàng.
  • Dell Validated Design cho BeeGFS có cả cấu hình hiệu suất cao và dung lượng cao dựa trên NVMe, có lợi khi kích thước cụm tăng lên hoặc nếu cần có hệ thống tệp song song.
  • Dell Validated Design cho PixStor là một tùy chọn hệ thống tệp song song có khả năng cấu hình cao.

Lựa chọn tốt nhất cho khách hàng phụ thuộc vào khối lượng công việc, quy mô và cơ sở hạ tầng hiện có của họ.

 

Mạng hệ thống

Hầu hết các cụm HPC được cấu hình với hai mạng: quản lý và mạng tốc độ cao, độ trễ thấp. Mạng quản lý được kết nối với mọi hệ thống trong cụm và được sử dụng để cung cấp, quản lý và giám sát. Thông thường, mạng này là Gigabit Ethernet. Mạng này cũng có thể được sử dụng để cung cấp quyền truy cập iDRAC bằng cách sử dụng các cổng iDRAC được chia sẻ hoặc cổng iDRAC chuyên dụng tùy thuộc vào máy chủ. Bộ chuyển mạch Ethernet Dell PowerSwitch N3248TE-ON là điểm bắt đầu được đề xuất và có thể được xếp chồng lên nhau cho các cụm lớn hơn.

Các loại vải có tốc độ cao, độ trễ thấp là xương sống liên lạc của các cụm HPC. Lưu lượng mạng được tạo bởi các ứng dụng khối lượng công việc để liên lạc hoặc lưu trữ chảy qua kết cấu này. Nên sử dụng vải HDR NVIDIA InfiniBand cho trường hợp sử dụng này. Đối với hầu hết các hệ thống, kết cấu được xây dựng với các bộ chuyển mạch HDR InfiniBand 40 cổng NVIDIA QM8790. Số lượng chuyển đổi chính xác phụ thuộc vào hệ số chặn và kích thước cụm. Có công tắc giám đốc có sẵn cho các hệ thống lớn nhất.

Phần mềm quản lý cụm

Bộ phần mềm được sử dụng để cấu hình và quản lý cụm. Phần mềm quản lý cụm được đề xuất là Bright Cluster Manger (BCM).