Omnia: Triển khai nguồn mở các cụm hiệu suất cao để chạy khối lượng công việc mô phỏng, AI và phân tích dữ liệu

Điện toán hiệu năng cao (HPC), trong đó các cụm máy hoạt động cùng nhau như một siêu máy tính, đang thay đổi cách chúng ta sống và cách chúng ta làm việc. Các cụm CPU, bộ nhớ, máy gia tốc và các tài nguyên khác này giúp chúng tôi dự báo thời tiết và hiểu về biến đổi khí hậu, hiểu về bệnh tật, thiết kế các loại thuốc và liệu pháp mới, phát triển ô tô và máy bay an toàn, cải thiện các tấm pin mặt trời và thậm chí mô phỏng cuộc sống và sự tiến hóa của con người. bản thân vũ trụ. Mô hình kiến ​​trúc cụm giúp thực hiện nghiên cứu chuyên sâu về tính toán này cũng rất phù hợp cho phân tích dữ liệu hiệu suất cao (HPDA) và phát triển các mô hình học máy. Với kỷ nguyên Dữ liệu lớn đang phát triển mạnh mẽ và cơn sốt vàng Trí tuệ nhân tạo (AI) đang diễn ra, chúng ta đã thấy các nhóm tiếp thị có cụm Hadoop của riêng họ đang cố gắng chuyển sang HPDA và các nhóm tài chính quản lý trang trại GPU của riêng họ. Mọi người đều có cùng mục tiêu: đạt được những hiểu biết mới, tốt hơn nhanh hơn bằng cách sử dụng HPDA và bằng cách phát triển các mô hình học máy tiên tiến bằng cách sử dụng các kỹ thuật như học sâu và học tăng cường. Ngày nay, mọi người đều có quyền sử dụng cụm máy tính hiệu suất cao của riêng mình. Đó là thời đại của cụm!

Cơn đau đầu về CNTT do AI điều khiển ngày nay: Các cụm im lặng và sự lan rộng của cụm

Thật không may, việc mở rộng cụm đã chiếm lấy các trung tâm dữ liệu của chúng tôi và tiêu tốn quá nhiều tài nguyên CNTT. Các tổ chức nghiên cứu và doanh nghiệp lớn có một cụm cho việc này và một cụm cho việc đó. Có lẽ mỗi nhóm có một cụm “hộp cát” nhỏ hoặc mỗi loại khối lượng công việc có một cụm khác nhau. Nhiều cụm trong số này trông khá giống nhau nhưng mỗi cụm đều cần một quản trị viên hệ thống chuyên dụng (hoặc một nhóm quản trị viên), có thông tin xác thực ủy quyền khác nhau, mô hình hoạt động khác nhau và nằm ở các giá đỡ khác nhau trong trung tâm dữ liệu của bạn. Điều gì sẽ xảy ra nếu có một cách để mang tất cả lại với nhau?

Đó là lý do tại sao Dell Technologies hợp tác với Intel bắt đầu dự án Omnia.

Dự án Omnia

Dự án Omnia là một sáng kiến ​​nguồn mở với mục đích đơn giản: Làm cho cơ sở hạ tầng hợp nhất được triển khai dễ dàng và dễ dàng bằng cách sử dụng phần mềm nguồn mở và sử dụng miễn phí. Bằng cách kết hợp các công cụ phần mềm nguồn mở tốt nhất cùng với kiến ​​thức chuyên môn về lĩnh vực của Phòng thí nghiệm đổi mới HPC & AI của Dell Technologies , Trung tâm xuất sắc HPC & AI và Cộng đồng HPC rộng lớn hơn , Omnia mang đến cho khách hàng kiến ​​thức chuyên môn tích lũy trong nhiều thập kỷ trong việc triển khai các công nghệ tiên tiến nhất. -hệ thống nghệ thuật dành cho HPC, AI và Phân tích dữ liệu – tất cả đều nằm trong một bộ sách Ansible dễ thực thi. Chỉ trong một ngày, một loạt máy chủ, thiết bị chuyển mạch mạng và mảng lưu trữ có thể được chuyển đổi thành một cụm hợp nhất để chạy tất cả khối lượng công việc HPC, AI và Phân tích dữ liệu của bạn.Logo dự án Omnia

Đơn giản theo thiết kế

Triết lý thiết kế của Omnia là sự đơn giản . Chúng tôi tìm kiếm cách tiếp cận tốt nhất, đơn giản nhất để giải quyết từng nhiệm vụ.

  • Cần chạy trình quản lý khối lượng công việc Slurm? Omnia tập hợp các lượt phát Ansible để xây dựng các tệp vòng/phút phù hợp và triển khai chúng một cách chính xác, đảm bảo tất cả các phần phụ thuộc chính xác đều được cài đặt và hoạt động.
  • Cần chạy bộ điều phối vùng chứa Kubernetes? Omnia tận dụng kho lưu trữ gói được cộng đồng hỗ trợ dành cho Linux (hiện là CentOS) và tự động hóa tất cả các bước để tạo cụm Kubernetes nhiều nút chức năng.
  • Cần một môi trường phát triển Python/R/Julia tương tác, nhiều người dùng? Omnia tận dụng các triển khai tốt nhất cho Kubernetes thông qua Helm và OperatorHub, cung cấp các tệp cấu hình để lưu trữ động và liên tục, trỏ đến các vùng chứa được tối ưu hóa trong DockerHub, Nvidia GPU Cloud (NGC) hoặc các cơ quan đăng ký vùng chứa khác cho khối lượng công việc không được tăng tốc và tăng tốc, và tự động triển khai các nền tảng máy học như Kubeflow.

Trước khi bắt đầu quá trình xây dựng một thứ gì đó từ đầu, chúng tôi sẽ đảm bảo rằng chưa có cộng đồng nào tích cực duy trì bộ công cụ đó. Chúng tôi thà tận dụng công việc tuyệt vời của người khác hơn là phát minh lại cái bánh xe.

Bao gồm bởi thiên nhiên

Triết lý đóng góp của Omnia là tính toàn diện . Từ các bản cập nhật mã và tài liệu cho đến các yêu cầu tính năng và báo cáo lỗi, mọi đóng góp của người dùng đều được chào đón với vòng tay rộng mở. Chúng tôi cung cấp một diễn đàn mở để trò chuyện về các ý tưởng tính năng và giải pháp triển khai tiềm năng, tận dụng các chuỗi vấn đề trên GitHub. Và khi dự án phát triển và mở rộng, chúng tôi kỳ vọng ủy ban quản trị kỹ thuật sẽ phát triển để bao gồm những người đóng góp hàng đầu và các bên liên quan từ cộng đồng.

Cái gì tiếp theo?

Omnia chỉ mới bắt đầu. Hiện tại, chúng tôi có thể dễ dàng triển khai các cụm Slurm và Kubernetes từ một loạt các máy chủ được kết nối mạng, được cung cấp sẵn, nhưng mục tiêu của chúng tôi còn cao hơn thế. Chúng tôi hiện đang bổ sung các khả năng để thực hiện cung cấp kim loại trần và hỗ trợ các loại máy gia tốc mới và đa dạng. Trong tương lai, chúng tôi muốn thu thập thông tin từ hệ thống quản lý ngoài băng tần iDRAC trên máy chủ Dell EMC PowerEdge, định cấu hình bộ chuyển mạch Dell EMC PowerSwitch Ethernet, v.v.

Tương lai nắm giữ điều gì? Mặc dù chúng tôi có các kế hoạch ngắn hạn về tích hợp tính năng bổ sung nhưng chúng tôi đang mong muốn hợp tác với cộng đồng để xác định và phát triển các tích hợp trong tương lai. Omnia sẽ tăng trưởng và phát triển dựa trên phản hồi của cộng đồng và sự đóng góp của bạn. Cuối cùng, dự án Omnia sẽ không chỉ cài đặt và định cấu hình phần mềm nguồn mở mà chúng tôi tại Dell Technologies cho là quan trọng, mà cả phần mềm mà bạn – cộng đồng – cũng mong muốn! Chúng tôi không thể nghĩ ra cách nào tốt hơn để khách hàng của mình có thể dễ dàng thiết lập các cụm cho khối lượng công việc HPC, AI và HPDA, đồng thời tận dụng chuyên môn của toàn bộ Cộng đồng HPC của Dell Technologies.

Omnia hiện có sẵn trên GitHub tại https://github.com/dellhpc/omnia . Hãy tham gia cộng đồng ngay bây giờ và giúp hướng dẫn thiết kế cũng như phát triển thế hệ tiếp theo của các công cụ triển khai cụm hợp nhất nguồn mở!