Tăng cường tự động hóa, quy mô và khả năng với Omnia 1.1

Việc phát hành Omnia phiên bản 1.0 vào tháng 3 năm 2020 là một cột mốc quan trọng đối với cộng đồng Omnia. Đó là đỉnh cao của gần một năm lập kế hoạch, trò chuyện với khách hàng và thành viên cộng đồng, phát triển và thử nghiệm. Phiên bản Omnia 1.0 bao gồm:

  • cung cấp kim loại trần với Cobbler,
  • triển khai cụm Slurm và Kubernetes tự động, và
  • triển khai Kubeflow tự động.

Dự án Omnia được thiết kế để nhanh chóng bổ sung và phát triển các tính năng, đồng thời chúng tôi tự hào công bố bản cập nhật đầu tiên cho Omnia chỉ 7 tháng sau đó. Trong khi phiên bản 1.0 có rất nhiều tính năng tuyệt vời cho lần phát hành đầu tiên, phiên bản 1.1   hóa ra còn tuyệt vời hơn nữa!

Dự án Omnia

Omnia là một framework mã nguồn mở, hướng đến cộng đồng để triển khai các cụm điện toán hiệu năng cao (HPC) cho mô phỏng & lập mô hình, trí tuệ nhân tạo và phân tích dữ liệu. Bằng cách tự động hóa toàn bộ quy trình, Omnia giảm thời gian triển khai cho các hệ thống phức tạp này từ vài tuần xuống còn vài giờ.

Omnia được ươm tạo tại Dell Technologies với sự hợp tác của Intel. Dự án được khởi xướng bởi hai chuyên gia HPC & AI. Họ cần nhanh chóng thiết lập các cụm chứng minh khái niệm trong Phòng thí nghiệm đổi mới HPC & AI của Dell và từ đó đã phát triển thành một nỗ lực lớn hơn nhiều nhằm tạo ra các cụm cấp sản xuất theo yêu cầu và ở quy mô lớn. Ngày nay, Omnia có ba mươi cộng tác viên từ gần chục tổ chức, trong đó có năm tổ chức thành viên cộng đồng chính thức . Kho mã đã được sao chép hơn một nghìn lần và có hơn bốn mươi nghìn lượt xem! Dự án đã có một khởi đầu tuyệt vời với nhiều tính năng mới được phát hành thường xuyên!

Omnia 1.1

Omnia phiên bản 1.1 bao gồm vô số tính năng và khả năng mới giúp mở rộng tự động hóa trung tâm dữ liệu ra ngoài máy chủ điện toán. Bản phát hành mới nhất này đặt nền tảng cho Omnia xử lý việc triển khai siêu máy tính exascale trong tương lai đồng thời phát triển bộ tính năng và nền tảng của người dùng cuối nhanh hơn.

Tính năng mới trong Omnia 1.1

  • Cung cấp dựa trên iDRAC
  • Cung cấp/cấu hình PowerVault (tự động biến mảng PV thành chia sẻ tệp NFS)
  • Lập lịch nhóm song song cho Kubernetes (đối với công việc MPI và Spark)
  • Xác thực/quản lý người dùng bằng LDAP/Kerberos
  • Tự động cập nhật chương trình cơ sở cho máy chủ PowerEdge với bộ xử lý Intel® Xeon ®   có thể mở rộng thế hệ thứ 2 khi sử dụng iDRAC để cung cấp
  • Cấu hình tự động của bộ chuyển mạch Dell PowerSwitch 100Gb Ethernet và Nvidia InfiniBand
  • GUI AWX được cập nhật để triển khai các cụm logic
  • Các tùy chọn nền tảng MLOps bổ sung (Polyaxon, ngoài KubeFlow hiện có)

Một mặt phẳng điều khiển hoàn toàn mới được thiết kế cho sự phát triển trong tương lai

Mặt phẳng điều khiển mới (trước đây gọi là thiết bị Omnia) hiện là bản triển khai hoàn chỉnh dựa trên Kubernetes với nhiều tính năng. Mặt phẳng điều khiển mới bao gồm tích hợp Dell iDRAC để cập nhật chương trình cơ sở và cung cấp hệ điều hành khi phát hiện giấy phép iDRAC Enterprise hoặc Datacenter, cùng với tính năng tự động dự phòng cho việc cung cấp PXE dựa trên Cobbler khi các giấy phép đó không có sẵn. Điều này cho phép quản trị viên cụm sử dụng máy chủ Dell tận dụng tối đa giấy phép iDRAC Enterprise hoặc Datacenter của họ trong khi tiếp tục cung cấp giải pháp thay thế hoàn toàn nguồn mở và không phụ thuộc vào nhà cung cấp. Mặt phẳng điều khiển dựa trên Kubernetes mới này là bước đầu tiên trong việc cung cấp mặt phẳng điều khiển đa máy chủ, có thể mở rộng, có thể được sử dụng để quản lý việc cung cấp và triển khai kim loại trần của hàng nghìn nút điện toán cho các hệ thống petascale và cuối cùng là exascale.

Tự động phát hiện và triển khai nhiều thứ hơn là chỉ máy chủ

Nhóm phát triển cũng đã mở rộng khả năng tự động hóa của Omnia ngoài các máy chủ điện toán. Mặt phẳng điều khiển hiện có thể tự động phát hiện và định cấu hình các bộ chuyển mạch Dell EMC PowerSwitches, Nvidia/Mellanox InfiniBand và mảng lưu trữ Dell EMC PowerVault. Điều này cho phép người dùng hiện triển khai các môi trường HPC hoàn chỉnh bằng triết lý một chạm của Omnia, với các phần tính toán, mạng và lưu trữ sẵn sàng hoạt động! Dell EMC PowerSwitches được cấu hình tự động cho cả quản lý và triển khai kết cấu, với cấu hình tự động RoCEv2 cho các bộ chuyển mạch Ethernet 100Gbps được hỗ trợ. Các loại vải Nvidia InfiniBand sẽ tự động được triển khai khi phát hiện thấy công tắc InfiniBand, với trình quản lý mạng con đang chạy trên mặt phẳng điều khiển. Và khi mặt phẳng điều khiển phát hiện mảng lưu trữ Dell EMC PowerVault ME4, nó sẽ tự động định cấu hình RAID, định dạng mảng và thiết lập dịch vụ NFS có thể có quyền truy cập chung bởi các cụm logic khác nhau trong nhóm tài nguyên Omnia. Trong vòng chưa đầy một ngày, một dock tải chứa đầy máy chủ, bộ lưu trữ và kết nối mạng có thể được chuyển đổi thành nhóm tài nguyên Omnia chức năng, sẵn sàng được định cấu hình thành các cụm Slurm và Kubernetes hợp lý theo yêu cầu.

Tự động triển khai các dịch vụ LDAP

Bắt đầu từ phiên bản 1.1, Omnia cũng giảm bớt sự khó khăn trong việc quản lý người dùng. Khi các cụm Slurm hợp lý được tạo, Omnia sẽ đảm nhiệm tất cả các dịch vụ phụ trợ cần thiết cho một môi trường mô phỏng và lập mô hình, lập lịch hàng loạt, đầy đủ chức năng, bao gồm xác thực người dùng Kerberos với FreeIPA. Quản trị viên hệ thống ngay lập tức có quyền truy cập vào cả CLI và giao diện dựa trên web để quản lý người dùng được xây dựng dựa trên các thành phần nguồn mở và giao thức chuẩn nổi tiếng. Hệ thống cũng có thể được cấu hình để trỏ đến dịch vụ LDAP hiện có ở nơi khác trong trung tâm dữ liệu. 

Chuẩn bị Kubernetes cho khối lượng công việc HPC

Sự quan tâm đến Kubernetes ngày càng tăng trong cộng đồng HPC, đặc biệt đối với khối lượng công việc về khoa học dữ liệu và phân tích dữ liệu. Sự quan tâm đến những trường hợp sử dụng đó chính là lý do tại sao Omnia đưa khả năng triển khai Kubernetes ngay từ đầu. Tuy nhiên, cấu hình mặc định của Kubernetes thiếu một số thành phần chính cần thiết để giúp nó hữu ích cho việc xử lý dữ liệu song song và phân tán. Phiên bản Omnia 1.0 bao gồm toán tử mpi từ dự án Kubeflow cung cấp các mô tả tài nguyên tùy chỉnh (CRD) để thực thi công việc MPI. Phiên bản 1.1 hiện bao gồm toán tử tia lửa để giúp việc thực hiện các công việc Spark trở nên đơn giản hơn. Một tính năng khác của phiên bản 1.1 là tùy chọn sử dụng lập lịch nhóm cho các nhóm Kubernetes thông qua dự án Volcano. Điều này mang lại cho Kubernetes khả năng hiểu rằng tất cả các nhóm trong công việc MPI phải được lên lịch đồng thời, thay vì triển khai một số nhóm tại thời điểm có sẵn tài nguyên.

Một nền tảng mới cho nghiên cứu mạng lưới thần kinh

Nghiên cứu trí tuệ nhân tạo là khối lượng công việc trọng tâm của Omnia. Việc có thể cung cấp cho người dùng các nền tảng MLOps dễ triển khai như Kubeflow là rất quan trọng để cho phép các nhà khoa học dữ liệu và nhà nghiên cứu AI linh hoạt thử nghiệm các kiến ​​trúc mạng thần kinh mới. Ngoài Kubeflow, Omnia hiện cung cấp cài đặt tự động nền tảng học sâu Polyaxon. Polyaxon cung cấp cho các nhà nghiên cứu mạng lưới thần kinh và nhóm khoa học dữ liệu khả năng:

  • thí nghiệm chỉ mục và danh mục,
  • thực hiện các thử nghiệm TensorFlow phân tán, 
  • đào tạo các mô hình TensorFlow và PyTorch hỗ trợ MPI, và 
  • điều chỉnh/tối ưu hóa các mô hình bằng cách quét tham số của các giá trị siêu tham số.

Những điều lớn lao hơn nữa đang ở phía chân trời!

Phiên bản 1.1 là một bản phát hành lớn, nhưng cộng đồng Omnia còn có những kế hoạch lớn hơn nữa. Chúng tôi sẽ sớm bổ sung hỗ trợ cho toàn bộ dòng máy chủ Dell EMC PowerEdge với bộ xử lý Intel® Xeon® Scalable thế hệ thứ 3 (tên mã “Ice Lake”). Ngoài ra, Omnia sẽ sớm có thể triển khai các cụm logic trên các máy chủ được cung cấp bằng Rocky Linux hoặc CentOS, cung cấp cho người dùng lựa chọn hệ điều hành cơ bản. Nhìn xa hơn, chúng tôi đang làm việc với khách hàng, đối tác công nghệ và thành viên cộng đồng để hỗ trợ tạo hệ thống tệp BeeGFS theo yêu cầu, triển khai các nền tảng người dùng mới như Open OnDemand và cung cấp giao diện quản trị tốt hơn cho quản trị cụm Kubernetes thông qua Lens . Bất kỳ ai cũng có thể tự do xem những gì chúng tôi đang làm (và đề xuất những điều mới để thử) bằng cách truy cập Omnia GitHub.