Học máy sử dụng nền tảng Red Hat OpenShift Container

Tóm tắt

Trường hợp kinh doanh

Các doanh nghiệp đang tăng cường đầu tư vào các nền tảng cơ sở hạ tầng để hỗ trợ các trường hợp sử dụng Trí tuệ nhân tạo ( AI ) và nhu cầu điện toán của các nhóm khoa học dữ liệu của họ. Học máy (ML) và Học sâu (DL) là các kỹ thuật AI đã chứng minh thành công trên mọi ngành dọc , bao gồm sản xuất, chăm sóc sức khỏe, bán lẻ và dịch vụ đám mây.

Kubeflow , một nền tảng gốc Kubernetes dành cho khối lượng công việc ML dành cho doanh nghiệp, đã được phát hành dưới dạng một dự án nguồn mở vào tháng 12 năm 2017 . Kubeflow là một ngăn xếp ML di động có thể kết hợp, có thể mở rộng, ban đầu dựa trên việc Google sử dụng Tensor F low trên Kubernetes nhưng hiện bao gồm các thành phần và đóng góp từ một số nguồn và tổ chức . Cuối cùng , hầu hết các công cụ ML phổ biến sẽ trở thành một phần của Kubeflow . Kubeflow làm cho s việc phát triển, triển khai và quản lý các ứng dụng ML trở nên dễ dàng hơn . Để biết thêm thông tin, hãy xem Kubeflow: The Machine Learning Toolkit for Kubernetes .

Kubeflow r yêu cầu một môi trường Kubernetes như Google Kubernetes Engine hoặc Red Hat OpenShift. Chạy Kubeflow trên OpenShift mang lại một số lợi thế trong ngữ cảnh n ML :

  • Sử dụng Kubernetes làm nền tảng cơ bản giúp kỹ sư n ML dễ dàng phát triển mô hình cục bộ bằng cách sử dụng hệ thống phát triển như máy tính xách tay trước khi triển khai ứng dụng vào môi trường Kubernetes sản xuất.
  • Chạy khối lượng công việc ML trong cùng một môi trường với phần còn lại của ứng dụng của công ty giúp giảm độ phức tạp của CNTT.

Tổng quan về Nền tảng bộ chứa Dell EMC OpenShift

Dell EMC và Red Hat cung cấp một thiết kế nền tảng đã được chứng minh giúp cung cấp khả năng phân phối nhanh chóng các ứng dụng gốc trên nền tảng đám mây không trạng thái và không trạng thái bằng cách sử dụng điều phối bộ chứa Kubernetes cấp doanh nghiệp. Dell EMC cung cấp hướng dẫn thiết kế đã được kiểm tra và xác thực để giúp khách hàng triển khai nhanh chóng Nền tảng bộ chứa OpenShift trên cơ sở hạ tầng của Dell EMC . Để biết thêm thông tin, hãy xem Kiến trúc sẵn sàng của Dell EMC cho Red Hat OpenShift Container Platform v3.11 Hướng dẫn kiến ​​trúc .

Dell EMC sử dụng nền tảng sẵn sàng cho doanh nghiệp này làm nền tảng để xây dựng một nền tảng ML/DL mạnh mẽ , hiệu suất cao, hỗ trợ các giai đoạn vòng đời khác nhau của một dự án AI : phát triển mô hình bằng sổ ghi chép Jupyter n , thử nghiệm và kiểm tra bằng TensorFlow cũng như triển khai các mô hình ML.

Mục đích tài liệu

Sách trắng này mô tả cách cài đặt và triển khai Kubeflow v0.5 trên Nền tảng bộ chứa OpenShift và cung cấp ví dụ về cách chạy công việc đào tạo n ML trên nền tảng OpenShift bằng cách sử dụng Kubeflow TFJob để chạy công việc đào tạo phân tán.

Khán giả

Sách trắng này dành cho các quản trị viên CNTT và những người ra quyết định có ý định xây dựng một nền tảng n ML bằng cách sử dụng cơ sở hạ tầng tại chỗ . Bạn nên làm quen với các quy trình ML và công nghệ OpenShift nhưng không cần thiết.

Giải pháp xây dựng

Như thể hiện trong Hình 1, kiến ​​trúc tham chiếu Dell EMC cho Nền tảng bộ chứa OpenShift trên cơ sở hạ tầng Dell EMC sử dụng năm loại nút: pháo đài, chủ, cơ sở hạ tầng, ứng dụng và lưu trữ .

  • Nút pháo đài —Nút pháo đài đóng vai trò là máy chủ quản lý và triển khai chính cho cụm OpenShift.
  • Các nút chính — Các nút chính thực hiện các chức năng điều khiển cho toàn bộ môi trường cụm. Các nút se chịu trách nhiệm tạo, lên lịch và quản lý tất cả các đối tượng dành riêng cho OpenShift, bao gồm API, quản lý bộ điều khiển và các khả năng của bộ lập lịch .
  • Các nút cơ sở hạ tầng —Các nút cơ sở hạ tầng thực thi một loạt các dịch vụ mặt phẳng điều khiển, bao gồm sổ đăng ký Bộ chứa OpenShift, bộ định tuyến HAProxy và dịch vụ Heketi.
  • Các nút lưu trữ —Các nút lưu trữ cung cấp khả năng lưu trữ liên tục cho môi trường. Các lớp lưu trữ Kubernetes có thể tạo các khối liên tục theo cách thủ công hoặc tự động . Máy chủ Dell EMC PowerEdge R740 được sử dụng để lưu trữ và máy chủ PowerEdge R640 được sử dụng cho các loại nút còn lại.
  • Các nút ứng dụng — Các nút ứng dụng chạy khối lượng công việc được đóng gói. Chúng chứa một nhị phân duy nhất của các thành phần nút OpenShift và được các nút chính sử dụng để lên lịch và kiểm soát các vùng chứa. Kubeflow sử dụng tài nguyên nút ứng dụng để chạy các công việc ML/DL.

Hình 1. Sơ đồ giá đỡ

Cấu hình đề xuất cho OCP với Kubeflow

  • Dell EMC đề xuất các sửa đổi sau đối với OpenShift Container Platform v3.11 để lưu trữ khối lượng công việc ML bằng Kubeflow.

    Đào tạo ML/DL là một trong những khối lượng công việc tính toán chuyên sâu nhất trong trung tâm dữ liệu doanh nghiệp . Dell EMC khuyên bạn nên sử dụng dòng bộ xử lý Intel Xeon Scalable mới nhất để tận dụng tối ưu hóa Intel Deep Learning Boost được nhắm mục tiêu cho khối lượng công việc ML phức tạp .

    Bảng sau đây hiển thị cấu hình được đề xuất cho các nút ứng dụng:

    Bảng 1.           Cấu hình nút ứng dụng

    Phần cứng Sự miêu tả Mã hàng
    Máy chủ Dell EMC PowerEdge R640 210-AKWU
    CPU x Bộ xử lý Intel Xeon Gold 6248 (20 lõi, 2,5 GHz, 150W) 338-BRVO

     

    Ký ức 384 GB (12 x 32 GB 2666MHz DDR4 ECC RDIMM) 370-ADNF
    Kho Bậc dung lượng: 2 1,6 = TB SSD Intel DC P4610

    Ổ đĩa khởi động: Thẻ điều khiển BOSS + với 2 M.2 giây 480 GB

    400-DÂY

    403-BBTJ