Chạy khối lượng công việc ML/DL bằng Red Hat OpenShift Container Platform v3.11

Trường hợp kinh doanh

Học sâu (DL) đã chứng minh thành công trong nhiều lĩnh vực ứng dụng , bao gồm thị giác máy tính , nhận dạng giọng nói và xử lý ngôn ngữ tự nhiên. Bất chấp việc áp dụng rộng rãi DL, việc phát triển mô hình, đào tạo và quản lý ở quy mô lớn vẫn đặt ra những thách thức kỹ thuật đáng kể. Các doanh nghiệp đang đầu tư vào các nền tảng cơ sở hạ tầng tùy chỉnh để hỗ trợ các trường hợp sử dụng Trí tuệ nhân tạo ( AI ) và nhu cầu điện toán của các nhóm khoa học dữ liệu của họ, thường sử dụng triển khai phần cứng đặc biệt nằm ngoài cơ sở hạ tầng hệ thống trung tâm dữ liệu chính thống . Khả năng tích hợp cấp sản xuất   , các công nghệ AI thử nghiệm trong các nền tảng d được xác định rõ sẽ tạo điều kiện cho việc áp dụng rộng rãi hơn.

Kubeflow

Kubeflow là một nền tảng gốc Kubernetes mã nguồn mở dành cho khối lượng công việc Học máy ( ML ) cho phép các doanh nghiệp tăng tốc các dự án ML/DL của họ trên Kubernetes. Kubeflow là một ngăn xếp ML di động có thể kết hợp, có thể mở rộng, bao gồm các thành phần và đóng góp từ nhiều nguồn và tổ chức khác nhau . Điểm khác biệt của nó là sử dụng tính năng tự động hóa để tích hợp các công cụ ML sao cho chúng hoạt động cùng nhau nhằm tạo ra một quy trình gắn kết và giúp dễ dàng triển khai vòng đời của ứng dụng ML trên quy mô lớn.

Tổng quan về giải pháp

Kubeflow r yêu cầu một môi trường Kubernetes như Google Kubernetes Engine hoặc Red Hat OpenShift Container Platform . Dell EMC và Red Hat cung cấp một thiết kế nền tảng đã được chứng minh giúp cung cấp khả năng phân phối nhanh chóng các ứng dụng gốc trên đám mây có trạng thái và không trạng thái bằng cách sử dụng điều phối vùng chứa Kubernetes cấp doanh nghiệp. Dell EMC sử dụng nền tảng sẵn sàng cho doanh nghiệp này làm nền tảng để xây dựng nền tảng ML/DL mạnh mẽ, hiệu suất cao, hỗ trợ các giai đoạn vòng đời khác nhau của dự án AI: phát triển mô hình bằng Jupyter Notebooks, lặp lại và thử nghiệm nhanh chóng bằng TensorFlow, đào tạo các mô hình DL bằng cách sử dụng đơn vị xử lý đồ họa ( GPU ) và dự đoán bằng các mô hình đã phát triển.

Dell EMC cung cấp hướng dẫn thiết kế đã được kiểm chứng để giúp khách hàng nhanh chóng triển khai Nền tảng bộ chứa OpenShift trên cơ sở hạ tầng của Dell EMC . Để biết thêm thông tin, hãy xem Kiến trúc sẵn sàng của Dell EMC cho Red Hat OpenShift Container Platform v3.11 Hướng dẫn kiến ​​trúc . Tài liệu này hỗ trợ bạn đưa ra quyết định thiết kế cơ sở hạ tầng OpenShift và chọn cấu hình máy chủ để xử lý khối lượng công việc ứng dụng của bạn.

Chạy Kubeflow trên OpenShift mang lại một số lợi thế trong ngữ cảnh n ML /DL :

  • Chạy khối lượng công việc ML /DL trong cùng môi trường với phần còn lại của ứng dụng của công ty giúp giảm độ phức tạp của CNTT.
  • Việc sử dụng Kubernetes làm nền tảng cơ bản giúp kỹ sư n ML /DL dễ dàng phát triển mô hình cục bộ bằng cách sử dụng hệ thống phát triển như máy tính xách tay trước khi triển khai ứng dụng vào môi trường Kubernetes sản xuất.

Mục đích tài liệu

Sách này mô tả cách triển khai Kubeflow v0.5 trên Red Hat OpenShift Container Platform v3.11 bằng cách sử dụng g GPU Nvidia Tesla để đạt được môi trường AI hiệu suất cao , trong đó các nhà khoa học ML/DL có thể làm việc mà không cần phải xây dựng một nền tảng hoàn chỉnh từ đầu .

Khán giả

Sách trắng này dành cho các chuyên gia CNTT, quản trị viên và những người ra quyết định có ý định xây dựng một nền tảng n ML bằng cách sử dụng cơ sở hạ tầng tại chỗ . Bạn nên làm quen với các quy trình ML và công nghệ OpenShift nhưng không cần thiết.

Giải pháp xây dựng

Như thể hiện trong Hình 1, kiến ​​trúc tham chiếu Dell EMC cho Nền tảng bộ chứa OpenShift trên cơ sở hạ tầng Dell EMC sử dụng năm loại nút: pháo đài, tổng thể, cơ sở hạ tầng, ứng dụng và lưu trữ .

  • Nút pháo đài —Nút pháo đài đóng vai trò là máy chủ quản lý và triển khai chính cho cụm OpenShift.
  • Các nút chính — Các nút m aster thực hiện các chức năng điều khiển cho toàn bộ môi trường cụm. Các nút se chịu trách nhiệm tạo, lên lịch và quản lý tất cả các đối tượng dành riêng cho OpenShift, bao gồm API, quản lý bộ điều khiển và các khả năng của bộ lập lịch .
  • Các nút cơ sở hạ tầng —Các nút cơ sở hạ tầng thực thi một loạt các dịch vụ mặt phẳng điều khiển, bao gồm sổ đăng ký Bộ chứa OpenShift, bộ định tuyến HAProxy và dịch vụ Heketi.
  • Các nút lưu trữ —Các nút lưu trữ cung cấp khả năng lưu trữ liên tục cho môi trường. Các lớp lưu trữ Kubernetes có thể tạo các khối liên tục theo cách thủ công hoặc tự động . Giải pháp này sử dụng máy chủ Dell EMC PowerEdge R740 để lưu trữ và máy chủ PowerEdge R640 cho các loại nút còn lại.
  • Các nút ứng dụng — Các nút ứng dụng chạy khối lượng công việc được đóng gói. Các nút chứa một nhị phân duy nhất của các thành phần nút OpenShift và được các nút chính sử dụng để lên lịch và kiểm soát các vùng chứa. Kubeflow sử dụng tài nguyên nút ứng dụng để thực thi các công việc ML/DL , đây là một trong những khối lượng công việc tính toán chuyên sâu nhất trong trung tâm dữ liệu doanh nghiệp .

Cận cảnh một chiếc máy Mô tả được tạo ra với độ tin cậy cao

Hình 1. Sơ đồ giá đỡ

Cấu hình nút ứng dụng và lưu trữ

Các kỹ sư của Dell EMC định cấu hình các nút ứng dụng với GPU Nvidia Tesla T4 và các nút lưu trữ với GPU Nvidia Tesla V100 để tăng tốc tính toán khối lượng công việc ML/DL phức tạp. GPU Nvidia T4 dựa trên kiến ​​trúc Turing mới và được đóng gói trong hệ số dạng PCIe nhỏ, 70 watt tiết kiệm năng lượng. Chúng tôi đã cài đặt một GPU Nvidia Tesla T4 duy nhất trong mỗi nút ứng dụng. GPU Nvidia Tesla T4 được tối ưu hóa cho các môi trường điện toán chính thống , bao gồm đào tạo và suy luận D / L , đồng thời có các Lõi Turing Tensor đa độ chính xác và các Lõi RT mới để cung cấp sức mạnh tính toán có độ chính xác hỗn hợp lên tới 65 teraFLOP để tăng tốc khối lượng công việc ML/DL

Các nút lưu trữ được vận hành ở chế độ siêu hội tụ. Mỗi nút lưu trữ được cài đặt với một GPU Nvidia Tesla V100. Bộ tăng tốc GPU NVIDIA Tesla V100 cung cấp khả năng tính toán có độ chính xác hỗn hợp lên đến 112 teraFLOP trong một GPU duy nhất , cho phép các nhà khoa học dữ liệu, nhà nghiên cứu và kỹ sư giải quyết những thách thức mới.

Quy trình học máy

Hàng chục hoặc hàng trăm lần lặp lại được tạo ra khi các mô hình được điều chỉnh và các bộ dữ liệu mới được kết hợp. Sử dụng tự động hóa để quản lý, xây dựng và duy trì các giai đoạn trong vòng đời ML phức tạp giúp giảm số bước phải thực hiện thủ công, tăng tốc quy trình ML và giảm thiểu lỗi.

Một quy trình ML điển hình bao gồm các bước sau : thu thập dữ liệu, phân tích dữ liệu, chuẩn bị dữ liệu, xác thực dữ liệu, xây dựng mô hình, đào tạo mô hình, xác thực mô hình, đào tạo theo quy mô, suy luận mô hình và giám sát. Sơ đồ sau đây cho thấy một ví dụ:

Cận cảnh bản đồ Mô tả được tạo với độ tin cậy cao

Hình 2. Quy trình học máy

Kubeflow hỗ trợ các giai đoạn vòng đời khác nhau của dự án ML , tích hợp các công cụ ML thường được sử dụng như sổ ghi chép TensorFlow và Jupyter vào một nền tảng duy nhất .