Chọn Máy chủ PowerEdge và GPU NVIDIA cho Suy luận AI ở biên

Dell Technologies đã gửi một số kết quả điểm chuẩn cho bộ điểm chuẩn MLCommons TM  Inference v3.0 mới nhất. Mục tiêu là cung cấp thông tin để giúp khách hàng chọn sự kết hợp máy chủ và GPU phù hợp với khối lượng công việc của họ. Blog này đánh giá kết quả điểm chuẩn của Edge và cung cấp thông tin về cách xác định cấu hình máy chủ và GPU tốt nhất cho các loại ứng dụng ML khác nhau.

Tổng quan về kết quả

Đối với khối lượng công việc thị giác máy tính được sử dụng rộng rãi trong hệ thống bảo mật, ứng dụng công nghiệp và thậm chí cả ô tô tự lái, kết quả ResNet và RetinaNet đã được gửi. ResNet là nhiệm vụ phân loại hình ảnh và RetinaNet là nhiệm vụ phát hiện đối tượng. Các số liệu sau đây cho thấy để xử lý chuyên sâu, GPU NVIDIA A30 , là thẻ có chiều rộng gấp đôi, mang lại hiệu suất tốt nhất với số hình ảnh mỗi giây gần gấp hai lần so với GPU NVIDIA L4 . Tuy nhiên, GPU NVIDIA L4 là một thẻ rộng, chỉ yêu cầu 43% mức tiêu thụ năng lượng của GPU NVIDIA A30, nếu xét đến Công suất thiết kế nhiệt (TDP) danh nghĩa của mỗi GPU. Mức tiêu thụ năng lượng thấp này mang lại lợi thế lớn cho các ứng dụng cần mức tiêu thụ điện năng thấp hơn hoặc trong những môi trường khó làm mát hơn. GPU NVIDIA L4 là sự thay thế cho GPU NVIDIA T4 bán chạy nhất và cung cấp hiệu suất gấp đôi với cùng một kiểu dáng. Do đó, chúng tôi thấy rằng thẻ này là lựa chọn tốt nhất cho hầu hết khối lượng công việc Edge AI.

Ngược lại, GPU NVIDIA A2 có mức giá tiết kiệm nhất (so với   giá của GPU NVIDIA A30 ), mức tiêu thụ điện năng (TDP) và mức hiệu suất trong số tất cả các tùy chọn có sẵn trên thị trường. Do đó, nếu ứng dụng tương thích với GPU này, nó có khả năng mang lại tổng chi phí sở hữu (TCO) thấp nhất.

Hình 1: So sánh hiệu suất của GPU NVIDIA A30, L4, T4 và A2 cho điểm chuẩn ResNet offline

Hình 2: So sánh hiệu năng của GPU NVIDIA A30, L4, T4 và A2 cho điểm chuẩn RetinaNet offline

Điểm chuẩn 3D-UNet là điểm chuẩn khác liên quan đến hình ảnh thị giác máy tính. Nó sử dụng hình ảnh y tế để phân đoạn thể tích. Chúng tôi đã thấy kết quả tương tự về độ chính xác mặc định và độ chính xác cao. Hơn nữa, GPU NVIDIA A30 mang lại hiệu năng tốt hơn đáng kể so với GPU NVIDIA L4. Tuy nhiên, sự so sánh tương tự giữa mức tiêu thụ năng lượng, không gian và khả năng làm mát được thảo luận trước đây sẽ được áp dụng khi xem xét nên sử dụng GPU nào cho từng ứng dụng và trường hợp sử dụng.

Hình 3: So sánh hiệu năng của GPU NVIDIA A30, L4, T4 và A2 cho điểm chuẩn ngoại tuyến 3D-UNet

Một điểm chuẩn quan trọng khác là dành cho BERT, đây là mô hình Xử lý ngôn ngữ tự nhiên thực hiện các tác vụ như trả lời câu hỏi và tóm tắt văn bản. Chúng tôi đã quan sát thấy sự khác biệt về hiệu suất tương tự giữa GPU NVIDIA A30, L4, T4 và A2. Giá trị càng cao thì càng tốt.

Hình 4: So sánh hiệu năng của GPU NVIDIA A30, L4, T4 và A2 cho điểm chuẩn BERT offline

Điểm chuẩn MLPerf cũng bao gồm kết quả về độ trễ, là thời gian mà hệ thống cần để xử lý các yêu cầu. Đối với một số trường hợp sử dụng, thời gian xử lý này có thể quan trọng hơn số lượng yêu cầu có thể được xử lý mỗi giây. Ví dụ: nếu phải mất vài giây để phản hồi thuật toán hội thoại hoặc truy vấn phát hiện đối tượng cần phản hồi theo thời gian thực thì thời gian này có thể đặc biệt ảnh hưởng đến trải nghiệm của người dùng hoặc ứng dụng.

Như được hiển thị trong các hình dưới đây, GPU NVIDIA A30 và NVIDIA L4 có kết quả về độ trễ tương tự nhau. Tùy thuộc vào khối lượng công việc, kết quả có thể khác nhau do GPU nào cung cấp độ trễ thấp nhất. Đối với những khách hàng có ý định thay thế GPU NVIDIA T4 hoặc tìm kiếm thời gian phản hồi tốt hơn cho các ứng dụng của mình, GPU NVIDIA L4 là một lựa chọn tuyệt vời. GPU NVIDIA A2 cũng có thể được sử dụng cho các ứng dụng yêu cầu độ trễ thấp vì nó hoạt động tốt hơn GPU NVIDIA T4 trong khối lượng công việc một luồng. Giá trị càng thấp thì càng tốt.

Hình 4: So sánh độ trễ của GPU NVIDIA A30, L4, T4 và A2 cho điểm chuẩn luồng đơn và đa luồng ResNet

Hình 5: So sánh độ trễ của GPU NVIDIA A30, L4, T4 và A2 cho điểm chuẩn luồng đơn và đa luồng RetinaNet và điểm chuẩn luồng đơn BERT

Dell Technologies đã thực hiện nhiều tiêu chuẩn khác nhau để giúp hiểu cấu hình nào thân thiện với môi trường nhất vì lượng khí thải carbon của trung tâm dữ liệu đang là mối lo ngại hiện nay. Mối lo ngại này là có liên quan vì một số vị trí ở rìa có những hạn chế về nguồn điện và khả năng làm mát. Vì vậy, điều quan trọng là phải hiểu hiệu suất so với mức tiêu thụ điện năng.

Hình dưới đây khẳng định GPU NVIDIA L4 có hiệu suất trên mỗi watt bằng hoặc tốt hơn so với GPU NVIDIA A2, ngay cả khi tiêu thụ điện năng cao hơn. Đối với giá trị Thông lượng và Hiệu suất/watt, càng cao thì càng tốt; đối với giá trị Công suất (watt), càng thấp càng tốt.

Hình 6: So sánh mức tiêu thụ điện năng của GPU NVIDIA L4 và A2

Phần kết luận

Với điểm chuẩn khối lượng công việc được đo trên MLPerf Inference 3.0 , chúng tôi có thể kết luận rằng tất cả GPU NVIDIA được thử nghiệm cho khối lượng công việc Edge đều có các đặc điểm giải quyết một số trường hợp sử dụng. Khách hàng phải đánh giá kích thước, hiệu suất, độ trễ, mức tiêu thụ điện năng và giá cả. Khi chọn sử dụng GPU nào và tùy thuộc vào yêu cầu của ứng dụng, một trong những GPU được đánh giá sẽ mang lại kết quả tốt hơn cho trường hợp sử dụng cuối cùng.

Một kết luận quan trọng khác là GPU NVIDIA L4 có thể được coi là một bản nâng cấp đặc biệt dành cho khách hàng và ứng dụng chạy trên GPU NVIDIA T4. Việc chuyển sang GPU mới này có thể giúp hợp nhất số lượng thiết bị, giảm mức tiêu thụ điện năng và giảm TCO; một GPU NVIDIA L4 có thể cung cấp hiệu năng gấp đôi GPU NVIDIA T4 cho một số khối lượng công việc.

Dell Technologies chứng minh trên tiêu chuẩn này danh mục sản phẩm rộng lớn của Dell cung cấp cơ sở hạ tầng cho bất kỳ loại yêu cầu nào của khách hàng