Tối ưu hóa khối lượng công việc thị giác máy tính: Hướng dẫn chọn GPU NVIDIA

Giới thiệu

Đã qua lâu rồi cái thời mà các nhà quản lý cơ sở vật chất và nhân viên an ninh phải ở trong phòng điều khiển với sự chú ý của họ tập trung vào các bức tường có màn hình video. Sự phát triển của máy quay video có chi phí thấp hơn và có khả năng hoạt động tốt hơn, nền tảng điện toán khoa học dữ liệu mạnh mẽ hơn và nhu cầu giảm chi phí vận hành đã khiến việc triển khai hệ thống quản lý video (VMS) và các ứng dụng phân tích thị giác máy tính tăng vọt trong mười năm qua. mọi thành phần của nền kinh tế. Các ứng dụng thị giác máy tính hiện đại có thể phát hiện nhiều sự kiện mà không cần sự giám sát liên tục của con người, bao gồm tình trạng quá tải, truy cập trái phép, phát hiện khói, vi phạm vận hành phương tiện, v.v. Nhận thức tình huống tốt hơn về môi trường của họ có thể giúp các tổ chức đạt được kết quả tốt hơn cho mọi người tham gia.

Bảng 1 – Kết quả có thể đạt được nhờ nhận thức tình huống tốt hơn

Tăng hiệu quả hoạt động Tận dụng tất cả dữ liệu bạn thu thập để cung cấp dịch vụ chất lượng cao và cải thiện việc phân bổ nguồn lực.
An toàn và bảo mật tối ưu Cung cấp một môi trường nhận thức thời gian thực hơn, an toàn hơn.
Trải nghiệm nâng cao Cung cấp trải nghiệm tích cực, cá nhân hóa và hấp dẫn hơn cho cả khách hàng và nhân viên.
Cải thiện tính bền vững Đo lường và giảm thiểu tác động môi trường của bạn.
Cơ hội doanh thu mới Mở ra nhiều cơ hội kiếm tiền hơn từ dữ liệu của bạn với nhiều thông tin chi tiết hữu ích hơn.

 

Thử thách kỹ thuật

Phân tích thị giác máy tính sử dụng nhiều kỹ thuật và thuật toán khác nhau, bao gồm phát hiện đối tượng, phân loại, trích xuất tính năng, v.v. Tài nguyên tính toán cần thiết cho các tác vụ này phụ thuộc vào độ phân giải của video nguồn, tốc độ khung hình và độ phức tạp của cả cảnh cũng như loại phân tích đang được xử lý. Sơ đồ bên dưới hiển thị một tập hợp các bước (đường dẫn) đơn giản hóa thường được triển khai trong ứng dụng thị giác máy tính.

Hình 1: Đường dẫn xử lý logic cho thị giác máy tính

Suy luận là bước mà hầu hết mọi người đều quen thuộc. Một thuật toán được đào tạo có thể phân biệt giữa ô tô chở khách và xe tải giao hàng, tương tự như ví dụ chó và mèo cổ điển thường được sử dụng để giải thích thị giác máy tính. Mặc dù các bước khác ít quen thuộc hơn với người dùng ứng dụng thị giác máy tính thông thường nhưng chúng rất quan trọng để đạt được kết quả tốt và yêu cầu bộ xử lý đồ họa (GPU) chuyên dụng. Ví dụ: các bước Giải mã/Mã hóa được điều chỉnh để tận dụng phần cứng nằm trên GPU nhằm mang lại hiệu suất tối ưu.

Với danh mục GPU NVIDIA phong phú hiện nay, các tổ chức bắt đầu sử dụng ứng dụng thị giác máy tính thường cần trợ giúp để hiểu các lựa chọn của họ. Chúng tôi đã kiểm tra hiệu suất của các ứng dụng phân tích thị giác máy tính với nhiều mẫu GPU NVIDIA khác nhau và thu thập kết quả. Phần còn lại của bài viết này cung cấp thông tin cơ bản về kết quả thử nghiệm và sự lựa chọn mô hình của chúng tôi.

Chọn GPU

Thị trường GPU được chia thành các sản phẩm trung tâm dữ liệu, máy tính để bàn và thiết bị di động. Khối lượng công việc đặt trên GPU khi đào tạo các mô hình phát hiện và phân loại hình ảnh lớn hầu như chỉ được thực hiện trên GPU của trung tâm dữ liệu. Sau khi các mô hình này được đào tạo và phân phối trong ứng dụng thị giác máy tính, nhiều tùy chọn tài nguyên CPU và GPU có thể khả dụng trong thời gian chạy. Các cơ sở nhỏ, chẳng hạn như một nhà bán lẻ nhỏ chỉ có một vài camera, chỉ có thể triển khai một máy tính để bàn có GPU công suất thấp để phân tích video gần thời gian thực. Ngược lại, các tổ chức lớn với hàng trăm đến hàng nghìn camera cần sức mạnh của GPU cấp trung tâm dữ liệu.

Tuy nhiên, tất cả các GPU của trung tâm dữ liệu không được tạo ra như nhau. Bảng bên dưới so sánh các đặc điểm được chọn cho một mẫu GPU trung tâm dữ liệu NVIDIA. Số liệu tính toán dấu phẩy động trên giây của FP32 cho biết hiệu suất tương đối mà nhà phát triển có thể mong đợi ở giai đoạn đào tạo mô hình hoặc giai đoạn suy luận của quy trình điển hình được sử dụng trong ứng dụng thị giác máy tính, như đã thảo luận ở trên.

Khả năng của GPU để thực hiện các thành phần quy trình khác cần thiết cho các tác vụ thị giác máy tính hiệu suất cao, bao gồm mã hóa/giải mã, được phản ánh rõ nhất qua các chi tiết của Công cụ Truyền thông.

Trước tiên, hãy xem xét mục nhập hàng Media Engines cho cột GPU A30. Có 1 bộ giải mã JPEG và 4 bộ giải mã video nhưng không có bộ mã hóa video. Cấu hình này khiến A30 không tương thích với nhu cầu sản phẩm của nhiều nhà cung cấp ứng dụng thị giác máy tính hàng đầu thị trường, dù đây là GPU trung tâm dữ liệu.

Bảng 2: Đặc điểm GPU của kiến ​​trúc NVIDA Ampere

  A2 A16 A30 A40
FP32 (Tera thất bại) 4,5 4×4.5 10.3 37,4
Bộ nhớ (GB)   16 GDDR6 4×16 GDDR6 24GB HBM2 48 GDDR6

với ECC

Công cụ truyền thông 1 bộ mã hóa video

2 bộ giải mã video (bao gồm bộ giải mã AV1)

4 bộ mã hóa video

8 bộ giải mã video (bao gồm bộ giải mã AV1)

1 bộ giải mã JPEG

4 bộ giải mã video

1 máy gia tốc dòng quang

1 bộ mã hóa video

2 bộ giải mã video (bao gồm bộ giải mã AV1)

Công suất (Watt) 40-60 (Có thể định cấu hình) 250 165 300

 

So sánh FP32 TFLOPS giữa A30 và A40 cho thấy A40 là GPU có khả năng tốt hơn cho các tác vụ đào tạo và suy luận thuần túy. Trong quá trình thử nghiệm của chúng tôi, các ứng dụng thị giác máy tính đã nhanh chóng sử dụng hết các Công cụ truyền thông có sẵn trên A40. Việc chọn GPU cho thị giác máy tính yêu cầu phải kết hợp các tài nguyên sẵn có cần thiết cho thị giác máy tính, bao gồm công cụ truyền thông, bộ nhớ khả dụng và các khả năng tính toán khác có thể khác nhau tùy theo các trường hợp sử dụng.

Tiếp theo, việc kiểm tra mô tả Công cụ truyền thông cho cột GPU A2 sẽ xác nhận rằng sản phẩm chứa 1 bộ mã hóa video và 2 bộ giải mã video. Thẻ này sẽ đáp ứng nhu cầu của hầu hết các ứng dụng thị giác máy tính và được hỗ trợ sử dụng cho trung tâm dữ liệu; tuy nhiên, số lượng bộ mã hóa và giải mã, bộ nhớ và xử lý dấu phẩy động thấp sẽ hạn chế số lượng luồng đồng thời có thể được xử lý. Mức tiêu thụ điện năng thấp của A2 làm tăng tính linh hoạt trong việc lựa chọn máy chủ để triển khai, điều này rất quan trọng đối với các tình huống biên và gần biên.

Vẫn tập trung vào bảng trên, so sánh toàn bộ đặc điểm của cột GPU A2 với GPU A16. Lưu ý rằng tài nguyên trên A16 gấp bốn lần so với A2. Điều này có thể được giải thích bằng cách nhìn vào sơ đồ dưới đây. A16 được chế tạo bằng cách đặt bốn “động cơ” A2 trên một thẻ PCI duy nhất. Mỗi hộp có nhãn GPU0-GPU3 chứa tất cả bộ nhớ, công cụ truyền thông và các khả năng xử lý khác mà bạn có sẵn cho máy chủ đã cài đặt thẻ GPU A2 tiêu chuẩn. Cũng lưu ý rằng A16 yêu cầu công suất gấp khoảng 4 lần so với A2.

 

 

Bảng bên dưới thể hiện sự so sánh số liệu tương tự được sử dụng trong cuộc thảo luận ở trên đối với các sản phẩm GPU NVIDIA mới nhất dựa trên kiến ​​trúc Ada Lovelace. GPU L4 cung cấp 2 bộ mã hóa và 4 bộ giải mã cho một thẻ chỉ tiêu thụ 72 W. So với cấu hình 1 bộ mã hóa và 2 bộ giải mã trên A2 ở mức 40 đến 60 W, L4 sẽ có khả năng xử lý nhiều luồng video hơn với ít điện năng hơn hơn hai thẻ A2. L40 với 3 bộ mã hóa và 3 bộ giải mã được kỳ vọng sẽ là ứng dụng thị giác máy tính mới dành cho các tổ chức có hàng trăm đến hàng nghìn luồng video. Mặc dù L40S có cùng số lượng Công cụ truyền thông và bộ nhớ như L40, nhưng nó được thiết kế để nâng cấp/thay thế cho công cụ dẫn đầu về điện toán suy luận và/hoặc đào tạo kiến ​​trúc A100 Ampere.

  L4 L40 L40S
FP32 (Tera thất bại) 30,3 90,5 91,6
Bộ nhớ (GB) 24 GDDR6 có ECC 48 GDDR6 có ECC 48 GDDR6 có ECC
Công cụ truyền thông 2 bộ mã hóa video

4 bộ giải mã video

4 bộ giải mã JPEG

(bao gồm giải mã AV1)

3 bộ mã hóa video

3 bộ giải mã video

 

3 bộ mã hóa video

3 bộ giải mã video

 

Công suất (Watt) 72 300 350

 

Phần kết luận

Tổng cộng bảy card GPU NVIDIA khác nhau đã được thảo luận và hữu ích cho khối lượng công việc CV. Từ dòng thẻ Ampere, chúng tôi nhận thấy rằng A16 hoạt động tốt với nhiều khối lượng công việc suy luận CV khác nhau. A16 cung cấp sự cân bằng tốt giữa Bộ giải mã/Bộ mã hóa video, lõi CUDA và bộ nhớ cho khối lượng công việc thị giác máy tính.

Đối với dòng thẻ Ada Lovlace mới hơn, L40 trông giống như một thẻ cân bằng với tiềm năng thông lượng lớn. Chúng tôi hiện đang thử nghiệm thẻ này trong phòng thí nghiệm của mình và sẽ cung cấp blog trong tương lai về hiệu suất của thẻ đối với khối lượng công việc CV.