Khi trí tuệ nhân tạo (AI) và máy học (ML) đang trở thành một phần trong cuộc sống hàng ngày của chúng ta, chúng ta nghe về tầm quan trọng của dữ liệu và khoa học dữ liệu gần như hàng ngày, như chúng ta đã nghe hơn một thập kỷ nay. Dữ liệu thường được gọi là “nhiên liệu” – cho tăng trưởng kinh tế, đổi mới và thậm chí cả AI. Và mặc dù dữ liệu có thể là nhiên liệu, nhưng vẫn cần có khoa học và kỹ thuật để chế tạo tàu tên lửa.
Một trong những chìa khóa của khoa học và kỹ thuật đó là tối ưu hóa. Cụ thể, tối ưu hóa các quy trình và phương pháp để phân tích và ML: thử nghiệm và lập mô hình. Vì vậy, trong khi dữ liệu cung cấp năng lượng cho tàu tên lửa của bạn, thì việc tối ưu hóa phân tích đảm bảo thiết kế và hiệu suất của nó luôn ở trạng thái tiên tiến nhất. Và mặc dù làm việc với máy học không còn là khoa học tên lửa (nữa), nhưng nó vẫn cần một chút thay đổi mô hình – một mô hình nhận ra tầm quan trọng của dữ liệu và doanh nghiệp dựa trên dữ liệu.
Thợ sửa ống nước, kỹ sư hay nhà khoa học?
Trong cả khoa học dữ liệu và hệ thống ống nước, các đường ống chức năng đều cần thiết để đạt được hiệu suất và kết quả tối ưu. Cả hai ngành này cũng thường yêu cầu một người xắn tay áo. Đối với nhiều nhà khoa học dữ liệu, phần lớn thời gian của họ vẫn dành cho việc truy cập, tích hợp và sắp xếp dữ liệu để làm sạch và chuyển đổi dữ liệu cho nhu cầu hàng ngày của họ. Điều gì sẽ xảy ra nếu có một cách để tự động hóa “hệ thống ống nước” này? Các kỹ sư dữ liệu nên sẵn sàng cho nhiệm vụ đó!
Bằng cách tận dụng cơ sở hạ tầng dữ liệu hiện đại để đẩy nhanh các giai đoạn khám phá và chuẩn bị dữ liệu, chúng tôi có thể cho phép truy cập nhanh vào dữ liệu trên nhiều hệ thống khi cần để khám phá và thử nghiệm. Các kỹ sư dữ liệu có thể thực hiện công việc của họ tập trung vào cơ sở hạ tầng và đường ống dữ liệu, đồng thời giữ cho tất cả người tiêu dùng – bao gồm cả các nhà khoa học dữ liệu – hài lòng và làm việc hiệu quả.
Làm lại từ đầu
Hơn nữa, trong khoa học, để có được câu trả lời đúng, một nhóm cần thực hiện nhiều khám phá và thử nghiệm khác nhau, bao gồm nhiều lần lặp lại. Các thử nghiệm này tồn tại để tìm ra các “tính năng” có liên quan – về cơ bản là các trường dữ liệu có liên quan hoặc các giá trị được chuyển đổi của chúng ảnh hưởng trực tiếp đến chất lượng của mô hình ML – và để chọn các phương pháp phù hợp, tinh chỉnh tất cả các tham số và siêu tham số cần thiết. Tốc độ thử nghiệm cũng rất quan trọng. (Không ngạc nhiên khi máy gia tốc phần cứng rất phổ biến.)
Để hiệu quả hơn nữa, các nhóm nên theo dõi các thử nghiệm của mình để làm cho các kết quả và mô hình có thể lặp lại được. Các tham số và chỉ số kết quả là chìa khóa, được ghi lại và cung cấp để so sánh nhằm hiểu cách nhóm đạt được một mô hình hoặc kết luận cụ thể.
Cuối cùng, những thử nghiệm này và quá trình đào tạo mô hình tiếp theo có thể yêu cầu quản lý các tạo phẩm khác nhau – đôi khi là các tập dữ liệu rất lớn. Để làm việc trơn tru giữa dữ liệu và mã, các nhóm này có thể sử dụng lập phiên bản dữ liệu để nắm bắt phiên bản tại thời điểm của các tập dữ liệu lớn đó và cung cấp chúng một cách dễ dàng.
Đẩy các giới hạn
Khi ngày càng có nhiều trường hợp sử dụng AI/ML thành công (hoặc tàu tên lửa) được chế tạo, chúng tôi sẽ tiếp tục đẩy mạnh giới hạn và khả năng ứng dụng của các trường hợp sử dụng máy học. Cho dù nhắm mục tiêu vào các mô hình có độ trễ lớn hay độ trễ thấp, triển khai ở các vị trí biên thực sự, sử dụng các mô hình ngôn ngữ lớn hay AI Sáng tạo, điểm khởi đầu thực sự của đổi mới là nhận ra tầm quan trọng của dữ liệu và hướng tới một doanh nghiệp dựa trên dữ liệu. Điều này sẽ giúp các nhà phân tích và nhà khoa học dữ liệu tập trung vào những gì họ giỏi: lặp đi lặp lại một cách hiệu quả để giải quyết các vấn đề phức tạp về khoa học dữ liệu và giúp đưa những vấn đề đó vào sản xuất. Khi được thực hiện đúng cách, loại tối ưu hóa này sẽ tạo ra giá trị kinh doanh thực sự và có thể nâng năng suất cũng như các trường hợp sử dụng (tàu tên lửa) của bạn lên một tầm cao mới.
Bài viết mới cập nhật
Tăng tốc khối lượng công việc của Hệ thống tệp mạng (NFS) của bạn với RDMA
Giao thức NFS hiện nay được sử dụng rộng rãi trong ...
Mẹo nhanh về dữ liệu phi cấu trúc – OneFS Protection Overhead
Gần đây đã có một số câu hỏi từ lĩnh vực ...
Giới thiệu Dell PowerScale OneFS dành cho Quản trị viên NetApp
Để các doanh nghiệp khai thác được lợi thế của công ...
Cơ sở hạ tầng CNTT: Mua hay đăng ký?
Nghiên cứu theo số liệu của IDC về giải pháp đăng ...