Người ta thường nói rằng ai đó hoặc cái gì đó có “một công việc” để làm. Nhưng khi công việc đó là một ETL, nó giống ba hơn. Quá trình trích xuất-chuyển đổi-tải liên quan đến việc sao chép hoặc di chuyển dữ liệu từ nguồn sang đích, đồng thời làm cho dữ liệu phù hợp hơn cho các truy vấn tiếp theo.
Hãy hình dung một Giám đốc Thông tin (CIO) với một nhóm 500 người, đang cố gắng quản lý 15.000 công việc ETL. Mỗi công việc ETL chịu trách nhiệm thu thập, tổng hợp, chuẩn hóa, sắp xếp và di chuyển dữ liệu trên các hệ thống hoạt động và hướng tới khách hàng của tổ chức. Thêm vào đó, các cửa sổ xử lý hàng loạt bị hạn chế, Thỏa thuận cấp độ dịch vụ (SLA) chặt chẽ và thực tế là nếu bất kỳ công việc ETL nào trong số này không thành công, thì người tiêu dùng dữ liệu xuôi dòng không thể thực hiện công việc của họ. Điều này bao gồm báo cáo quản lý, bảng điều khiển hoạt động, phân tích kinh doanh và khoa học dữ liệu. Về cơ bản, CIO hiện đang hoạt động với tư cách là nhà tích hợp hệ thống của riêng họ—kết hợp các công cụ được xây dựng theo mục đích, được kết nối lỏng lẻo với nhau và xây dựng một cỗ máy Rube Goldberg-eque dễ vỡ để di chuyển dữ liệu đến đúng kho lưu trữ vào đúng thời điểm trên một hệ thống. cơ sở nhất quán.
Nó không phải là một bức tranh đẹp. Hơn nữa, đó là sự thật phũ phàng về quản lý dữ liệu—sự thiếu hiệu quả của chúng đang ảnh hưởng đến khả năng của doanh nghiệp trong việc phản ứng nhanh chóng với những thay đổi liên tục của thị trường, ngành, kinh tế, môi trường và khách hàng cũng như sự gián đoạn kinh doanh. Làm thế nào các doanh nghiệp có thể giải quyết vấn đề lớn này? Làm thế nào chúng ta có thể mong đợi doanh nghiệp hiện đại, dựa trên dữ liệu trở nên linh hoạt – với khả năng đáp ứng nhanh chóng các cơ hội kinh doanh mới – khi các giải pháp quản lý dữ liệu cơ bản dễ vỡ và tập trung vào hàng loạt? Và trong quá trình này, làm cách nào chúng ta có thể chuyển đổi quản lý dữ liệu từ một nhiệm vụ Công nghệ thông tin (CNTT) thành một nguyên tắc lấy doanh nghiệp làm trung tâm để trao quyền cho doanh nghiệp giải phóng giá trị kinh tế của dữ liệu trong tổ chức của họ?
Thực tế quản lý dữ liệu
Hãy bắt đầu với những khó khăn của việc quản lý dữ liệu. Cho người mới bắt đầu:
-
- Người tiêu dùng dữ liệu (nhà phân tích kinh doanh, người tạo báo cáo, nhà khoa học dữ liệu) khó có thể dễ dàng tìm thấy dữ liệu phù hợp cũng như hiểu được mức độ phù hợp và khả năng ứng dụng của nó do khả năng hiển thị dữ liệu kém.
- Người tiêu dùng dữ liệu dành quá nhiều thời gian cho việc tìm kiếm dữ liệu, truy cập dữ liệu, chuẩn bị dữ liệu và lập danh mục thủ công, tất cả các hoạt động cản trở việc khám phá và áp dụng những hiểu biết sâu sắc về khách hàng, sản phẩm và hoạt động đó để thúc đẩy giá trị kinh doanh có thể định lượng.
- Các silo dữ liệu phân tán dẫn đến những hiểu biết riêng biệt và nâng cao hơn để tạo giá trị dữ liệu giữa các silo. (Nói cách khác, dữ liệu không tự nhận dạng).
- Các bộ công cụ khoa học dữ liệu mới, thuật toán AI / ML và khả năng phân tích đang thay đổi nhanh chóng mà khung quản lý dữ liệu phải kích hoạt.
- Các nguồn dữ liệu trùng lặp dẫn đến sự nhầm lẫn trong báo cáo và phân tích, không tin tưởng vào kết quả phân tích và phá hủy tính kinh tế độc đáo của dữ liệu cho phép chia sẻ, tái sử dụng và sàng lọc liên tục tài sản dữ liệu của tổ chức.
- Cuối cùng, sự phát triển nhanh chóng của dữ liệu có độ trễ thấp ở vùng biên do Internet vạn vật (IoT) chỉ làm trầm trọng thêm vấn đề quản lý dữ liệu.
Làm thế nào để bạn vượt qua tất cả những thách thức này?
Giải pháp quản lý dữ liệu thế hệ tiếp theo
Giải pháp quản lý dữ liệu thế hệ tiếp theo yêu cầu một nền tảng tích hợp, đầu cuối (lớp điều phối) bao gồm dữ liệu phân tán, hoạt động với các đường dẫn dữ liệu thông minh (hỗ trợ AI/ML), tự động phát hiện và gắn thẻ dữ liệu, đồng thời tăng tốc kỹ thuật tính năng khoa học dữ liệu và chia sẻ tính năng—tất cả trong khi hỗ trợ các lựa chọn công cụ và vận hành phân tích của người tiêu dùng dữ liệu. Cụ thể, giải pháp quản lý dữ liệu thế hệ tiếp theo phải có khả năng:
-
- Tự động hóa danh mục trực tiếp từ siêu dữ liệu trên các nguồn phân tán.
- Tận dụng các luồng sự kiện và tích hợp AI/ML để tạo các đường dẫn dữ liệu thông minh tự động cập nhật danh mục dữ liệu trong khi vẫn để nguyên dữ liệu nhằm giảm hoặc loại bỏ các quy trình ETL dễ gãy (và tốn kém).
- Nắm bắt các silo dữ liệu và tốc độ tăng trưởng dữ liệu ở biên IoT, bằng cách cho phép xử lý dữ liệu tại chỗ trên các nguồn dữ liệu kết hợp và nhiều đám mây; nghĩa là đưa các ứng dụng và phân tích vào dữ liệu so với quá trình sao chép và di chuyển các tập dữ liệu lớn tốn kém (bạn có nhớ 15.000 công việc ETL đó không?).
- Hỗ trợ Cửa hàng tính năng và một công cụ phân tích và môi trường thời gian chạy với các công cụ của bên thứ ba được tích hợp để hỗ trợ các công cụ lựa chọn của người tiêu dùng dữ liệu.
Sách trắng mới của chúng tôi, Sự thật xấu xí về quản lý dữ liệu và hành trình giải phóng giá trị kinh tế của dữ liệu , phơi bày sự thật xấu xí này và thực tế quản lý dữ liệu mà nó tạo ra cho các doanh nghiệp hiện đại. Sách trắng này sẽ giúp các nhà lãnh đạo doanh nghiệp và các học viên kỹ thuật:
-
- Khám phá những phát triển CNTT cần quản lý dữ liệu hiện đại.
- Thực hiện các thay đổi trong quan điểm định giá và triển khai cần thiết để cho phép quản lý dữ liệu hiện đại.
- Hiểu rõ con đường vượt qua những thách thức này và mở khóa giá trị kinh tế từ dữ liệu trong thập kỷ tới.
Bài viết mới cập nhật
Tăng tốc khối lượng công việc của Hệ thống tệp mạng (NFS) của bạn với RDMA
Giao thức NFS hiện nay được sử dụng rộng rãi trong ...
Mẹo nhanh về dữ liệu phi cấu trúc – OneFS Protection Overhead
Gần đây đã có một số câu hỏi từ lĩnh vực ...
Giới thiệu Dell PowerScale OneFS dành cho Quản trị viên NetApp
Để các doanh nghiệp khai thác được lợi thế của công ...
Cơ sở hạ tầng CNTT: Mua hay đăng ký?
Nghiên cứu theo số liệu của IDC về giải pháp đăng ...