Quản lý dữ liệu với Nền tảng dữ liệu Cloudera trên cơ sở hạ tầng Dell

Lịch sử sửa đổi

Tổng quan

 Bảng 1.  Lịch sử sửa đổi tài liệu 
Số phần Ngày phát hành Mô tả các thay đổi
H18932.2 tháng 5 năm 2023 Đã cập nhật:

  • Phiên bản phần mềm Cloudera CDP Private Cloud Base từ 7.1.7 đến 7.1.7 SP2
  • Cơ sở hạ tầng máy chủ cho thế hệ máy chủ Dell PowerEdge mới
H18932.1 tháng 3 năm 2022 Bao gồm các tài liệu tham khảo về các phiên bản AMD và Intel của Quản lý dữ liệu với Hướng dẫn thiết kế cơ sở đám mây riêng của nền tảng dữ liệu Cloudera . Đã cập nhật các thành phần Đám mây riêng CDP.
H18932 Tháng 10 năm 2021 Phát hành lần đầu. Tài liệu này chứa tài liệu từ tài liệu sách trắng trước đó, có tên Sách trắng cơ sở đám mây riêng của Cloudera CDP .

Tổng quan

CDP Private Cloud Base , trước đây gọi là Trung tâm dữ liệu CDP , là phiên bản tại chỗ của Cloudera Data Platform . Sản phẩm này kết hợp những công nghệ tốt nhất của Cloudera và Hortonworks trước đó , cùng với các tính năng và cải tiến mới. Mặc dù trọng tâm của tài liệu này là Cơ sở đám mây riêng CDP , nhưng nó cũng có thể được triển khai với Dịch vụ dữ liệu đám mây riêng CDP để tạo thành giải pháp Đám mây riêng CDP hoàn chỉnh .

Nền tảng dữ liệu Cloudera ( CDP ) Private Cloud Base là phiên bản tại chỗ của Cloudera Data Platform , một nền tảng quản lý dữ liệu tích hợp được xây dựng cho doanh nghiệp. Với CDP , các doanh nghiệp quản lý và bảo mật vòng đời dữ liệu từ đầu đến cuối – thu thập, làm phong phú, phân tích, thử nghiệm và dự đoán dữ liệu của họ – để thúc đẩy những hiểu biết sâu sắc có thể hành động và đưa ra quyết định dựa trên dữ liệu. Các trường hợp sử dụng kinh doanh có giá trị và mang tính biến đổi nhất đòi hỏi các quy trình phân tích nhiều tầng để xử lý bộ dữ liệu doanh nghiệp. CDP trao quyền cho các doanh nghiệp khai thác giá trị từ dữ liệu quy mô lớn, phức tạp, phân tán và thay đổi nhanh chóng cũng như cạnh tranh trong thời đại chuyển đổi kỹ thuật số.

 

Tóm tắt điều hành

CDP Private Cloud cung cấp khối lượng công việc phân tích, giao dịch và học máy mạnh mẽ trong nền tảng dữ liệu kết hợp. Nó kết hợp sự nhanh nhẹn và linh hoạt của đám mây công cộng với khả năng kiểm soát trung tâm dữ liệu. Với phân tích linh hoạt và lưu trữ đối tượng có thể mở rộng, CDP Private Cloud hiện đại hóa việc triển khai cụm đơn truyền thống thành nền tảng dữ liệu đầu cuối hiệu quả và có thể mở rộng.

CDP Private Cloud Base có thể là một nền tảng phân tích dữ liệu độc lập. Nó cũng có thể được sử dụng với Dịch vụ dữ liệu đám mây riêng CDP để tạo thành giải pháp Đám mây riêng CDP hoàn chỉnh . CDP Private Cloud là một giải pháp kết hợp hoặc đa cụm, trong đó các tác vụ điện toán có thể được tách biệt khỏi việc lưu trữ dữ liệu và có thể truy cập dữ liệu từ các cụm từ xa. Trong trường hợp này, cụm CDP Private Cloud Base được triển khai cùng với Dịch vụ dữ liệu đám mây riêng CDP , một cụm điện toán riêng chạy trên nền tảng container có thể được triển khai với CDP Private Cloud Base. Cách tiếp cận này cung cấp nền tảng cho các ứng dụng được đóng gói bằng cách quản lý lưu trữ, lược đồ bảng, xác thực, ủy quyền và quản trị trong Cơ sở đám mây riêng của CDP . Nó bao gồm nhiều thành phần khác nhau như Hệ thống tệp phân tán Apache Hadoop (HDFS), Apache Hive, Apache HBase và Apache Impala, cùng với nhiều thành phần khác dành cho khối lượng công việc chuyên biệt. Bạn có thể chọn bất kỳ sự kết hợp nào của các dịch vụ này để tạo các cụm giải quyết các yêu cầu kinh doanh và khối lượng công việc phân tích của bạn.

Dell Technologies và Cloudera đã thiết kế và xác nhận hai kiến ​​trúc riêng biệt làm cơ sở để triển khai Cơ sở đám mây riêng CDP ; một trên cơ sở hạ tầng Dell do AMD cung cấp và một trên cơ sở hạ tầng Dell do Intel cung cấp . Cả hai kiến ​​trúc đều dựa trên máy chủ PowerEdge , mạng PowerSwitch và bộ lưu trữ PowerScale để cung cấp cấu hình được tối ưu hóa cho việc triển khai và vận hành CDP Private Cloud Base .

Thế hệ máy chủ PowerEdge mới được xây dựng có mục đích, thông minh và có khả năng phục hồi mạng để tăng tốc quá trình chuyển đổi ở mọi nơi. Khi phạm vi CNTT mở rộng, Dell Technologies đang áp dụng tất cả chuyên môn của mình để cung cấp cơ sở hạ tầng nhằm giải quyết những thách thức và cơ hội mới phát sinh bên ngoài trung tâm dữ liệu truyền thống. Kiến trúc này bao gồm các máy chủ và giải pháp được thiết kế và tối ưu hóa cho khối lượng công việc mới trong các ứng dụng AI, ML và phân tích dữ liệu, đồng thời giải quyết các thách thức về nhiệt và môi trường mới nổi.

Tóm lại, CDP Private Cloud Base là một nền tảng dữ liệu hoàn chỉnh và phiên bản CDP độc lập cho trung tâm dữ liệu tại chỗ, có thể được triển khai trên cơ sở hạ tầng Dell được tối ưu hóa . CDP Private Cloud Base cũng có thể được triển khai cùng với cụm Dịch vụ dữ liệu đám mây riêng CDP để tạo thành Đám mây riêng CDP hoàn chỉnh . Dell Technologies khuyến khích khách hàng CDH và HDP nâng cấp lên Cơ sở đám mây riêng CDP để cải thiện khả năng quản lý dữ liệu doanh nghiệp, cải tiến nền tảng mới và khả năng thêm cụm Dịch vụ dữ liệu khi cần.

 

Mục đích của tài liệu

Sách trắng này cung cấp thông tin tổng quan về nền tảng dữ liệu doanh nghiệp là gì, cùng với các lợi ích và trường hợp sử dụng điển hình. Nó cung cấp mô tả về CDP , bao gồm các cụm thành phần của CDP Private Cloud Base và CDP Private Cloud Data Services . Nó cung cấp mô tả cấp cao về kiến ​​trúc giải pháp cho CDP trên cơ sở hạ tầng của Dell , mô tả chi tiết hơn trong hướng dẫn thiết kế đồng hành. Cuối cùng, nó thảo luận về hành trình đến CDP , bao gồm:

  • Nâng cấp và di chuyển sang CDP Private Cloud Base
  • Mối quan hệ của CDP Private Cloud Base làm nền tảng cho CDP Private Cloud

Để biết thêm thông tin về kiến ​​trúc và thiết kế của giải pháp, hãy xem hướng dẫn thiết kế đồng hành về Quản lý dữ liệu với Cơ sở đám mây riêng của nền tảng dữ liệu Cloudera trên Trung tâm thông tin Dell Technologies cho phân tích dữ liệu :

  • Quản lý dữ liệu với Nền tảng dữ liệu Cloudera trên Hướng dẫn thiết kế cơ sở hạ tầng Dell do AMD cung cấp
  • Quản lý dữ liệu với Nền tảng dữ liệu Cloudera trên Hướng dẫn thiết kế cơ sở hạ tầng Dell do Intel cung cấp

Tài liệu này cũng có thể được sử dụng với tài liệu CDP Private Cloud Base và CDP Private Cloud Data Services trên trang web tài liệu Cloudera .

Dell Technologies và Cloudera đã cộng tác trong gần mười năm để cung cấp cho khách hàng hướng dẫn về phần cứng tối ưu nhằm hợp lý hóa việc thiết kế, lập kế hoạch và cấu hình cho quá trình triển khai Cloudera của họ . Tài liệu này dựa trên kinh nghiệm chung của cả hai công ty trong việc triển khai và vận hành môi trường sản xuất doanh nghiệp.

Khán giả

Tài liệu này dành cho các nhà quản lý trung tâm dữ liệu và kiến ​​trúc sư CNTT có liên quan đến việc thiết kế, lập kế hoạch hoặc vận hành cơ sở hạ tầng phần cứng và phần mềm cho CDP Private Cloud cho:

  • Triển khai mới
  • Nâng cấp hoặc di chuyển từ các phiên bản trước

Tài liệu này giả định bạn đã quen thuộc với các khả năng và chức năng của CDP .

Thách Thức

Tổng quan

Các cân nhắc và yêu cầu đối với việc quản lý dữ liệu không ngừng phát triển, đòi hỏi một nền tảng dữ liệu mở và có thể mở rộng.

 

Điều kiện thị trường

Có những thực tế mới và những thách thức nhất định trong việc quản lý dữ liệu và khối lượng công việc tập trung vào dữ liệu trên toàn doanh nghiệp một cách thống nhất và toàn diện:

  • Các trường hợp sử dụng trước đây tập trung vào việc lưu trữ và xử lý dữ liệu một cách hiệu quả trong các quy trình hàng loạt. Hiện nay, nhu cầu tích hợp toàn bộ vòng đời dữ liệu và xử lý theo đợt và theo thời gian thực ngày càng tăng.
  • Cơ sở hạ tầng công nghệ trước đây yêu cầu tính toán và lưu trữ ở cùng một vị trí để tránh việc chuyển mạng tốn kém. Giờ đây, nhu cầu về phân tích hiệu suất cao thúc đẩy xu hướng tính toán và lưu trữ phân tách, trong đó mỗi nhu cầu có thể được định cỡ và điều chỉnh tỷ lệ một cách độc lập.
  • Từ quan điểm trải nghiệm người dùng, trước đây việc triển khai và chạy theo khung thời gian hàng tuần, hàng tháng hoặc thậm chí hàng quý là có thể chấp nhận được. Giờ đây, kỳ vọng là có thể cung cấp dịch vụ trong vài phút, cung cấp cho người dùng cụm riêng của họ và nhanh chóng nhận được thông tin chi tiết.
  • Từ góc độ quyền riêng tư, bảo mật và quản trị, mối quan tâm chính trước đây là về chu vi mạng và kiểm soát truy cập vật lý. Giờ đây, với toàn bộ vòng đời dữ liệu được quản lý, người vận hành cần xác thực và ủy quyền chi tiết ở khối lượng công việc và lớp dữ liệu.

Sự xuất hiện của nền tảng dữ liệu để quản lý dữ liệu từ đầu đến cuối là một trong những bước phát triển quan trọng nhất trong lĩnh vực phân tích dữ liệu.

 

Những lợi ích

CDP Private Cloud cung cấp khối lượng công việc phân tích, giao dịch và học máy mạnh mẽ trong nền tảng dữ liệu kết hợp. Với lựa chọn phân tích truyền thống và linh hoạt cũng như lưu trữ đối tượng có thể mở rộng, CDP Private Cloud hiện đại hóa việc triển khai cụm nguyên khối truyền thống trong một nền tảng mạnh mẽ và hiệu quả.

CDP Private Cloud cung cấp bước đầu tiên cho khách hàng của trung tâm dữ liệu hướng tới tính di động của dữ liệu và khối lượng công việc thực sự, được quản lý từ một khung duy nhất với khả năng quản trị và bảo mật dữ liệu nhất quán.

Với CDP Private Cloud , các tổ chức được hưởng lợi từ:

  • Thời gian định giá nhanh chóng —thông qua việc đơn giản hóa việc cung cấp các phân tích tự phục vụ, dễ sử dụng chỉ trong vài phút thay vì vài ngày
  • Cải thiện hiệu quả chi phí —với việc sử dụng tài nguyên được tối ưu hóa và tách rời tính toán và lưu trữ
  • Hiệu suất có thể dự đoán được — nhờ khả năng tách biệt khối lượng công việc và quản lý đa nhiệm một cách hoàn hảo

Nền tảng dữ liệu

Tổng quan

Hầu hết mọi người đều rất quen thuộc với các ứng dụng phần mềm, đặc biệt là rất nhiều ứng dụng có sẵn cho thiết bị di động. Các ứng dụng sẵn sàng cung cấp giá trị gần như ngay lập tức sau khi cài đặt. Hãy nghĩ về một cái gì đó giống như một ứng dụng bản đồ có khả năng điều hướng. Bạn cài đặt ứng dụng, bật dịch vụ định vị, nhập địa chỉ và bạn sẽ đến nơi trong vòng chưa đầy năm phút. Ngược lại, nền tảng là công cụ dành cho nhà phát triển ứng dụng. Nền tảng mang lại rất ít lợi ích cho người dùng cuối ngay sau khi cài đặt. Các nhà phát triển ứng dụng trước tiên phải định cấu hình và xây dựng ứng dụng bằng cách sử dụng nền tảng này trước khi người dùng cuối bắt đầu nhận ra giá trị.

Các nhà phát triển đã sử dụng nền tảng trong nhiều thập kỷ. Có một số loại ứng dụng yêu cầu các dịch vụ cốt lõi phức tạp để phát triển nhưng lại hữu ích trên toàn cầu. Trong những trường hợp đó, việc một nhóm các nhà phát triển hệ thống có kinh nghiệm xây dựng một nền tảng để cộng đồng nhà phát triển ứng dụng lớn hơn sử dụng là điều hợp lý. Nhiều nhà phát triển thiếu kỹ năng để tự làm việc đó.

Các nền tảng dữ liệu thành công nhất đều mạnh mẽ và linh hoạt. Hàng triệu nhà phát triển ứng dụng, những người không thể xây dựng nền tảng có thể mở rộng cần thiết để hỗ trợ quản lý dữ liệu cấp doanh nghiệp, có thể sử dụng chúng. Việc phát minh lại bánh xe luôn tốn kém và hiếm khi tạo ra được các phương thức vận chuyển vượt trội. Bất chấp lịch sử đó, nhiều tổ chức vẫn dành nhiều tháng hoặc nhiều năm để suy ngẫm và tạo nguyên mẫu nền tảng dữ liệu độc quyền.

Các nhà phát triển doanh nghiệp có thể được khuyến khích rằng hầu hết các công ty Internet siêu quy mô đã phát triển nền tảng dữ liệu độc quyền để đáp ứng các thách thức về quy mô và ngành cụ thể của họ. Một số công ty này bao gồm Airbnb, Facebook, LinkedIn, Lyft, Netflix, Twitter và Uber.

Các tổ chức này khác với hầu hết các tổ chức doanh nghiệp truyền thống ở một số điểm chính. Họ được sinh ra từ nền tảng đám mây , có nghĩa là nền tảng mà họ đã phát triển sẽ cấu thành nên hoạt động kinh doanh. Họ có thể tuyển dụng và giữ chân những nhân tài hàng đầu có kiến ​​thức nền tảng cần thiết để xây dựng nền tảng. Ngoài ra, họ liên tục bổ sung các khoản đầu tư phát triển ban đầu vốn đã lớn vì nền tảng dữ liệu của họ rất quan trọng đối với đề xuất giá trị chính của họ.

 

Lựa chọn phương pháp quản lý dữ liệu

Đối với hầu hết các tổ chức sẵn sàng phát triển nền tảng dữ liệu độc quyền, cách tiếp cận có nhiều khả năng thành công nhất là áp dụng nền tảng dữ liệu nguồn mở hoặc thương mại đầy đủ tính năng. Tập trung nỗ lực phát triển nội bộ của bạn vào việc tạo ra các ứng dụng phong phú sử dụng các tính năng của nền tảng theo những cách độc đáo và sáng tạo để tăng thêm giá trị cho doanh nghiệp. Một nền tảng dữ liệu tuyệt vời thậm chí có thể cho phép các nhà phát triển có kinh nghiệm thiết kế các giải pháp vượt xa những gì các nhà phát triển hệ thống cốt lõi dự đoán.

Nhiều tổ chức hơn hiểu được tầm quan trọng của việc trích xuất thông tin chi tiết từ dữ liệu. Để đáp lại, các ngành công nghiệp phần mềm thương mại và nguồn mở đã đáp lại bằng một loạt sản phẩm và dịch vụ ngày càng tăng được tiếp thị dưới cái ô nền tảng dữ liệu. Những sản phẩm này bao gồm, trong số những sản phẩm khác:

  • Nền tảng dữ liệu lớn
  • Nền tảng dữ liệu đám mây
  • Nền tảng phân tích dữ liệu
  • Nền tảng quản lý dữ liệu

Đánh giá xem tổ chức của bạn có được hưởng lợi từ việc đầu tư vào nền tảng dữ liệu và sau đó chọn phương pháp tiếp cận hay không, có thể là một nỗ lực phức tạp do có nhiều lựa chọn chồng chéo và cạnh tranh. Trước khi bắt đầu hành trình đó, việc kiểm tra những lợi ích tiềm ẩn có thể khiến thời gian và chi phí đánh giá trở nên đáng giá là rất hữu ích.

 

Ứng dụng nền tảng dữ liệu

Việc sử dụng các phép tương tự đường ống để mô tả công việc dữ liệu là phổ biến. Tuy nhiên, các cuộc thảo luận chung chỉ đi xa trong việc phát triển các chiến lược lựa chọn công cụ và quy trình phù hợp với bất kỳ trường hợp sử dụng cụ thể nào. Bước đầu tiên trong việc quyết định tiềm năng giá trị từ việc áp dụng nền tảng dữ liệu cho tổ chức của bạn là phát triển thư viện đường ống dữ liệu hoàn chỉnh nhất có thể. Hãy nhớ rằng một số nguồn dữ liệu là một phần quan trọng của nhiều quy trình và các nguồn khác có thể dành riêng cho một nhiệm vụ phân tích.

Việc theo dõi các chi tiết này rất quan trọng vì nó ảnh hưởng đến nhu cầu về khả năng mở rộng và độ tin cậy khi xem xét các tính năng của nền tảng dữ liệu. Nó cũng có thể hữu ích để:

  1. Tìm kiếm các mẫu về loại và số bước được yêu cầu trong tất cả các quy trình.
  2. Nhóm các mẫu có nhiều điểm tương đồng.

Bạn có thể thấy rằng một nền tảng không đủ đáp ứng mọi nhu cầu của tổ chức, nhưng trong hầu hết các tình huống đều có nhiều điểm tương đồng.

Hình 1. Đường dẫn dữ liệu chung
Quy trình phân tích dữ liệu chung hiển thị các danh mục chức năng toàn diện cần thiết cho nhiều loại công việc dữ liệu (Thu thập, Làm phong phú, Báo cáo, Cung cấp và Dự đoán).  Chế độ xem cấp cao như thế này là không đủ để đánh giá khoản đầu tư vào nền tảng dữ liệu.  Chi tiết nhiệm vụ cho một danh mục như Thu thập tác động đáng kể đến các tính năng bạn cần từ nền tảng dữ liệu.  Sự đa dạng và phức tạp tiềm tàng của danh mục Enrich thường bị đánh giá thấp trong các công cụ và đánh giá hiệu suất lưu trữ.

Hình trên, Đường dẫn dữ liệu chung , hiển thị các danh mục chức năng đầu cuối được yêu cầu cho nhiều loại công việc dữ liệu. Tuy nhiên, góc nhìn cấp cao như thế này là không đủ để đánh giá khoản đầu tư vào nền tảng dữ liệu. Chi tiết nhiệm vụ cho một danh mục như Thu thập (ví dụ: số lượng và loại nguồn dữ liệu nào) tác động đáng kể đến các tính năng mà bạn cần từ nền tảng dữ liệu. Sự đa dạng và phức tạp tiềm tàng của danh mục Enrich thường bị đánh giá thấp trong các công cụ và đánh giá hiệu suất lưu trữ.

Mỗi danh mục xử lý quy trình từ Đường dẫn dữ liệu chung cũng là thị trường dành cho phần mềm đặc biệt chỉ áp dụng cho danh mục đó. Các nền tảng và ứng dụng chuyên biệt khác nhau có thể sử dụng thuật ngữ khác với các thuật ngữ Thu thập, Làm phong phú, Báo cáo, Cung cấp và Dự đoán như được hiển thị ở đây. Tuy nhiên, các khái niệm và yêu cầu chức năng nói chung là giống nhau.

Nền tảng dữ liệu đáp ứng tất cả hoặc hầu hết các nhu cầu trong đường dẫn dữ liệu của bạn sẽ đơn giản hóa quá trình chuyển từ dữ liệu nguồn thô sang thông tin chuyên sâu. Bất cứ khi nào dữ liệu trong quy trình phải di chuyển giữa các nền tảng thì thực sự có khả năng gây ra sự phức tạp cả trong giai đoạn phát triển và duy trì hoạt động.

Quản lý dữ liệu

Giá trị của việc triển khai một nền tảng dữ liệu mạnh mẽ nằm ở phạm vi rộng của các nguồn và loại dữ liệu. Dữ liệu này có thể chứa thông tin ẩn hoặc tiềm ẩn được kết hợp với một khuôn khổ chung để áp dụng bộ kỹ thuật phân tích dữ liệu đầy đủ. Mặc dù có những ứng dụng phân tích phổ biến mà hầu hết mọi tổ chức đều biết đến, nhưng có lẽ còn rất nhiều hoặc nhiều ứng dụng khác chưa được khám phá và phát triển. Nhiều tổ chức thừa nhận rằng lượng tồn đọng của các ứng dụng được đề xuất dựa một phần vào thông tin phân tích chuyên sâu là rất lớn. Nhiều nguồn dữ liệu trong các tổ chức lớn vẫn chưa được lập hồ sơ chứ chưa nói đến việc nâng cao và hợp nhất thành một hệ thống phân tích. Đường dẫn như vậy cung cấp giá trị vào ứng dụng phần mềm hoặc báo cáo.

Hầu hết dữ liệu số đều có một số loại cấu trúc hoặc thuộc tính chung khi chúng được đưa vào phương tiện lưu trữ. Một số ví dụ bao gồm:

  • Âm thanh có tốc độ bit và dải tần số.
  • Các tệp có thuộc tính kích thước và loại tệp (ứng dụng, văn bản, nhị phân).
  • Hình ảnh có kích thước chiều và mã hóa độ sâu màu.
  • Các tệp văn bản có sơ đồ mã hóa.

Những đặc điểm này tác động đến các yêu cầu đối với nền tảng dữ liệu. Một số hệ thống tệp phù hợp hơn để xử lý nhiều tệp nhỏ trong khi các hệ thống khác lại tốt hơn với ít tệp lớn hơn. Đối với âm thanh và dữ liệu dựa trên luồng khác , kỹ sư dữ liệu có thể lựa chọn kích thước bộ đệm và đặc điểm tạo tệp phải phù hợp với khả năng của nền tảng. Chúng cũng có thể tác động đến sự phức tạp của việc sử dụng dữ liệu để phân tích.

Nếu bạn có thêm kiến ​​thức về các giai đoạn cuối cùng về giao diện của quy trình phân tích, bạn có thể xây dựng thêm thông tin thông minh cho các giai đoạn đầu của quá trình quản lý dữ liệu. Nếu có thể, một lĩnh vực nên chống lại là “lấy mẫu xuống” dữ liệu vì khả năng hoặc ưu tiên của các yêu cầu lập mô hình và báo cáo. Mặc dù việc lưu trữ dữ liệu có độ chính xác cao khi không cần thiết để phân tích có vẻ lãng phí nhưng hãy coi đó như một chính sách bảo hiểm để bảo vệ trước những yêu cầu phân tích thay đổi. Việc lưu trữ dữ liệu ở dạng phù hợp nhất có thể với quy trình tạo dữ liệu có thể cung cấp nhiều manh mối nếu các câu hỏi liên quan đến độ tin cậy hoặc chất lượng dữ liệu nảy sinh sau này. Bạn luôn có thể xem xét việc sử dụng lấy mẫu xuống hoặc các hình thức nén khác làm mất thông tin để lưu trữ.

Một khía cạnh khác của quản lý dữ liệu khiến các chuyên gia CNTT ngạc nhiên là bộ nhớ cần thiết để quản lý nhiều bản sao dữ liệu đang được sử dụng để phân tích. Ngay cả những chuyên gia khoa học dữ liệu dày dặn kinh nghiệm nhất cũng sử dụng nhiều bản sao dữ liệu có vẻ ngoài giống hệt nhau. Có một số lý do quan trọng tại sao tình huống này là cần thiết:

  1. Cả báo cáo và phát triển mô hình phải được tách biệt khỏi sự thay đổi không kiểm soát được. Bản sao ban đầu này thường là bản sao trực tiếp của nguồn với ít hoặc không có sự biến đổi. Biện pháp này đảm bảo rằng các nhà phát triển luôn có thể quay lại phiên bản dữ liệu thực tế. Dữ liệu đó có thể được sử dụng để so sánh các sơ đồ chuyển đổi thay thế có độ lặp lại.
  2. Quản lý các phép biến đổi thay thế. Một mô hình phổ biến là nhóm và đếm các sự kiện theo nhiều yếu tố khác nhau như thời gian, địa lý, phân khúc thị trường, v.v., cũng như các phép biến đổi để làm sạch và chuẩn hóa dữ liệu.
  3. Hiệu quả. Các quy trình chuyển đổi dữ liệu phức tạp sẽ được phát triển theo từng giai đoạn. Có thể sẽ không hiệu quả nếu quay lại dữ liệu nguồn để thử nghiệm một nhóm nhiệm vụ gia tăng ở giai đoạn cuối của quy trình. Các nhà khoa học dữ liệu có thể ưu tiên thực hiện các bước trung gian để giảm độ phức tạp và đầu tư thời gian để vận hành quy trình ngay từ đầu.

Danh sách này không đầy đủ nhưng sẽ cung cấp một số cách để đánh giá quy mô của nền tảng dữ liệu. Quan trọng hơn, nó có thể giúp bạn đánh giá tính linh hoạt sẵn có cho việc mở rộng và phân cấp dung lượng lưu trữ mà các nền tảng ứng viên cung cấp. Một yêu cầu khác xuất phát một phần từ thách thức quản lý sao chép dữ liệu là theo dõi siêu dữ liệu có liên quan đến lịch sử và logic chuyển đổi. Việc tạo nhiều bản sao của cùng một dữ liệu có vẻ hợp lý khi đang vận hành một dự án, nhưng sẽ khó xác định lý do tại sao sáu tháng sau đó.

Mối quan tâm ngày càng tăng đối với các nền tảng bao gồm các cửa hàng tính năng . Khái niệm này nhằm mục đích theo dõi logic và siêu dữ liệu tốt hơn, đồng thời thúc đẩy cách tiếp cận phân tách hơn để quản lý dữ liệu. Nếu sự khác biệt duy nhất giữa hai tập dữ liệu là cách quản lý thứ nguyên khách hàng thì bạn nên giữ hai bản sao của tính năng đó thay vì hai bản sao của toàn bộ tập dữ liệu. Ví dụ đơn giản này giải thích ý tưởng cơ bản. Việc sử dụng lại logic chuyển đổi để quản lý các thứ nguyên được sử dụng thường xuyên một cách độc lập với tất cả các tính năng khác có thể đơn giản hóa rất nhiều việc quản lý dữ liệu. Các ví dụ bao gồm khách hàng và sản phẩm cũng như tất cả các bộ dữ liệu phân tích khác mà chúng được sử dụng.

 

Các trường hợp sử dụng ví dụ

Danh sách các trường hợp sử dụng tiềm năng mà nền tảng dữ liệu đầy đủ tính năng có thể giải quyết gần như vô hạn. Chỉ nhìn vào sự giao thoa giữa loại hình ngành, nguồn dữ liệu, chức năng kinh doanh và giá trị là một danh sách quá lớn để ghi lại. Danh sách sau đây cung cấp một số ý nghĩa về các trường hợp sử dụng phổ biến mà Dell Technologies thường gặp nhất:

  • Phân tích khách hàng 360
  • Hợp nhất kho dữ liệu
  • Tối ưu hóa giá chiết khấu
  • Phòng chống gian lận thương mại điện tử
  • Các dịch vụ tài chính
  • Phân tích dự đoán ngành bảo hiểm
  • Phân tích hoạt động sản xuất
  • Tình báo an ninh mạng
  • Công cụ đề xuất
  • Phân tích hàng tồn kho và doanh số bán lẻ
  • Phân tích và tương tác trên mạng xã hội

Một phương pháp kinh doanh tốt là duy trì một danh sách tích cực các trường hợp sử dụng tiềm năng trong đó sự sẵn có của nền tảng dữ liệu có thể thúc đẩy sự phát triển. Đánh giá danh sách để ưu tiên các trường hợp sử dụng phù hợp cho doanh nghiệp của bạn. Hãy lưu ý không giải quyết quá sớm quá nhiều trường hợp sử dụng có mức độ ưu tiên cao và đầu tư cao cho đến khi thiết lập được nền tảng vững chắc.

Tài liệu này mô tả chi tiết hơn hai trường hợp sử dụng này: dịch vụ tài chính và sản xuất.

Các dịch vụ tài chính

Dịch vụ tài chính bao gồm nhiều mô hình kinh doanh, bao gồm:

  • Ngân hàng tiêu dùng và thương mại
  • Quản lý tài sản cá nhân
  • Thị trường vốn sơ cấp hoặc thứ cấp

Tầm quan trọng của quản lý mối quan hệ được chia sẻ trên tất cả các doanh nghiệp này và do đó đã trở thành lĩnh vực trọng tâm chính để phân tích. Hầu như tất cả các tổ chức dịch vụ tài chính vừa và lớn đều có một hoặc nhiều nền tảng dữ liệu. Áp lực cạnh tranh gay gắt với những người chơi khác khiến việc tìm kiếm, đảm bảo, duy trì và nuôi dưỡng mối quan hệ với khách hàng trở thành ưu tiên hàng đầu thúc đẩy lợi nhuận. Ngoài ra còn có yêu cầu quản lý rủi ro đầu tư và đảm bảo tuân thủ tất cả các yêu cầu pháp lý, thường liên quan đến nhiều khu vực pháp lý chồng chéo.

Mặc dù các mối quan hệ cá nhân vẫn quan trọng, nhưng việc lập mô hình và báo cáo theo hướng dữ liệu trên nhiều kênh bao gồm di động, trực tuyến, điện thoại hoặc đại lý chi nhánh là điều bắt buộc đối với các tổ chức này. Các tổ chức xây dựng niềm tin bằng cách trang bị cho tổ chức thông tin dựa trên dữ liệu sẽ làm tăng niềm tin của khách hàng, cùng với chia sẻ ví và giá trị trọn đời. Để đạt được điều đó trên quy mô toàn cầu, bạn phải tận dụng dữ liệu lớn và phân tích dự đoán bằng cách sử dụng nền tảng dữ liệu lai hiện đại và đã được chứng minh.

Chế tạo

Công nghiệp 4.0 là một thuật ngữ mới nổi có nghĩa là sản xuất thông minh. Các công nghệ tiên tiến được kết hợp với phương pháp sản xuất và công nghiệp truyền thống để nâng cao hiệu quả hoạt động trên diện rộng. Những đổi mới và thành công được ghi nhận của các sáng kiến ​​Công nghiệp 4.0 đang khuyến khích nhiều công ty sản xuất hơn áp dụng các khái niệm và công nghệ Internet vạn vật công nghiệp (IIoT). Việc áp dụng như vậy làm thay đổi việc phát triển sản phẩm, chuỗi cung ứng và hoạt động sản xuất.

Nhiều nghiên cứu điển hình gần đây cho thấy rằng việc kết nối phân tích các sản phẩm thông minh, kỹ thuật thiết kế, vận hành sàn nhà máy và trải nghiệm của khách hàng giúp rút ngắn thời gian đưa sản phẩm ra thị trường, cải thiện chất lượng sản phẩm và mở rộng quy mô sản lượng sản xuất. Nó cũng làm giảm chất thải và chi phí vận hành. Các sản phẩm được kết nối là một sáng kiến ​​quan trọng của Công nghiệp 4.0. Khả năng kết nối mà các sản phẩm này mang lại sẽ thúc đẩy sự hài lòng của khách hàng và doanh thu, đồng thời định hình lại mối quan hệ giữa con người và sản phẩm.

Để đạt được những lợi ích này đòi hỏi khả năng tiếp thu, xử lý và phân tích khối lượng dữ liệu IoT đôi khi rất lớn. Thang xử lý dữ liệu này cho phép các nhà sản xuất tiếp cận phản hồi của khách hàng gần như theo thời gian thực để xác định các vấn đề về chất lượng sản phẩm. Một lĩnh vực đang phát triển khác của Công nghiệp 4.0 là quản lý chuỗi cung ứng thông minh. Sự gián đoạn và chậm trễ trong chuỗi cung ứng quan trọng sẽ ảnh hưởng đến tổ chức từ khâu bán hàng đến vận hành.

Nhiều nhà sản xuất đang sử dụng dữ liệu, phân tích và học máy gần thời gian thực để đảm bảo chuỗi cung ứng hoạt động tốt trong khi rủi ro được quản lý từ đầu đến cuối. Kết hợp với nền tảng dữ liệu hiện đại hỗ trợ phân tích nâng cao, bao gồm cả khả năng học máy, các khoản đầu tư cần thiết để tận dụng những cải tiến mới nhất này trong sản xuất bao gồm:

  • GPS
  • Dữ liệu luồng sản xuất
  • RFID
  • Cảm biến mục đích đặc biệt