Người tích trữ dữ liệu phải làm gì?

Vì vậy, bạn bị chôn vùi trong dữ liệu, không đủ khả năng mở rộng, hiệu suất của bạn kém và ngày càng tệ hơn và người dùng của bạn không thể tìm thấy thứ họ cần. Đúng, đó là một cơn sóng dữ liệu là nguyên nhân sâu xa gây ra vấn đề của bạn. Bạn xin lời khuyên của mẹ và mẹ nói “Sao con không xem chương trình truyền hình có tên Hoarders?” Bạn xem một vài tập và có thể liên tưởng đến vấn đề nhưng chúng không đưa ra giải pháp nào đáng kể cho dữ liệu dư thừa của chúng ta. Sau đó, bạn nói chuyện với Mike King ở Dell và anh ấy nói “Vấn đề đó đã xảy ra kể từ ENIAC “. Điểm mấu chốt là hầu hết tất cả các hệ thống đều được thiết kế để lưu trữ một số loại dữ liệu nhất định trong một khoảng thời gian xác định trước (lưu giữ). Nếu bạn không có quy tắc ghi nhớ thì bạn đã thất bại trong vai trò kiến ​​trúc sư. Giải pháp tích trữ dữ liệu được phát triển gần đây hơn nhiều trong khoảng 40 năm qua. Lần đầu tiên nó được gọi là lưu trữ dữ liệu. Thuật ngữ đó ngày nay vẫn được một số người sử dụng. Khái niệm này thực sự đơn giản, lấy dữ liệu không còn cần thiết và xóa nó khỏi hệ thống hồ sơ. Nếu dữ liệu vẫn cần thiết nhưng ít thường xuyên hơn thì dữ liệu đó sẽ được chuyển sang hình thức lưu trữ rẻ hơn. Môn đồ phát triển xung quanh phương pháp này lần đầu tiên được gọi là quản lý vòng đời dữ liệu (DLM) và sau đó là quản lý vòng đời thông tin (ILM). ILM xem xét nhiều khía cạnh khác của quy trình lưu trữ theo nghĩa tổng thể hơn, bao gồm chính sách, quản trị, phân loại, truy cập, tuân thủ, lưu giữ, biên tập, quyền riêng tư, thu hồi, truy vấn, v.v. Chúng tôi sẽ không đề cập đến tất cả nội dung ILM trong bài viết này.

Hãy lấy một ví dụ cụ thể để bắt đầu. Chúng tôi có một ngân hàng khu vực tên là Happy Piggy Bank. Họ kinh doanh ở 30 tiểu bang và hỗ trợ các ứng dụng ERP như Oracle EBS, cơ sở dữ liệu như Greenplum & SingleStore để phân tích và hadoop cho kho dữ liệu tích hợp và nền tảng AI. EBS db có sáu năm dữ liệu và 600TB dữ liệu. DB Greenplum có dung lượng khoảng 1PB và chỉ lưu trữ dữ liệu trong 90 ngày. SingleStore mới nhưng họ có kế hoạch lớn và hiện tại nó ở mức 200TB nhưng sẽ tăng lên 3PB sau một năm. Hadoop là loại lớn nhất và có các báo cáo tài khoản và giao dịch chi tiết trong 10 năm trở lại đây và lưu trữ 10PB dữ liệu thô. Chỉ db Greenplum mới có chương trình thanh lọc chính thức được viết và đưa vào sản xuất. Cả môi trường hadoop và EBS đều không có chương trình thanh lọc. Trình tự đầu tiên của công việc kinh doanh là xác định lượng dữ liệu họ nên hoặc cần giữ lại. Đây chủ yếu là một hoạt động kinh doanh. Bước tiếp theo là xác định các mẫu truy cập. Để thực hiện lưu trữ dữ liệu, người ta cần xác định phần hoạt động của dữ liệu. Trong hầu hết các hệ thống, có lẽ 99% quyền truy cập bị hạn chế ở một phần nhỏ hơn của quá trình lưu giữ liên tục. Hãy xem xét EBS db đó và đó là sáu năm dữ liệu. Chúng tôi có thể chạy một số báo cáo và thực hiện một số phân tích và rất có thể 90% dữ liệu chưa đầy 6 tháng và giả sử 99% là chưa đầy 1 năm. Trong trường hợp này, chúng ta nên nhắm mục tiêu 5 năm lưu giữ lâu nhất (83% dữ liệu hoặc 498 TB cơ sở dữ liệu) để di chuyển sang nền tảng hiệu quả hơn về mặt chi phí. Theo cách tương tự, chúng tôi xác định rằng 60% dữ liệu hadoop được truy cập ít hơn 1% thời gian, vì vậy đó là đoạn 6PB mà chúng tôi có thể loại bỏ khỏi hệ thống hadoop. Vì vậy, đối với Happy Piggy Bank, chúng tôi đã xác định rằng chúng tôi có thể xóa 6,5PB dữ liệu khỏi hai hệ thống, điều này sẽ mang lại những lợi ích sau:

  1. Phòng cho sự phát triển trong tương lai sẽ được tạo ra trong các hệ thống nguồn
  2. Hiệu suất sẽ được cải thiện trong các hệ thống này
  3. Chi phí lưu trữ dữ liệu tổng thể sẽ giảm
  4. Hệ thống nguồn sẽ dễ quản lý hơn
  5. Chúng tôi có thể sẽ tránh được việc tăng phí cấp phép phần mềm cho Oracle và hadoop so với việc không làm gì

Vậy bạn hỏi giải pháp có thể là gì? Enter Versity là đối tác của Dell Technologies được kích hoạt thông qua kênh OEM của chúng tôi. Versity là một giải pháp lưu trữ đầy đủ tính năng cho phép:

  • Lưu trữ song song hiệu suất cao
  • Bao gồm nhiều ứng dụng, cơ sở dữ liệu và những thứ tương tự
  • Lưu trữ dữ liệu theo ba tầng liên tiếp (cục bộ, NAS & đối tượng)
  • Hỗ trợ thu hồi có chọn lọc

Cơ sở hạ tầng bao gồm:

  • Phần mềm đa dạng
  • Máy chủ PE 15G như R750s
  • Mảng gắn cục bộ PowerVault
  • Thiết bị NAS PowerScale
  • Thiết bị đối tượng ECS

Một bài đăng trong tương lai sẽ cung cấp thêm thông tin chi tiết về giải pháp này có thể trông như thế nào đối với Happy Piggy Bank.

Versity nhắm đến những khách hàng có 5PB dữ liệu trở lên có thể được lưu trữ.