Trong số các tính năng và chức năng được cung cấp trong bản phát hành OneFS 9.4 mới là việc thúc đẩy tính năng khử trùng lặp nội tuyến được bật theo mặc định, giúp nâng cao hơn nữa tính kinh tế trên mỗi TB, mật độ giá đỡ và giá trị của PowerScale.
Một phần của bộ giảm dữ liệu OneFS, in-line dedupe ban đầu ra mắt trong OneFS 8.2.1. Tuy nhiên, nó được bật thủ công, vì vậy nhiều khách hàng đơn giản là không sử dụng nó. Nhưng với cải tiến này, các cụm mới chạy OneFS 9.4 hiện đã bật in-line dedupe theo mặc định.
| Cấu hình cụm | Loại bỏ trùng lặp trong dòng | Nén trong dòng |
| Cụm mới chạy OneFS 9.4 | Đã bật | Đã bật |
| Cụm mới chạy OneFS 9.3 hoặc phiên bản cũ hơn | Tàn tật | Đã bật |
| Cụm có chức năng khử trùng lặp nội tuyến được nâng cấp lên OneFS 9.4 | Đã bật | Đã bật |
| Cụm có chức năng khử trùng lặp nội tuyến bị vô hiệu hóa được nâng cấp lên OneFS 9.4 | Tàn tật | Đã bật |
Nói như vậy, bất kỳ cụm nào nâng cấp lên 9.4 sẽ không thấy bất kỳ thay đổi nào đối với cấu hình khử trùng lặp nội tuyến hiện tại của chúng trong quá trình nâng cấp. Ngoài ra, cũng không có thay đổi nào đối với hành vi nén nội tuyến, vẫn được bật theo mặc định trong tất cả các phiên bản OneFS từ 8.1.3 trở đi.
Nhưng trước khi xem xét những thay đổi sâu sắc trong OneFS 9.4, chúng ta hãy cùng xem lại nhanh về cách loại bỏ trùng lặp.
Hiện tại, tính năng giảm dữ liệu trực tuyến OneFS, bao gồm nén, loại bỏ trùng lặp và loại bỏ khối bằng không, được hỗ trợ trên các nút toàn flash F900, F600 và F200, cùng với khung máy F810, H5600, H700/7000 và A300/3000 Gen6.x.

Trong quy trình giảm dữ liệu OneFS, việc loại bỏ khối không được thực hiện trước, sau đó là loại bỏ trùng lặp và sau đó là nén. Thứ tự này cho phép mỗi giai đoạn giảm phạm vi công việc trong mỗi giai đoạn tiếp theo.
Không giống như SmartDedupe, thực hiện khử trùng lặp sau khi dữ liệu được ghi vào đĩa hoặc xử lý sau, khử trùng lặp trực tuyến hoạt động theo thời gian thực, khử trùng lặp dữ liệu khi được đưa vào cụm. Hiệu quả lưu trữ đạt được bằng cách quét dữ liệu để tìm các khối giống hệt nhau khi nhận được và sau đó loại bỏ các bản sao.

Khi in-line dedupe phát hiện ra một khối trùng lặp, nó sẽ di chuyển một bản sao duy nhất của khối đó đến một tập hợp các tệp đặc biệt được gọi là shadow stores. Đây là các container hệ thống tệp cho phép dữ liệu được lưu trữ theo cách có thể chia sẻ. Do đó, các tệp được lưu trữ trong OneFS có thể chứa cả dữ liệu vật lý và con trỏ hoặc tham chiếu đến các khối được chia sẻ trong shadow stores.
Shadow store tương tự như các tệp thông thường nhưng bị ẩn khỏi không gian tên hệ thống tệp, do đó không thể truy cập chúng thông qua tên đường dẫn. Shadow store thường tăng lên kích thước tối đa là 2 GB, tức là khoảng 256 K khối và mỗi khối có thể được 32.000 tệp tham chiếu. Nếu đạt đến giới hạn số lượng tham chiếu, một khối mới sẽ được phân bổ, có thể hoặc không nằm trong cùng một shadow store. Ngoài ra, shadow store không tham chiếu đến các shadow store khác. Và ảnh chụp nhanh của shadow store không được phép vì dữ liệu chứa trong shadow store không thể bị ghi đè.
Khi một máy khách ghi một tệp vào một nhóm nút được cấu hình để khử trùng lặp nội tuyến trên một cụm, hoạt động ghi được chia thành các khối 8 KB. Mỗi khối được băm và ‘dấu vân tay’ mật mã của nó được so sánh với chỉ mục trong bộ nhớ để tìm sự trùng khớp. Tại thời điểm này, một trong những điều sau đây sẽ xảy ra:
- Nếu phát hiện ra sự trùng khớp với khối lưu trữ bóng hiện có, một phép so sánh từng byte sẽ được thực hiện. Nếu phép so sánh thành công, dữ liệu sẽ bị xóa khỏi thao tác ghi hiện tại và được thay thế bằng tham chiếu bóng.
- Khi tìm thấy sự trùng khớp với LIN khác, dữ liệu sẽ được ghi vào kho lưu trữ bóng thay thế và được thay thế bằng tham chiếu bóng. Tiếp theo, một yêu cầu công việc được tạo và xếp hàng bao gồm vị trí cho khối kho lưu trữ bóng mới, LIN và khối khớp, và hàm băm dữ liệu. So sánh dữ liệu từng byte được thực hiện để xác minh sự trùng khớp và sau đó yêu cầu được xử lý.
- Nếu không tìm thấy kết quả khớp, dữ liệu sẽ được ghi vào tệp gốc và mã băm cho khối sẽ được thêm vào chỉ mục trong bộ nhớ.
Để thực hiện chức năng loại bỏ trùng lặp nội tuyến trên thao tác ghi, các điều kiện sau đây phải đúng:
- Tính năng loại bỏ trùng lặp nội tuyến phải được bật trên toàn cụm.
- Hoạt động hiện tại là ghi dữ liệu (không phải hoạt động cắt bớt hoặc ghi số không).
- Cờ no_dedupe không được thiết lập trên tệp.
- Tệp này không phải là loại tệp đặc biệt, chẳng hạn như luồng dữ liệu thay thế (ADS) hoặc tệp EC (bộ nhớ đệm bền bỉ).
- Ghi dữ liệu bao gồm các khối được ghi đè và căn chỉnh hoàn toàn.
- Việc ghi không phải là một phần của hoạt động bù nước .
- Tệp chưa được đóng gói (đựng trong container) theo hiệu quả lưu trữ tệp nhỏ (SFSE).
OneFS in-line dedupe sử dụng thuật toán CityHash 128-bit, vừa nhanh vừa mạnh về mặt mật mã. Điều này trái ngược với OneFS post-process SmartDedupe, sử dụng băm SHA-1.
Mỗi nút trong cụm có chức năng in-line dedupe được bật có chỉ mục băm trong bộ nhớ riêng để so sánh dấu vân tay khối . Chỉ mục nằm trong RAM hệ thống và được phân bổ bằng các trang liền kề vật lý và được truy cập trực tiếp bằng địa chỉ vật lý. Điều này tránh được nhu cầu duyệt qua các ánh xạ bộ nhớ ảo và không phải chịu chi phí cho các lỗi bộ đệm tra cứu dịch thuật (TLB), giảm thiểu tác động đến hiệu suất dedupe.
Kích thước tối đa của chỉ mục băm được điều chỉnh bởi một cặp thiết lập sysctl, một trong số đó giới hạn kích thước ở mức 16 GB và thiết lập còn lại giới hạn kích thước tối đa ở mức 10% tổng RAM. Áp dụng ràng buộc nghiêm ngặt nhất trong hai ràng buộc này. Mặc dù các thiết lập này có thể cấu hình được, nhưng biện pháp tốt nhất được khuyến nghị là sử dụng cấu hình mặc định. Bất kỳ thay đổi nào đối với các thiết lập này chỉ nên được thực hiện dưới sự giám sát của bộ phận hỗ trợ của Dell.
Vì in-line dedupe và SmartDedupe sử dụng các thuật toán băm khác nhau, nên các chỉ mục cho mỗi thuật toán không được chia sẻ trực tiếp. Tuy nhiên, công việc do mỗi giải pháp dedupe thực hiện có thể được sử dụng bởi nhau. Ví dụ, nếu SmartDedupe ghi dữ liệu vào một kho lưu trữ bóng, khi các khối đó được đọc, thành phần băm đọc của in-line dedupe sẽ nhìn thấy các khối đó và lập chỉ mục cho chúng.
Khi tìm thấy sự trùng khớp, in-line dedupe sẽ thực hiện so sánh từng byte của từng khối được chia sẻ để tránh khả năng xảy ra xung đột băm. Dữ liệu được tải trước trước khi kiểm tra từng byte và được so sánh trực tiếp với bộ đệm bộ đệm L1, tránh sao chép dữ liệu không cần thiết và giảm thiểu chi phí. Sau khi các khối khớp được so sánh và xác minh là giống hệt nhau, chúng được chia sẻ bằng cách ghi dữ liệu khớp vào một kho lưu trữ bóng chung và tạo tham chiếu từ các tệp gốc đến kho lưu trữ bóng này.

In-line dedupe lấy mẫu mọi khối toàn bộ được viết và xử lý từng khối một cách độc lập, do đó có thể định vị khối trùng lặp một cách chủ động. Nếu phát hiện một chuỗi khối trùng khớp liền kề, in-line dedupe sẽ hợp nhất các kết quả thành các vùng và xử lý chúng một cách hiệu quả.
In-line dedupe cũng phát hiện các cơ hội dedupe từ đường dẫn đọc và các khối được băm khi chúng được đọc vào bộ đệm L1 và được chèn vào chỉ mục. Nếu một mục hiện có tồn tại cho hàm băm đó, in-line dedupe biết rằng có một cơ hội chia sẻ khối giữa khối mà nó vừa đọc và khối đã được lập chỉ mục trước đó. Nó kết hợp thông tin đó và xếp hàng một yêu cầu đến một luồng công nhân dedupe không đồng bộ. Như vậy, có thể dedupe một tập dữ liệu chỉ bằng cách đọc tất cả. Để giúp giảm thiểu tác động đến hiệu suất, việc băm được thực hiện ngoài băng thông trong đường dẫn tải trước, thay vì trong đường dẫn đọc nhạy cảm với độ trễ.
Thiết kế đường dẫn điều khiển khử trùng lặp nội tuyến ban đầu có những hạn chế của nó, vì nó không cung cấp các thiết lập điều khiển gconfig cho khử trùng lặp nội tuyến bị vô hiệu hóa mặc định. Logic đường dẫn điều khiển trước đó không có thiết lập điều khiển gconfig cho khử trùng lặp nội tuyến bị vô hiệu hóa mặc định. Nhưng trong OneFS 9.4, hiện có hai tính năng riêng biệt tương tác với nhau để phân biệt giữa cụm mới hoặc nâng cấp lên cấu hình cụm hiện có:
Đối với tính năng đầu tiên, khi nâng cấp lên 9.4 trên một cụm hiện có, nếu không có cấu hình khử trùng lặp nội tuyến, bản nâng cấp sẽ đặt rõ ràng thành vô hiệu hóa trong gconfig. Điều này không ảnh hưởng đến cụm hiện có vì nó đã bị vô hiệu hóa. Tương tự, nếu cụm nâng cấp đã có cài đặt khử trùng lặp nội tuyến hiện có trong gconfig, OneFS sẽ không thực hiện hành động nào.
Đối với một nửa chức năng còn lại, khi khởi động OneFS 9.4, một nút sẽ tìm trong gconfig để xem có cài đặt khử trùng lặp nội tuyến hay không. Nếu không có cấu hình nào, OneFS sẽ bật theo mặc định. Do đó, các cụm OneFS 9.4 mới sẽ tự động bật khử trùng lặp và các cụm hiện có sẽ giữ nguyên cài đặt cũ khi nâng cấp.
Vì cấu hình khử trùng lặp nội tuyến là nhị phân (bật hoặc tắt trên toàn bộ cụm), bạn có thể dễ dàng kiểm soát thủ công thông qua giao diện dòng lệnh OneFS (CLI). Do đó, lệnh isi dedupe inline settings modify CLI có thể bật hoặc tắt khử trùng lặp tùy ý—trước, trong hoặc sau khi nâng cấp. Điều đó không quan trọng.
Ví dụ, bạn có thể vô hiệu hóa toàn cục tính năng khử trùng lặp nội tuyến và xác minh nó bằng lệnh CLI sau:
# isi dedupe inline settings viewMode: enabled# isi dedupe inline settings modify –-mode disabled # isi dedupe cài đặt nội tuyến xem Chế độ: vô hiệu hóa
Tương tự như vậy, cú pháp sau cho phép loại bỏ trùng lặp nội tuyến:
# isi dedupe cài đặt nội tuyến xem Chế độ: vô hiệu hóa # isi dedupe cài đặt nội tuyến sửa đổi –-mode được bật # isi dedupe cài đặt nội tuyến xem Chế độ: bật
Mặc dù không có thay đổi nào về không gian người dùng khi các tệp được loại bỏ trùng lặp, nhưng nếu loại bỏ trùng lặp đã xảy ra, cả mức sử dụng đĩa và số liệu khối vật lý được báo cáo bởi lệnh CLI isi get –DD đều giảm. Ngoài ra, ở cuối đầu ra của lệnh, số liệu thống kê khối logic báo cáo số khối bóng. Ví dụ:
Khối logic của Metatree: zero=260814 shadow=362 ditto=0 prealloc=0 block=2 compression=0
Tính năng loại bỏ trùng lặp nội tuyến cũng có thể được tạm dừng từ CLI:
# isi dedupe thiết lập nội tuyến sửa đổi –-mode đã tạm dừng # isi dedupe cài đặt nội tuyến xem Chế độ: tạm dừng
Tuy nhiên, cần lưu ý rằng thiết lập toàn cục này nêu rõ những gì bạn muốn xảy ra, sau đó mỗi nút sẽ cố gắng thực hiện cấu hình mới. Tuy nhiên, nó không thể đảm bảo thay đổi, vì không phải tất cả các loại nút đều hỗ trợ in-line dedupe. Ví dụ, đầu ra sau đây là từ một cụm không đồng nhất với nhóm ba nút F200 hỗ trợ in-line dedupe và nhóm bốn nút H400 không hỗ trợ.
Tại đây, chúng ta có thể thấy tính năng khử trùng lặp nội tuyến được bật trên toàn cụm:
# isi dedupe cài đặt nội tuyến xem Chế độ: bật
Tuy nhiên, bạn có thể sử dụng lệnh isi_for_array isi_inline_dedupe_status để hiển thị cài đặt và trạng thái thực tế của mỗi nút:
# isi dedupe cài đặt nội tuyến xem Chế độ: bật # isi_for_array -s isi_inline_dedupe_status 1: OK Cài đặt nút được bật là chính xác 2: OK Cài đặt nút được bật là chính xác 3: OK Cài đặt nút được bật là chính xác 4: OK Node không hỗ trợ khử trùng lặp nội tuyến và hiện tại bị vô hiệu hóa 5: OK Node không hỗ trợ khử trùng lặp nội tuyến và hiện tại bị vô hiệu hóa 6: OK Node không hỗ trợ khử trùng lặp nội tuyến và hiện tại bị vô hiệu hóa 7: OK Node không hỗ trợ khử trùng lặp nội tuyến và hiện tại bị vô hiệu hóa
Ngoài ra, mọi thay đổi đối với cấu hình loại bỏ trùng lặp cũng được ghi vào /var/log/messages, bạn có thể tìm thấy chúng bằng cách tìm kiếm inline_dedupe .
Tóm lại, nén nội tuyến luôn được bật theo mặc định kể từ khi giới thiệu trong OneFS 8.1.3. Đối với các cụm mới chạy 9.4 trở lên, inline dedupe được bật theo mặc định. Đối với các cụm chạy 9.3 trở về trước, inline dedupe vẫn bị tắt theo mặc định. Và các cụm hiện có nâng cấp lên 9.4 sẽ không thấy bất kỳ thay đổi nào đối với cấu hình inline dedupe hiện tại của chúng trong quá trình nâng cấp.
Và đây là ma trận hỗ trợ nền tảng giảm dữ liệu trực tuyến OneFS để minh họa rõ hơn:


Bài viết mới cập nhật
Dell Storage Engines: Tăng tốc suy luận AI với PowerScale và ObjectScale
Giải pháp chuyển tải bộ nhớ đệm KV của Dell cho ...
Bảo vệ Nhà máy AI
Áp dụng phương pháp tiếp cận kiến trúc để bảo mật ...
Tiến lên mạnh mẽ với Dell PowerMax: Vượt mặt Hitachi VSP 5000
Dell PowerMax mang lại khả năng phục hồi, hiệu suất và ...
Đẩy nhanh đổi mới AI: Sức mạnh của quyền truy cập mở
Từ các mô hình tiên tiến đến các ứng dụng cấp ...