Trong bài viết này, chúng tôi sẽ tập trung vào một số khía cạnh về môi trường và hậu cần của thiết kế, lắp đặt và quản lý cụm.
Ngoài không gian rack có sẵn và khoảng cách vật lý giữa các nút, cần phải cung cấp đủ điện năng và làm mát khi cụm mở rộng. Các thế hệ ổ đĩa và nút mới thường cung cấp mật độ lưu trữ tăng lên, thường làm tăng nhu cầu về điện năng và làm mát trên mỗi đơn vị rack.
Khuyến nghị là nguồn điện của cụm lớn phải dự phòng hoàn toàn và được sao lưu bằng UPS pin và/hoặc máy phát điện. Trong trường hợp xấu nhất, nếu cụm mất điện, các nút được bảo vệ nội bộ bằng nhật ký hệ thống tệp, lưu lại mọi bản ghi chưa cam kết trong khi đang bay. Tuy nhiên, thời gian khôi phục nguồn điện và đưa cụm lớn trở lại từ tình trạng tắt máy không sạch có thể rất lâu.
Giống như hầu hết các thiết bị trung tâm dữ liệu, quạt làm mát trong các nút và công tắc PowerScale hút không khí từ phía trước ra phía sau của khung máy. Để bổ sung cho điều này, các trung tâm dữ liệu thường sử dụng cấu hình giá đỡ đảo nóng/đảo lạnh, trong đó không khí mát, độ ẩm thấp được cung cấp ở lối đi phía trước mỗi giá đỡ hoặc tủ ở mức sàn hoặc trần nhà, và không khí thải ấm được trả lại ở mức trần nhà trong lối đi đến phía sau mỗi giá đỡ.
Với lượng điện năng tiêu thụ đáng kể, mật độ nhiệt và trọng lượng của phần cứng cụm, một số trung tâm dữ liệu bị giới hạn về số lượng nút mà mỗi giá có thể hỗ trợ. Đối với các giá được lấp đầy một phần, việc sử dụng các tấm trống để che mặt trước và mặt sau của bất kỳ đơn vị giá nào chưa được lấp đầy có thể giúp định hướng luồng không khí hiệu quả qua thiết bị.
Bảng dưới đây hiển thị các tốc độ mạng front-end và back-end khác nhau cùng các dạng thức kết nối trên toàn bộ danh mục nút lưu trữ PowerScale.
| Tốc độ (Gb/giây) | Yếu tố hình thức | Front-end/ Back-end |
Tốc độ (Gb/giây) |
| 100/40 | QSFP28 | Phần cuối | F900, F600, H700, H7000, A300, A3000, P100, B100 |
| 40
QDR |
QSFP+ | Phần cuối | F800, F810, H600, H5600, H500, H400, A200, A2000 |
| 25/10 | SFP28 | Phần cuối | F900, F600, F200, H700, H7000, A300, A3000, P100, B100 |
| 10
QDR |
QSFP+ | Phần cuối | H400, A200, A2000 |
| 100/40 | QSFP28 | Mặt trước | F900, F600, H700, H7000, A300, A3000, P100, B100 |
| 40
QDR |
QSFP+ | Mặt trước | F800, F810, H600, H5600, H500, H400, A200, A2000 |
| 25/10 | SFP28 | Mặt trước | F900, F600, F200, H700, H7000, A300, A3000, P100, B100 |
| 25/10 | SFP+ | Mặt trước | F800, F810, H600, H5600, H500, H400, A200, A2000 |
| 10
QDR |
SFP+ | Mặt trước | F800, F810, H600, H5600, H500, H400, A200, A2000 |
Với các cụm lớn, đặc biệt là khi các nút không được sắp xếp theo cách liền kề, thì nên kết nối tất cả các nút và công tắc với bộ tập trung bảng điều khiển nối tiếp và bộ điều khiển nguồn từ xa. Tuy nhiên, để thực hiện bất kỳ hoạt động quản trị vật lý hoặc phá vỡ/sửa chữa nào trên các nút, bạn phải biết thiết bị nằm ở đâu và có sẵn các nguồn lực quản trị để truy cập và bảo dưỡng tất cả các vị trí.
Vì vậy, các biện pháp tốt nhất sau đây được khuyến nghị:
- Phát triển và cập nhật tài liệu kiến trúc vật lý toàn diện.
- Triển khai tiêu chuẩn tô màu cáp trực quan.
- Hãy cẩn thận và nhất quán khi dán nhãn cáp.
- Sử dụng độ dài cáp phù hợp cho đoạn cáp chạy và tạo một vòng 12 inch gọn gàng từ bất kỳ đoạn cáp thừa nào, cố định bằng miếng dán Velcro.
- Tuân thủ tỷ lệ uốn cong cáp thích hợp, đặc biệt là với cáp quang.
- Đi dây cáp và duy trì nguyên tắc quản lý cáp có kỷ luật.
- Giữ nhật ký bảo trì phần cứng cụm chi tiết.
- Nếu cần thiết, hãy duy trì không gian ‘hộp thư’ để quản lý cáp.
Quản lý cáp và dán nhãn có kỷ luật để dễ nhận dạng đặc biệt quan trọng trong các cụm PowerScale lớn hơn, nơi mật độ cáp cao. Mỗi khung máy có thể yêu cầu tới 28 cáp, như thể hiện trong bảng sau:
| Thành phần cáp | Trung bình | Số lượng cáp trên mỗi khung |
| Mạng lưới phía sau | Ethernet hoặc Infiniband | 8 |
| Mạng lưới đầu cuối | Mạng Ethernet | 8 |
| Giao diện quản lý | Ethernet 1Gb | 4 |
| Bảng điều khiển nối tiếp | DB9 RS 232 | 4 |
| Dây nguồn | Nguồn điện xoay chiều 110V hoặc 220V | 4 |
| Tổng cộng | 28 |
Các khuyến nghị về việc đi dây cho khung máy PowerScale là:
- Tách cáp ở giữa khung máy, giữa nút 2 và 3.
- Đi dây cáp Ethernet và Infiniband về phía dưới của khung máy.
- Kết nối dây nguồn cho nút 1 và 3 với PDU A và dây nguồn cho nút 2 và 4 với PDU B.
- Bó cáp mạng với dây nguồn AC để dễ quản lý.
- Chừa đủ khoảng trống cho cáp để phục vụ cho từng FRU của nút riêng lẻ.

Tương tự như vậy, các nút flash độc lập dòng F, đặc biệt là các nút 1RU F600 và F200, cũng có mật độ cáp tương tự trên mỗi đơn vị giá đỡ:
| Thành phần cáp | Trung bình | Số lượng cáp trên mỗi nút F-series |
| Mạng lưới phía sau | Ethernet 10 hoặc 40 Gb hoặc QDR Infiniband | 2 |
| Mạng lưới đầu cuối | Ethernet 10 hoặc 40Gb | 2 |
| Giao diện quản lý | Ethernet 1Gb | 1 |
| Bảng điều khiển nối tiếp | DB9 RS 232 | 1 |
| Dây nguồn | Nguồn điện xoay chiều 110V hoặc 220V | 2 |
| Tổng cộng | 8 |
Việc dán nhãn và quản lý cáp nhất quán và tỉ mỉ đặc biệt quan trọng trong các cụm lớn. Khung máy PowerScale sử dụng cả mạng Ethernet phía trước và phía sau có thể bao gồm tối đa 20 kết nối Ethernet trên mỗi khung máy 4RU.

Trong mô-đun tính toán của mỗi nút, có hai khe cắm PCI cho các card Ethernet (NIC). Nhìn từ phía sau khung máy, trong mỗi nút, khe cắm bên phải (Khe cắm HBA 0) chứa NIC cho mạng front-end, và khe cắm bên trái (Khe cắm HBA 1) chứa NIC cho mạng front-end. Ngoài ra còn có một cổng Ethernet 1Gb tích hợp riêng trên mỗi nút để quản lý lưu lượng cụm.
Mặc dù không có yêu cầu nào về việc node 1 phải căn chỉnh với cổng 1 trên mỗi công tắc back-end, nhưng chắc chắn nó có thể giúp việc quản lý cụm và công tắc cũng như xử lý sự cố trở nên đơn giản hơn đáng kể. Ngay cả khi không thể căn chỉnh cổng chính xác, với các cụm lớn, hãy đảm bảo rằng các dây cáp được dán nhãn rõ ràng và được kết nối với các vùng cổng tương tự trên các công tắc back-end.
Các nút PowerScale và ổ đĩa mà chúng chứa có đèn LED nhận dạng để chỉ báo khi một thành phần bị lỗi và cho phép nhận dạng chủ động các tài nguyên. Bạn có thể sử dụng lệnh CLI ‘isi led’ để chiếu sáng các đèn chỉ báo nút và ổ đĩa cụ thể, khi cần, để hỗ trợ nhận dạng.
Thời gian sửa chữa ổ đĩa phụ thuộc vào nhiều yếu tố:
- Bản phát hành OneFS (xác định phiên bản Job Engine và mức độ hiệu quả hoạt động của nó)
- Phần cứng hệ thống (xác định loại ổ đĩa, lượng CPU, RAM, v.v.)
- Hệ thống tập tin: Lượng dữ liệu, thành phần dữ liệu (nhiều tập tin nhỏ so với lớn), khả năng bảo vệ, các thông số có thể điều chỉnh, v.v.
- Tải trên cụm trong khi ổ đĩa bị lỗi
Một phương pháp hữu ích để ước tính thời gian chạy FlexProtect trong tương lai là sử dụng thời gian chạy sửa chữa cũ làm hướng dẫn, nếu có.
Các ổ đĩa trong nền tảng dựa trên khung gầm PowerScale có danh pháp lưới ô, trong đó AE biểu thị từng thanh trượt và 0-6 sẽ chỉ vị trí ổ đĩa trong thanh trượt. Ổ đĩa gần nhất với mặt trước là 0, trong khi ổ đĩa gần nhất với mặt sau là 2/3/5, tùy thuộc vào loại thanh trượt ổ đĩa.
Khi nói đến việc cập nhật và làm mới phần cứng trong một cụm lớn, việc hoán đổi các nút có thể là một quá trình dài với thời gian không thể đoán trước. Dữ liệu phải được sơ tán khỏi mỗi nút cũ trong quá trình Smartfail trước khi xóa nó, và được phân chia lại và cân bằng trên các ổ đĩa của phần cứng mới. Trong thời gian này, cũng sẽ có những thay đổi nhóm có khả năng tác động khi các nút mới được thêm vào và các nút cũ bị xóa.
Tuy nhiên, nếu thay thế toàn bộ node-pool như một phần của quá trình làm mới công nghệ, chính sách filepool SmartPools có thể được tạo ra để di chuyển dữ liệu sang nodepool khác trên mạng back-end. Khi hoàn tất, các node có thể được Smartfailed out, quá trình này sẽ diễn ra nhanh chóng vì chúng hiện đang trống.
Nếu nhiều nút bị Smartfail cùng lúc, ở giai đoạn cuối của quy trình, việc xóa nút được tuần tự hóa với khoảng 60 giây tạm dừng giữa mỗi nút. Công việc Smartfail đặt các nút đã chọn ở chế độ chỉ đọc trong khi sao chép các dải bảo vệ vào không gian trống của cụm. Sử dụng SmartPool để di tản dữ liệu khỏi một nút hoặc một tập hợp các nút để chuẩn bị xóa chúng thường là một ý tưởng hay và thường là một quy trình tương đối nhanh.
Một cách tiếp cận hiệu quả khác thường có thể là hoán đổi ổ đĩa ra khung máy mới. Ngoài việc nhanh hơn đáng kể, quá trình hoán đổi ổ đĩa tập trung sự gián đoạn vào một sự kiện toàn bộ cụm duy nhất. Việc ước tính thời gian để hoàn tất quá trình hoán đổi ổ đĩa hoặc quá trình ‘disk tango’ đơn giản hơn và chính xác hơn và thường có thể hoàn thành trong một cửa sổ bảo trì duy nhất.
Với các nền tảng dựa trên khung máy PowerScale, chẳng hạn như H700 và A300, các tùy chọn ‘tango’ phần cứng khả dụng được mở rộng và đơn giản hóa. Với thiết kế mô-đun của các nền tảng này, các chiến lược tango tính toán và khung máy thường thay thế tango đĩa:
| Chiến lược thay thế | Thành phần | Quy mô năng lượng
Dòng F |
Các nút dựa trên khung gầm | Sự miêu tả |
| Đĩa tango | Lái xe / lái xe trượt tuyết | x | x | Thay đổi ổ đĩa dữ liệu hoặc ổ đĩa trượt |
| Tính toán tango | Khung gầm Mô-đun tính toán | x | Thay vì hoán đổi hai mươi ổ đĩa trong một khung máy, thường thì việc hoán đổi bốn mô-đun tính toán sẽ sạch hơn | |
| Khung gầm tango | Khung gầm 4RU | x | Thông thường chỉ cần thiết khi có vấn đề với mặt phẳng giữa của khung gầm. |
Xin lưu ý rằng bất kỳ quy trình ‘tango’ nào nêu trên chỉ được thực hiện theo khuyến nghị và sự giám sát của bộ phận hỗ trợ của Dell.
Tác giả : Nick Trimbee

Bài viết mới cập nhật
Dell Storage Engines: Tăng tốc suy luận AI với PowerScale và ObjectScale
Giải pháp chuyển tải bộ nhớ đệm KV của Dell cho ...
Bảo vệ Nhà máy AI
Áp dụng phương pháp tiếp cận kiến trúc để bảo mật ...
Tiến lên mạnh mẽ với Dell PowerMax: Vượt mặt Hitachi VSP 5000
Dell PowerMax mang lại khả năng phục hồi, hiệu suất và ...
Đẩy nhanh đổi mới AI: Sức mạnh của quyền truy cập mở
Từ các mô hình tiên tiến đến các ứng dụng cấp ...