Giới thiệu thế hệ tiếp theo của PowerScale – Nền tảng dữ liệu AI Ready

Hệ thống AI tạo sinh phát triển mạnh trên lượng lớn dữ liệu phi cấu trúc, vốn rất cần thiết để đào tạo thuật toán nhận dạng các mẫu, đưa ra dự đoán và tạo nội dung mới. Dữ liệu phi cấu trúc – chẳng hạn như văn bản, hình ảnh và âm thanh – không tuân theo một mô hình được xác định trước, khiến nó phức tạp và đa dạng hơn dữ liệu có cấu trúc.

Tiền xử lý dữ liệu phi cấu trúc

Dữ liệu phi cấu trúc không có định dạng hoặc lược đồ được xác định trước, bao gồm văn bản, hình ảnh, âm thanh, video hoặc tài liệu. Xử lý trước dữ liệu phi cấu trúc bao gồm việc làm sạch, chuẩn hóa và chuyển đổi dữ liệu thành dạng có cấu trúc hoặc bán cấu trúc mà AI có thể hiểu và có thể được sử dụng để phân tích hoặc học máy.

Tiền xử lý dữ liệu phi cấu trúc cho AI tạo sinh là một bước quan trọng liên quan đến việc chuẩn bị dữ liệu thô để sử dụng trong đào tạo mô hình AI. Mục tiêu là nâng cao chất lượng và cấu trúc của dữ liệu để cải thiện hiệu suất của mô hình tạo sinh.

Có nhiều bước và kỹ thuật khác nhau để xử lý trước dữ liệu phi cấu trúc, tùy thuộc vào loại và mục đích của dữ liệu. Một số bước phổ biến là:

  • Hoàn thiện dữ liệu : Bước này bao gồm việc điền dữ liệu bị thiếu hoặc không đầy đủ, bằng cách sử dụng giá trị trung bình hoặc ước tính hoặc bằng cách loại bỏ hoặc bỏ qua các điểm dữ liệu có trường bị thiếu.
  • Giảm nhiễu dữ liệu : Bước này bao gồm việc loại bỏ hoặc giảm dữ liệu không liên quan, dư thừa hoặc sai, chẳng hạn như dữ liệu trùng lặp, lỗi chính tả, đối tượng ẩn hoặc nhiễu nền.
  • Chuyển đổi dữ liệu : Bước này bao gồm việc chuyển đổi dữ liệu sang định dạng chuẩn hoặc nhất quán, bao gồm việc chia tỷ lệ và chuẩn hóa dữ liệu số, mã hóa dữ liệu theo danh mục hoặc trích xuất các tính năng từ dữ liệu văn bản, hình ảnh, âm thanh hoặc video.
  • Giảm dữ liệu : Bước này bao gồm việc giảm chiều hoặc kích thước của dữ liệu, bằng cách chọn một tập hợp con các tính năng hoặc điểm dữ liệu có liên quan hoặc bằng cách áp dụng các kỹ thuật như phân tích thành phần chính, phân cụm hoặc lấy mẫu.
  • Xác thực dữ liệu : Bước này bao gồm việc kiểm tra chất lượng và độ chính xác của dữ liệu được xử lý trước bằng cách sử dụng các phương pháp thống kê, công cụ trực quan hóa hoặc kiến ​​thức chuyên môn.

Các bước này có thể giúp nâng cao chất lượng, độ tin cậy và khả năng diễn giải của dữ liệu, từ đó cải thiện hiệu suất và kết quả của các mô hình phân tích hoặc học máy.

Nền tảng PowerScale F210 và F710

Sự đổi mới liên tục của PowerScale mở rộng sang kỷ nguyên AI với sự ra mắt của thế hệ tiếp theo của các nút dựa trên PowerEdge, bao gồm PowerScale F210 và F710. Các nút toàn flash PowerScale mới tận dụng Dell PowerEdge R660, mở khóa hiệu suất thế hệ tiếp theo. Về mặt phần mềm, F210 và F710 tận dụng những cải tiến hiệu suất đáng kể trong PowerScale OneFS 9.7. Kết hợp các cải tiến về phần cứng và phần mềm, F210 và F710 giải quyết dễ dàng các khối lượng công việc đòi hỏi khắt khe nhất.

F210 và F710 cung cấp mật độ lớn hơn trong nền tảng 1U, với F710 hỗ trợ 10 ổ SSD NVMe cho mỗi nút và F210 cung cấp tùy chọn ổ đĩa 15,36 TB. CPU Sapphire Rapids cung cấp chu kỳ trên mỗi lệnh thấp hơn 19%. PCIe Gen 5 tăng gấp đôi thông lượng khi so sánh với PCIe Gen 4. Ngoài ra, các nút tận dụng DDR5, cung cấp tốc độ và băng thông lớn hơn.

Về mặt phần mềm, PowerScale OneFS 9.7 mang đến bước nhảy vọt đáng kể về hiệu suất. OneFS 9.7 cập nhật ngăn xếp giao thức, khóa và ghi trực tiếp. Để tìm hiểu thêm về OneFS 9.7, hãy xem bài viết này về PowerScale OneFS 9.7 .

Nhật ký OneFS trong các nút F210 và F710 toàn flash sử dụng cấu hình 32 GB của công nghệ Dell Software Defined Persistent Memory (SDPM). Các nền tảng trước đây sử dụng NVDIMM-n cho bộ nhớ liên tục, chiếm một khe cắm DIMM.

Để biết thêm thông tin chi tiết về F210 và F710, hãy xem bài đăng trên blog khác của chúng tôi tại Dell.com: https://www.dell.com/en-us/blog/next-gen-workloads-require-next-gen-storage/ .

Hiệu suất

Việc giới thiệu các nút PowerScale F210 và F710 tận dụng những bước tiến đáng kể về phần cứng và phần mềm từ các thế hệ trước. OneFS 9.7 giới thiệu các bản cập nhật hướng đến hiệu suất to lớn, bao gồm ngăn xếp giao thức, khóa và ghi trực tiếp. Các máy chủ dựa trên PowerEdge cung cấp bước tiến đáng kể về phần cứng so với các thế hệ trước. Những tiến bộ về phần cứng và phần mềm kết hợp lại để mang lại hiệu suất tăng đáng kể, đặc biệt là đối với việc đọc và ghi trực tuyến.

Máy đo công suất PowerScale F210

PowerScale F210 là khung máy 1U dựa trên PowerEdge R660. Cần tối thiểu ba nút để tạo thành một cụm, tối đa là 252 nút. F210 là nhóm nút tương thích với F200.

Hình ảnh mặt trước của PowerScale F210

Bảng 1. Thông số kỹ thuật F210

Thuộc tính Thông số kỹ thuật của PowerScale F210
Khung gầm Máy chủ Dell PowerEdge R660 1U
Bộ vi xử lý Ổ cắm đơn – Intel Sapphire Rapids 4410Y (2G/12C)
Ký ức Dual Rank DDR5 RDIMM 128 GB (8 x 16 GB)
Nhật ký 1 x 32 GB SDPM
Mạng lưới front-end 2 x 100 GbE hoặc 25 GbE
Mạng lưới cơ sở hạ tầng 2 x 100 GbE hoặc 25 GbE
Ổ đĩa SSD NVMe 4

Máy tính xách tay PowerScale F710

PowerScale F710 là khung máy 1U dựa trên PowerEdge R660. Cần tối thiểu ba nút để tạo thành một cụm, tối đa là 252 nút.

Hình ảnh mặt trước của PowerScale F710

Bảng 2. Thông số kỹ thuật của F710

Thuộc tính Thông số kỹ thuật của PowerScale F710
Khung gầm Máy chủ Dell PowerEdge R660 1U
Bộ vi xử lý Ổ cắm kép – Intel Sapphire Rapids 6442Y (2,6G/24C)
Ký ức Dual Rank DDR5 RDIMM 512 GB (16 x 32 GB)
Nhật ký 1 x 32 GB SDPM
Mạng lưới front-end 2 x 100 GbE hoặc 25 GbE
Mạng lưới cơ sở hạ tầng 2x100GbE
Ổ đĩa SSD NVMe 10