Hệ thống AI tạo sinh phát triển mạnh trên lượng lớn dữ liệu phi cấu trúc, vốn rất cần thiết để đào tạo thuật toán nhận dạng các mẫu, đưa ra dự đoán và tạo nội dung mới. Dữ liệu phi cấu trúc – chẳng hạn như văn bản, hình ảnh và âm thanh – không tuân theo một mô hình được xác định trước, khiến nó phức tạp và đa dạng hơn dữ liệu có cấu trúc.
Tiền xử lý dữ liệu phi cấu trúc
Dữ liệu phi cấu trúc không có định dạng hoặc lược đồ được xác định trước, bao gồm văn bản, hình ảnh, âm thanh, video hoặc tài liệu. Xử lý trước dữ liệu phi cấu trúc bao gồm việc làm sạch, chuẩn hóa và chuyển đổi dữ liệu thành dạng có cấu trúc hoặc bán cấu trúc mà AI có thể hiểu và có thể được sử dụng để phân tích hoặc học máy.
Tiền xử lý dữ liệu phi cấu trúc cho AI tạo sinh là một bước quan trọng liên quan đến việc chuẩn bị dữ liệu thô để sử dụng trong đào tạo mô hình AI. Mục tiêu là nâng cao chất lượng và cấu trúc của dữ liệu để cải thiện hiệu suất của mô hình tạo sinh.
Có nhiều bước và kỹ thuật khác nhau để xử lý trước dữ liệu phi cấu trúc, tùy thuộc vào loại và mục đích của dữ liệu. Một số bước phổ biến là:
- Hoàn thiện dữ liệu : Bước này bao gồm việc điền dữ liệu bị thiếu hoặc không đầy đủ, bằng cách sử dụng giá trị trung bình hoặc ước tính hoặc bằng cách loại bỏ hoặc bỏ qua các điểm dữ liệu có trường bị thiếu.
- Giảm nhiễu dữ liệu : Bước này bao gồm việc loại bỏ hoặc giảm dữ liệu không liên quan, dư thừa hoặc sai, chẳng hạn như dữ liệu trùng lặp, lỗi chính tả, đối tượng ẩn hoặc nhiễu nền.
- Chuyển đổi dữ liệu : Bước này bao gồm việc chuyển đổi dữ liệu sang định dạng chuẩn hoặc nhất quán, bao gồm việc chia tỷ lệ và chuẩn hóa dữ liệu số, mã hóa dữ liệu theo danh mục hoặc trích xuất các tính năng từ dữ liệu văn bản, hình ảnh, âm thanh hoặc video.
- Giảm dữ liệu : Bước này bao gồm việc giảm chiều hoặc kích thước của dữ liệu, bằng cách chọn một tập hợp con các tính năng hoặc điểm dữ liệu có liên quan hoặc bằng cách áp dụng các kỹ thuật như phân tích thành phần chính, phân cụm hoặc lấy mẫu.
- Xác thực dữ liệu : Bước này bao gồm việc kiểm tra chất lượng và độ chính xác của dữ liệu được xử lý trước bằng cách sử dụng các phương pháp thống kê, công cụ trực quan hóa hoặc kiến thức chuyên môn.
Các bước này có thể giúp nâng cao chất lượng, độ tin cậy và khả năng diễn giải của dữ liệu, từ đó cải thiện hiệu suất và kết quả của các mô hình phân tích hoặc học máy.
Nền tảng PowerScale F210 và F710
Sự đổi mới liên tục của PowerScale mở rộng sang kỷ nguyên AI với sự ra mắt của thế hệ tiếp theo của các nút dựa trên PowerEdge, bao gồm PowerScale F210 và F710. Các nút toàn flash PowerScale mới tận dụng Dell PowerEdge R660, mở khóa hiệu suất thế hệ tiếp theo. Về mặt phần mềm, F210 và F710 tận dụng những cải tiến hiệu suất đáng kể trong PowerScale OneFS 9.7. Kết hợp các cải tiến về phần cứng và phần mềm, F210 và F710 giải quyết dễ dàng các khối lượng công việc đòi hỏi khắt khe nhất.
F210 và F710 cung cấp mật độ lớn hơn trong nền tảng 1U, với F710 hỗ trợ 10 ổ SSD NVMe cho mỗi nút và F210 cung cấp tùy chọn ổ đĩa 15,36 TB. CPU Sapphire Rapids cung cấp chu kỳ trên mỗi lệnh thấp hơn 19%. PCIe Gen 5 tăng gấp đôi thông lượng khi so sánh với PCIe Gen 4. Ngoài ra, các nút tận dụng DDR5, cung cấp tốc độ và băng thông lớn hơn.
Về mặt phần mềm, PowerScale OneFS 9.7 mang đến bước nhảy vọt đáng kể về hiệu suất. OneFS 9.7 cập nhật ngăn xếp giao thức, khóa và ghi trực tiếp. Để tìm hiểu thêm về OneFS 9.7, hãy xem bài viết này về PowerScale OneFS 9.7 .
Nhật ký OneFS trong các nút F210 và F710 toàn flash sử dụng cấu hình 32 GB của công nghệ Dell Software Defined Persistent Memory (SDPM). Các nền tảng trước đây sử dụng NVDIMM-n cho bộ nhớ liên tục, chiếm một khe cắm DIMM.
Để biết thêm thông tin chi tiết về F210 và F710, hãy xem bài đăng trên blog khác của chúng tôi tại Dell.com: https://www.dell.com/en-us/blog/next-gen-workloads-require-next-gen-storage/ .
Hiệu suất
Việc giới thiệu các nút PowerScale F210 và F710 tận dụng những bước tiến đáng kể về phần cứng và phần mềm từ các thế hệ trước. OneFS 9.7 giới thiệu các bản cập nhật hướng đến hiệu suất to lớn, bao gồm ngăn xếp giao thức, khóa và ghi trực tiếp. Các máy chủ dựa trên PowerEdge cung cấp bước tiến đáng kể về phần cứng so với các thế hệ trước. Những tiến bộ về phần cứng và phần mềm kết hợp lại để mang lại hiệu suất tăng đáng kể, đặc biệt là đối với việc đọc và ghi trực tuyến.
Máy đo công suất PowerScale F210
PowerScale F210 là khung máy 1U dựa trên PowerEdge R660. Cần tối thiểu ba nút để tạo thành một cụm, tối đa là 252 nút. F210 là nhóm nút tương thích với F200.
Bảng 1. Thông số kỹ thuật F210
Thuộc tính | Thông số kỹ thuật của PowerScale F210 |
Khung gầm | Máy chủ Dell PowerEdge R660 1U |
Bộ vi xử lý | Ổ cắm đơn – Intel Sapphire Rapids 4410Y (2G/12C) |
Ký ức | Dual Rank DDR5 RDIMM 128 GB (8 x 16 GB) |
Nhật ký | 1 x 32 GB SDPM |
Mạng lưới front-end | 2 x 100 GbE hoặc 25 GbE |
Mạng lưới cơ sở hạ tầng | 2 x 100 GbE hoặc 25 GbE |
Ổ đĩa SSD NVMe | 4 |
Máy tính xách tay PowerScale F710
PowerScale F710 là khung máy 1U dựa trên PowerEdge R660. Cần tối thiểu ba nút để tạo thành một cụm, tối đa là 252 nút.
Bảng 2. Thông số kỹ thuật của F710
Thuộc tính | Thông số kỹ thuật của PowerScale F710 |
Khung gầm | Máy chủ Dell PowerEdge R660 1U |
Bộ vi xử lý | Ổ cắm kép – Intel Sapphire Rapids 6442Y (2,6G/24C) |
Ký ức | Dual Rank DDR5 RDIMM 512 GB (16 x 32 GB) |
Nhật ký | 1 x 32 GB SDPM |
Mạng lưới front-end | 2 x 100 GbE hoặc 25 GbE |
Mạng lưới cơ sở hạ tầng | 2x100GbE |
Ổ đĩa SSD NVMe | 10 |
Bài viết mới cập nhật
Máy chủ Dell PowerEdge: Hiệu suất và hiệu quả năng lượng vô song
Máy chủ Dell PowerEdge R470, R670 và R770 mang lại hiệu ...
Tăng cường hiệu suất đường ống AI với cơ sở hạ tầng PowerScale tiên tiến, tốc độ cao
Bản cập nhật mới nhất của PowerScale cho phép tối ưu ...
Tăng tốc suy luận AI với NVIDIA NIM trên nền tảng đám mây APEX
Tăng tốc suy luận AI với Dell APEX Cloud Platform và ...
Tổng quan về danh sách kiểm soát truy cập OneFS
Như chúng ta đã biết, khi người dùng truy cập dữ ...