Thiết kế được xác thực của Dell cho phân tích—Data Lakehouse (5)

Định cỡ

Tổng quan về kích thước và chia tỷ lệ

Định cỡ và chia tỷ lệ cụm là hai vấn đề cần cân nhắc khác nhau nhưng có liên quan với nhau. Việc định cỡ liên quan đến việc đảm bảo cụm đáp ứng các yêu cầu về khối lượng công việc để lưu trữ và xử lý thông lượng. Việc mở rộng quy mô liên quan đến sự phát triển của cụm theo thời gian khi nhu cầu năng lực tăng lên.

Kiến trúc là một hệ thống mở rộng quy mô song song với tính toán và lưu trữ tách rời. Một số yêu cầu về kích thước có thể được giải quyết thông qua việc chia tỷ lệ trong khi những yêu cầu khác phải được giải quyết thông qua việc định cỡ ở cấp độ nút.

Định cỡ và chia tỷ lệ của một cụm là những chủ đề phức tạp đòi hỏi kiến ​​thức về khối lượng công việc. Phần này nêu bật những cân nhắc chính có liên quan nhưng không cung cấp các đề xuất chi tiết về quy mô khối lượng công việc. Hướng dẫn thiết kế cho khối lượng công việc cụ thể chạy trên nền tảng bao gồm hướng dẫn định cỡ khối lượng công việc cụ thể. Dell Technologies hoặc đại diện bán hàng đối tác được ủy quyền của bạn có thể trợ giúp tính toán kích thước chi tiết.

Có nhiều tham số liên quan đến việc định cỡ cụm. Các thông số chính là:

Khả năng lưu trữ
Dung lượng lưu trữ thường là tham số đầu tiên được sử dụng để xác định kích thước của một cụm. Tính toán dung lượng lưu trữ là quan trọng và đơn giản. Tuy nhiên, dung lượng lưu trữ phải được tính toán trong khi tính đến các tham số kích thước khác để duy trì sự cân bằng giữa khả năng lưu trữ và xử lý. Việc sử dụng bộ lưu trữ và tính toán tách rời giúp đơn giản hóa việc xem xét này vì số dư có thể được điều chỉnh bất kỳ lúc nào trong suốt vòng đời của cụm.
Khối lượng dữ liệu và tốc độ tăng trưởng
Khối lượng dữ liệu và tốc độ tăng trưởng đều có nhiều tác động đến quy mô cụm. Dung lượng lưu trữ của Lakehouse sẽ tính đến sự tăng trưởng do việc nhập dữ liệu và tăng trưởng khối lượng nhập theo thời gian. Việc nhập dữ liệu cũng ảnh hưởng đến việc sử dụng mạng. Vì bộ lưu trữ Lakehouse nằm bên ngoài các nút cụm nên cần có băng thông mạng để truy cập vào nó. Các yêu cầu về thông lượng xử lý cũng như kích thước dữ liệu phải được xem xét.
Dung lượng bộ nhớ và bộ xử lý
Yêu cầu về bộ nhớ và bộ xử lý cho các công việc chạy trên cụm phải được xem xét khi định cỡ. Dung lượng bộ nhớ và bộ xử lý tăng lên khi các nút được thêm vào cụm. Bạn có thể tạo các cấu hình nút không đồng nhất cho khối lượng công việc có yêu cầu cụ thể nếu cần thiết.
Thỏa thuận cấp độ dịch vụ
Quy mô cụm sản xuất phải đáp ứng mọi yêu cầu về hiệu suất mà SLA chỉ định. Các công việc trên đường quan trọng phải đáp ứng thời gian thực hiện hoặc thông lượng cụ thể có thể yêu cầu điều chỉnh kích thước cụm và sự cân bằng giữa tính toán và lưu trữ cho phù hợp. Thông lượng tổng thể của cụm cũng quan trọng như dung lượng lưu trữ và thường ảnh hưởng đến số lượng nút không phụ thuộc vào dung lượng lưu trữ cần thiết.

Hướng dẫn định cỡ

Kích thước cụm

Cấu hình cụm ví dụ liệt kê một số điểm bắt đầu ở cấp độ cụm để triển khai có thể.

Bảng 19. Cấu hình cụm ví dụ
Cấu hình Bằng chứng về khái niệm (POC) Phi công Doanh nghiệp vừa và nhỏ (SMB) Doanh nghiệp
Các nút mặt phẳng điều khiển 0 3 3 3
Nút công nhân 3 4 10 20
Bộ nhớ khả dụng 1536GB 2048 GB 5120GB 10.240 GB
Các lõi vật lý có sẵn 192 256 640 1280
Lưu trữ máy chủ có sẵn 69 TB 92 TB 230 TB 460 TB
Lưu ý: Các tài nguyên có sẵn trong Cấu hình cụm ví dụ chỉ là gần đúng. Những tài nguyên này có sẵn cho khối lượng công việc của người dùng và loại trừ các tài nguyên mà các dịch vụ nền tảng cốt lõi tiêu thụ.

Bằng chứng của khái niệm

Cấu hình bằng chứng khái niệm (POC) là cấu hình tối thiểu để đánh giá cơ bản. Trong trường hợp này, ba nút công nhân được sử dụng để lưu trữ mặt phẳng điều khiển, dịch vụ thời gian chạy và khối lượng công việc. Các nút công nhân lưu trữ các vai trò Trình quản lý Symcloud , Điện toán và Lưu trữ bên cạnh bất kỳ khối lượng công việc nào. Cấu hình này cung cấp tài nguyên hạn chế cho khối lượng công việc nhưng đủ để đánh giá chức năng cơ bản. Có thể thêm nhiều nút công nhân hơn vào cấu hình này. Đối với bất cứ điều gì lớn hơn năm công nhân, Dell Technologies khuyên bạn nên bắt đầu hoặc nâng cấp lên cấu hình thử nghiệm.

Việc chuyển đổi cụm POC thành cụm cấp sản xuất yêu cầu triển khai lại phần mềm, mặc dù phần cứng nút công nhân có thể được sử dụng lại.

Phi công

Cấu hình thí điểm là cấu hình cấp sản xuất tối thiểu. Trong trường hợp này, ba nút mặt phẳng điều khiển lưu trữ các vai trò Trình quản lý Symcloud . Bốn nút công nhân lưu trữ các vai trò Điện toán và Lưu trữ cùng với mọi khối lượng công việc. Cấu hình này cung cấp sự cách ly giữa các chức năng mặt phẳng điều khiển và thời gian chạy. Dell Technologies khuyến nghị sử dụng nó cho giai đoạn tiền sản xuất hoặc phát triển và sử dụng thử nghiệm.

Cấu hình thử nghiệm có thể được mở rộng bằng cách thêm các nút công nhân bổ sung mà không cần triển khai lại các nút hiện có.

Doanh nghiệp vừa và nhỏ

Cấu hình doanh nghiệp vừa và nhỏ (SMB) là cấu hình cấp sản xuất nhỏ. Ba nút mặt phẳng điều khiển lưu trữ các vai trò Trình quản lý Symcloud và mười nút công nhân có sẵn cho khối lượng công việc. Cấu hình này cung cấp đủ tài nguyên để hỗ trợ một hoặc hai nhóm chạy khối lượng công việc phân tích.

Cấu hình SMB có thể được mở rộng bằng cách thêm các nút công nhân bổ sung mà không cần triển khai lại các nút hiện có.

Doanh nghiệp

Cấu hình doanh nghiệp là cấu hình cấp sản xuất lớn. Ba nút mặt phẳng điều khiển lưu trữ các vai trò Trình quản lý Symcloud và 20 nút công nhân có sẵn cho khối lượng công việc. Cấu hình này cung cấp tài nguyên đáng kể để chạy khối lượng công việc phân tích hỗ trợ nhiều nhóm.

Kích thước lưu trữ Lakehouse

Lượng dữ liệu dự kiến ​​của Lakehouse chủ yếu xác định kích thước lưu trữ của Lakehouse. Khía cạnh định cỡ này độc lập với kích thước cụm điện toán.

Băng thông mạng khả dụng giữa cụm điện toán và cụm lưu trữ cũng phải được xem xét. Băng thông trên các cụm lưu trữ và tính toán tỷ lệ thuận với số lượng nút. Tuy nhiên, dung lượng lưu trữ dày đặc có được với ECS và PowerScale có thể dẫn đến dung lượng lưu trữ lớn nhưng không có đủ băng thông để hỗ trợ các yêu cầu truyền dữ liệu của nhà hồ. Cần phải phân tích các yêu cầu truyền dữ liệu của khối lượng công việc để xác định kích thước chính xác của bộ lưu trữ cho cả dung lượng và băng thông.

Kiến trúc không chỉ giới hạn ở một loại nhà kho duy nhất. PowerScale có thể được sử dụng với giao thức HDFS hoặc ECS có thể được sử dụng với giao thức S3. Bất kỳ khối lượng công việc nào cũng có thể tham chiếu một hoặc cả hai loại lưu trữ này. Cũng có thể sử dụng nhiều hệ thống lưu trữ PowerScale và ECS bên ngoài .

Kiến trúc mạng cho phép cả cụm tính toán và cụm lưu trữ sử dụng cùng một kết cấu. Cấu hình này cho phép mở rộng băng thông mạng khi các nút lưu trữ hoặc điện toán được thêm vào. Băng thông có sẵn cho các hệ thống lưu trữ bên ngoài cũng cần được xem xét khi tham khảo bộ lưu trữ bên ngoài không được kết nối với mạng dữ liệu Cụm lõi.

Kích thước mặt phẳng điều khiển

Kích thước nút mặt phẳng điều khiển mà Dell Technologies khuyến nghị trong nút mặt phẳng điều khiển Lakehouse là đủ cho tất cả các cụm sản xuất và không nên thay đổi. Các dịch vụ quản lý Symcloud phải được triển khai trên ba nút riêng lẻ.

Các dịch vụ mặt phẳng điều khiển cũng tiêu tốn một lượng nhỏ tài nguyên nút công nhân . Kích thước trong hướng dẫn thiết kế này phân bổ 49 GB và bốn lõi cho các dịch vụ này. Khoảng 320 GB dung lượng lưu trữ cho mặt phẳng điều khiển cũng được yêu cầu trên các nút công nhân . Dung lượng này được phân bổ từ ổ đĩa khởi động và không ảnh hưởng đến dung lượng lưu trữ sẵn có của máy chủ cho khối lượng công việc của người dùng.

Kích thước nút công nhân

Tất cả các tài nguyên cụm có sẵn trên tất cả các nút công nhân được gộp lại và phân bổ theo yêu cầu. Cấu hình này cung cấp sự trừu tượng hóa trong đó khối lượng công việc có thể được ánh xạ tới các tài nguyên sẵn có độc lập với nút vật lý được sử dụng. Bộ tăng tốc được coi là một tài nguyên và bất kỳ nhóm khối lượng công việc nào yêu cầu tài nguyên của bộ tăng tốc đều phải chạy trên một nút có sẵn bộ tăng tốc.

Kích thước nút công nhân được đề xuất trong thiết kế này dựa trên mục đích sử dụng chung. Các nút công nhân này có thể hỗ trợ nhiều khối lượng công việc phân tích khác nhau mà không cần sửa đổi. Tuy nhiên, có những trường hợp cần thay đổi cấu hình để phù hợp với khối lượng công việc dự kiến.

Có thể cấu hình nút không đồng nhất. Một cụm có thể bao gồm các nút có kích thước bộ nhớ, tính toán và lưu trữ khác nhau. Tài nguyên từ tất cả các nút này được thêm vào nhóm tài nguyên tổng thể.

Từ quan điểm tài nguyên, có rất ít sự khác biệt giữa nhiều nút nhỏ và một vài nút lớn. Nếu các nút có đủ tài nguyên để xử lý yêu cầu tài nguyên nhóm dự kiến ​​lớn nhất thì sự khác biệt giữa các nút là rõ ràng. Tuy nhiên, có ba cân nhắc bổ sung liên quan đến sự cân bằng này; băng thông mạng, vùng lỗi và chi phí vận hành.

Băng thông mạng khả dụng tỷ lệ thuận với số lượng nút. Một số nút lớn có ít băng thông hơn nhiều nút nhỏ, ngay cả khi bộ nhớ tổng hợp và tài nguyên điện toán giống nhau. Các yêu cầu về băng thông cho khối lượng công việc phải được tính vào kích thước cụm và nút.

Vùng đứt gãy rất quan trọng đối với độ tin cậy tổng thể của cơ sở hạ tầng. Mặc dù cụm có thể tiếp tục chạy khi một nút bị lỗi nhưng tài nguyên từ nút đó sẽ bị mất do lỗi. Cấu hình nút lớn trong một cụm nhỏ có thể có tác động đáng kể đến các tài nguyên sẵn có khi nút đó bị lỗi, ngay cả khi đó là lỗi tạm thời. Việc định cỡ phải đảm bảo việc mất nút chỉ ảnh hưởng một phần nhỏ đến dung lượng tổng thể của cụm.

Chi phí hoạt động là một yếu tố khác cần cân nhắc khi xác định quy mô. Mỗi nút đều yêu cầu một số chi phí vận hành về mặt bảo trì và giám sát, do đó, các nút lớn hơn có thể hoạt động hiệu quả hơn. Một nút lớn hơn cũng có thể tiết kiệm năng lượng hơn nhiều nút nhỏ hơn. Năng lực hoạt động phải là một phần của nỗ lực quy mô tổng thể.

Đối với các khối lượng công việc song song, mở rộng quy mô như Apache Spark , các tài nguyên được phân bổ dựa trên tính khả dụng ở cấp cụm và nhiều nhóm khối lượng công việc được khởi chạy. Do đó, nhóm khối lượng công việc có thể chạy trên bất kỳ nút vật lý nào có thể đáp ứng các yêu cầu về tài nguyên. Tùy thuộc vào khối lượng công việc của Spark , nhiều nhóm nhỏ hoặc một vài nhóm lớn có thể phù hợp. Thời gian chạy nền tảng container rất linh hoạt ở khía cạnh này. Có thể triển khai các cụm Spark một cách linh hoạt dựa trên chính công việc đó, thay vì yêu cầu một cụm Spark cố định được tối ưu hóa cho nhiều loại công việc.

Một số khối lượng công việc có thể có yêu cầu bộ nhớ lớn mà không thể đạt được bằng cách mở rộng quy mô. Bạn có thể phải tăng kích thước bộ nhớ ở một số hoặc tất cả các nút để chiếm mức phân bổ bộ nhớ dự kiến ​​lớn nhất cho khối lượng công việc đó.

Nền tảng này có thể hỗ trợ tới 100 nhóm hoặc nút công nhân . Kích thước cụm và nút nên nhắm tới số lượng nhóm ít hơn đáng kể so với giới hạn này.

Định cỡ khối lượng công việc

Các yêu cầu về tài nguyên cho khối lượng công việc dự kiến ​​của cụm phải được tính vào kích thước nút và cụm. Việc xác định kích thước chi tiết của các yêu cầu về khối lượng công việc rất phức tạp. Tuy nhiên, khi đã biết các yêu cầu về khối lượng công việc, việc ánh xạ vào các yêu cầu của cụm sẽ rất đơn giản. Tính linh hoạt của nền tảng cũng cho phép điều chỉnh và tinh chỉnh liên tục, do đó việc định cỡ không cần phải chính xác.

Apache Spark được sử dụng ở đây làm ví dụ về cách ánh xạ quy mô khối lượng công việc theo yêu cầu cụm. Ví dụ về yêu cầu phiên bản Spark tóm tắt các yêu cầu tài nguyên cho ba cụm Spark mẫu .

Bảng 20. Ví dụ về yêu cầu của phiên bản Spark
Tài nguyên cụm Spark Ví dụ nhỏ Ví dụ trung bình Ví dụ lớn
Công nhân Cụm Công nhân Cụm Công nhân Cụm
Số lượng nhóm ( công nhân Spark ) 4 số 8 12
Bộ nhớ (GB) số 8 32 16 128 32 384
lõi 4 16 6 48 số 8 96
Dung lượng lưu trữ Lakehouse (GB) 2 số 8 số 8 64 2 24
Bộ nhớ tạm thời (GB) số 8 32 16 128 32 384

Trong bảng trên, ba cụm với các yêu cầu và quy mô tài nguyên khác nhau đã được đưa vào. Các tài nguyên cho mỗi nhân viên Spark đã được chỉ định và bao gồm số lượng nhóm công nhân dự kiến. Dựa trên những yêu cầu này, tổng yêu cầu tài nguyên cho mỗi cụm được tính toán.

Đối với dung lượng lưu trữ trong hồ, lượng dung tích ròng mới trong hồ cần được sử dụng để tính toán. Nếu công việc dự kiến ​​​​sẽ xử lý dữ liệu hiện có thì không cần lưu trữ bổ sung. Nếu công việc tạo ra dữ liệu, có thể cần phải lưu trữ đáng kể. Trong phiên bản lớn, ước tính chỉ có 24 GB dung lượng lưu trữ trong hồ, trong khi phiên bản trung bình yêu cầu 64 GB. Phiên bản trung bình dự kiến ​​sẽ tạo ra nhiều dữ liệu hơn phiên bản lớn mặc dù nó sử dụng ít tài nguyên điện toán hơn.

Dựa trên những tính toán này, tài nguyên cấp cụm có thể được xác định. Trong ví dụ này, cấu hình cụm thí điểm có thể hỗ trợ bốn cụm Spark trung bình trước khi hết lõi hoặc có thể hỗ trợ hai phiên bản lớn.

Hướng dẫn chia tỷ lệ

Tổng quan về tỷ lệ

Trong suốt vòng đời của hệ thống, việc mở rộng quy mô nền tảng để hỗ trợ khối lượng công việc lớn hơn hoặc tăng khả năng tính toán và lưu trữ là điều cần thiết. Kiến trúc được thiết kế để mở rộng quy mô ở cấp độ điện toán, lưu trữ, điều khiển và khối lượng công việc. Thiết kế kết hợp quy mô mạng như một phần của quy mô cơ sở hạ tầng. Tính toán và lưu trữ có thể được mở rộng một cách độc lập.

Tính toán chia tỷ lệ

Việc mở rộng quy mô tính toán được thực hiện bằng cách thêm các nút bổ sung vào cụm. Sau khi cài đặt vật lý và cung cấp hệ điều hành, các dịch vụ lưu trữ và điện toán Symcloud có thể được thêm từ giao diện quản lý Symcloud . Các nút trở thành một phần của cụm. Mặt phẳng điều khiển và mạng được tự động điều chỉnh tỷ lệ khi các nút mới được thêm vào.

Sau khi các nút được thêm vào, các nút mới phải được thêm vào nhóm tài nguyên thích hợp. Khi thêm các nút không đồng nhất với các cấu hình cụ thể, việc thêm các nút đó vào nhóm tài nguyên cụ thể có thể có lợi. Làm như vậy sẽ cho phép hỗ trợ phân bổ chi tiết các nút đó.

Để biết thêm chi tiết về quy trình cung cấp nút, hãy xem tài liệu Symcloud , Quản lý nút .

Chia tỷ lệ lưu trữ

Việc mở rộng quy mô lưu trữ được thực hiện bằng cách thêm hoặc nâng cấp các nút trong cụm lưu trữ ECS hoặc PowerScale bằng cách sử dụng các công cụ quản lý cụm lưu trữ.

Mở rộng quy mô mạng

Kiến trúc này mở rộng băng thông mạng khi các nút tính toán hoặc lưu trữ được thêm vào. Khi mở rộng quy mô điện toán hoặc lưu trữ, bạn phải xem xét mọi hiệu ứng băng thông mạng liên quan đến cân bằng do băng thông tăng lên khi các nút được thêm vào. Cần xem xét những thay đổi đáng kể về khối lượng truyền dữ liệu dự kiến ​​để đảm bảo rằng băng thông khả dụng trên cụm điện toán và lưu trữ được căn chỉnh.

Phần kết luận

Thiết kế được xác thực của Dell dành cho phân tích – Data Lakehouse đã được phát triển để giải quyết nhu cầu của các tổ chức triển khai phân tích nâng cao. Nó kết hợp các khái niệm về kiến ​​trúc nhà hồ cùng với nền tảng container sử dụng tính toán và lưu trữ tách rời.

Tài liệu này cung cấp hướng dẫn thiết kế cho các nhà quản lý và kiến ​​trúc sư cơ sở hạ tầng phân tích dữ liệu bằng cách mô tả kiến ​​trúc được thiết kế trước, xác thực và có thể mở rộng để phân tích nâng cao trên cơ sở hạ tầng phần cứng của Dell . Các chủ đề đã được thảo luận bao gồm:

  • Kiến trúc cụm được thiết kế cho ứng dụng này, bao gồm cơ sở hạ tầng lưu trữ và máy chủ cụm cũng như vai trò của nó trong hệ thống
  • Các thiết kế mạng vật lý và logic cụm
  • Chi tiết về máy chủ PowerEdge , bộ lưu trữ PowerScale , bộ lưu trữ ECS và cấu hình mạng PowerSwitch
  • Các thành phần cơ sở hạ tầng phần mềm được đề xuất sử dụng trong kiến ​​trúc, bao gồm Nền tảng Symcloud
  • Ví dụ về đóng gói, triển khai và xác thực khối lượng công việc, bao gồm Apache Spark và Apache Kafka
  • Hướng dẫn chia tỷ lệ và định cỡ cụm