Giải pháp Dell EMC Sẵn sàng cho Khoa học Đời sống HPC: Tuxedo Pipeline với CPU Cascade Lake và Lustre/ME4 Refresh

Tổng quan

Phân tích biểu hiện gen cũng quan trọng như xác định Đa hình Nucleotide Đơn (SNP), chèn/xóa (indel) hoặc tái cấu trúc nhiễm sắc thể. Cuối cùng, toàn bộ các sự kiện sinh lý và sinh hóa phụ thuộc vào sản phẩm biểu hiện gen cuối cùng là protein. Mặc dù hầu hết các động vật có vú đều có một lớp kiểm soát bổ sung trước khi biểu hiện protein, nhưng việc biết có bao nhiêu bản phiên mã tồn tại trong một hệ thống sẽ giúp mô tả trạng thái sinh hóa của tế bào. Lý tưởng nhất là một công nghệ cho phép chúng ta định lượng toàn bộ protein trong một tế bào có thể vượt trội trong tiến trình của Khoa học Đời sống một cách đáng kể; tuy nhiên, chúng ta còn lâu mới đạt được nó. 

Ở đây, trong blog này, chúng tôi thử nghiệm một quy trình phân tích dữ liệu RNA-Seq phổ biến được gọi là quy trình Tuxedo (1). Bộ đường ống Tuxedo cung cấp một bộ công cụ để phân tích nhiều loại dữ liệu RNA-Seq, bao gồm ánh xạ đọc ngắn, xác định các mối nối mối nối, phát hiện bản sao và đồng dạng, biểu thức khác biệt, trực quan hóa và số liệu kiểm soát chất lượng. Các bước chi tiết trong quy trình được hiển thị trong Hình 1. Phiên bản cập nhật này của quy trình Tuxedo bao gồm bước Cuffquant so với phiên bản cũ được thử nghiệm trong blog trước đó (2).

SLN319725_en_US__1Quy trình làm việc Tuxedo
Hình 1 Cập nhật Tuxedo Pipeline với Cuffquant Step

Các cấu hình của cụm thử nghiệm được tóm tắt trong Bảng 1 .

Bảng 1 Cấu hình nút điện toán đã thử nghiệm
Dell EMC PowerEdge C6420
CPU 2x Xeon® Gold 6248 20c 2.5GHz (Cascade Lake)
ĐẬP 12x 16GB @2933 tấn/giây
hệ điều hành RHEEL 7.6
kết nối Intel® Omni-Path
Hồ sơ hệ thống BIOS Hiệu suất được tối ưu hóa
Bộ xử lý logic Tàn tật
Công nghệ ảo hóa Tàn tật
tophat 2.1.1
nơ 2 2.2.5
r 3.6
bioconductor-cummerbund 2.26.0
Các nút điện toán đã thử nghiệm được kết nối với Giải pháp Dell EMC Ready cho Luster Storage thông qua Intel ® Omni-Path (3). Cấu hình tóm tắt của bộ lưu trữ được liệt kê trong Bảng 2 .

Bảng 2 Thông số kỹ thuật phần cứng và phần mềm của Lustre Storage Solution
Giải pháp Dell EMC Sẵn sàng cho Lưu trữ Lustre
Số nút 1x Dell EMC PowerEdge R640 làm Trình quản lý tích hợp cho Lustre (IML)

2x Dell EMC PowerEdge R740 làm Máy chủ siêu dữ liệu (MDS)

2x Dell EMC PowerEdge R740 làm Máy chủ lưu trữ đối tượng (OSS)

bộ vi xử lý Máy chủ IML: Intel Xeon Gold 5118 kép @ 2,3 GHz

Máy chủ MDS và OSS: Intel Xeon Gold 6136 kép @ 3,00 GHz

Trí nhớ Máy chủ IML: 12 x 8 GB 2.666 MT/s DDR4 RDIMM

Máy chủ MDS và OSS: 24 x 16 GiB 2.666 MT/s DDR4 RDIMM

Lưu trữ ngoài

bộ điều khiển

2 x HBA Dell 12 Gb/s SAS (trên mỗi MDS)

4 x Dell 12 Gb/s SAS HBA (trên mỗi OSS)

Lưu trữ đối tượng

bao vây

4x ME4084 với tổng số 336 x 8TB NL 7.2K rpm SAS HDDs
Lưu trữ siêu dữ liệu

bao vây

1x ME4024 với 24x SSD 960GB SAS. Hỗ trợ tối đa 4.688B tệp/nút
bộ điều khiển RAID RAID kép trong vỏ ME4084 và ME4024
Hệ điều hành CentOS 7.5 x86_64

Red Hat Enterprise Linux (RHEL) 7.5 x86_64

Phiên bản hạt nhân 3.10.0-862.el7.x86_64
phiên bản sinh học 1.4.5
Intel Omni-Path

phiên bản IF

10.8.0.0
Hệ thống tập tin bóng

phiên bản

2.10.4
phiên bản IML 4.0.7.0

 

Một nghiên cứu về hiệu suất của đường dẫn RNA-Seq không hề đơn giản vì quy trình làm việc tự nhiên yêu cầu các tệp đầu vào không giống nhau. 185 Dữ liệu đọc đầu cuối ghép nối RNA-Seq được thu thập từ kho lưu trữ dữ liệu công cộng . Tất cả các tệp dữ liệu đã đọc chứa khoảng 25 triệu mảnh vỡ (MF) và có độ dài đọc tương tự nhau. Các mẫu cho thử nghiệm được chọn ngẫu nhiên từ nhóm 185 tệp đã đọc ở hai đầu được ghép nối. Mặc dù những dữ liệu được chọn ngẫu nhiên này sẽ không có bất kỳ ý nghĩa sinh học nào, nhưng chắc chắn những dữ liệu có mức độ nhiễu cao này sẽ đặt các thử nghiệm vào tình huống xấu nhất.
Đánh giá hiệu suất

Thử nghiệm hai mẫu

Trong Hình 2 , thời gian chạy của từng bước được vẽ. Thử nghiệm được chạy trong hai nút điện toán với hai mẫu chứa khoảng 25 triệu dữ liệu RNA-Seq đã đọc. Bước Tophat bắt đầu song song với từng mẫu trên một nút điện toán. Sau đó, Khuy măng sét bắt đầu sau khi hoàn thành Tophat. Bước Khuy măng sét kết hợp các kết quả từ hai lần chạy Khuy măng sét. Bước Cuffquant được thêm vào để định lượng các biểu hiện gen trong mỗi mẫu và kết quả được kiểm tra thêm trong các bước Cuffdiff và Cuffnorm. Bước cuối cùng, CummeRbund là một bước phân tích thống kê từ gói R CummeRbund và nó tạo ra một báo cáo trực quan như trong Hình 2 .

SLN319725_vi_US__2hình2_1
Hình 2 Tổng thời gian chạy cho quy trình Tuxedo với hai mẫu: SRR1608490 và SRR934809 .

Hình 3 cho thấy các gen được biểu hiện khác nhau từ 8 lần chạy mẫu (mỗi mẫu bao gồm 4 bản sao) có màu đỏ với giá trị p (trục Y) thấp hơn đáng kể so với các biểu hiện gen khác được minh họa bằng màu đen . Trục X là các lần thay đổi trong cơ sở nhật ký của 2 và các thay đổi về lần này của từng gen được vẽ theo giá trị p. Nhiều mẫu hơn sẽ mang lại ước tính biểu hiện gen tốt hơn. Ô phía trên bên phải là các biểu hiện gen trong mẫu 2 so với mẫu 1 trong khi ô phía dưới bên trái là các biểu hiện gen trong mẫu 1 so với mẫu 2. Các biểu hiện gen trong các chấm đen không khác biệt đáng kể ở cả hai mẫu.

SLN319725_vi_US__3hình3
Hình 3 Biểu đồ núi lửa của kết quả Cuffdiff

Kiểm tra thông lượng – Một đường ống có nhiều hơn hai mẫu, bản sao sinh học và kỹ thuật

Các nghiên cứu RNA-Seq điển hình bao gồm nhiều mẫu, đôi khi là 100 mẫu khác nhau, bình thường so với bệnh hoặc mẫu không được điều trị so với được điều trị. Những mẫu này có xu hướng có độ ồn cao do lý do sinh học của chúng; do đó, phân tích yêu cầu quy trình tiền xử lý dữ liệu mạnh mẽ.

 

Chúng tôi đã thử nghiệm nhiều mẫu khác nhau (tất cả dữ liệu RNA-Seq khác nhau được chọn từ 185 bộ dữ liệu đọc đầu cuối được ghép nối) để xem 8 nút trong cụm PowerEdge C6420 có thể xử lý bao nhiêu dữ liệu. Như được hiển thị trong Hình 4 , thời gian chạy với 2, 4, 8, 16, 32 và 64 mẫu tăng theo cấp số nhân khi số lượng mẫu tăng lên. Số lượng Tỷ mảnh/Ngày tăng gần ba lần với bộ lưu trữ Cascade Lake 6248/LustreME4 và quy trình cập nhật.

SLN319725_en_US__4hình4
Hình 4 So sánh thông lượng với 8x C6420 giữa Cascade Lake 6248/LustreME4 và Skylake 6148/H600

Bước Cuffmerge không chậm lại khi số lượng mẫu tăng lên trong khi bước Cuffdiff và Cuffnorm chậm lại đáng kể. Đặc biệt, bước Cuffdiff trở thành nút cổ chai cho đường ống do thời gian chạy tăng theo cấp số nhân (Hình 5). Mặc dù thời gian chạy của Cuffnorm tăng theo cấp số nhân như Cuffdiff, nhưng không thể biết được vì thời gian chạy của Cuffnorm bị giới hạn bởi thời gian chạy của Cuffdiff. Việc thêm bước Cuffquant đã cải thiện đáng kể thời gian chạy của Cuffdiff. Giảm 30 giờ thời gian chạy ở bước Cuffdiff và Cuffnorm hoàn thành nhanh hơn 20 giờ với bước Cuffquant. Mặc dù hiệu suất đạt được từ Cuffnorm không hiển thị do Cuffdiff và Cuffnorm bắt đầu cùng một lúc.

SLN319725_vi_US__5hình5
Hình 5 Gia số  thời gian chạy trên Cuffdiff và Cuffnorm

Phần kết luận

Kết quả kiểm tra thông lượng cho thấy PowerEdge C6420 8 nút với bộ lưu trữ Lustre có thể xử lý khoảng 2,7 tỷ Mảnh vỡ từ 64 mẫu với ~50 triệu lượt đọc được ghép nối cho mỗi mẫu (25 MF) thông qua quy trình Tuxedo được minh họa trong Hình 1. Vì quy trình Tuxedo tương đối nhanh hơn các quy trình khác các đường ống phổ biến, thật khó để khái quát hóa hoặc sử dụng các kết quả này để định cỡ chính xác hệ thống HPC. Tuy nhiên, kết quả có thể giúp ước tính sơ bộ về quy mô của hệ thống HPC.