Hiệu suất đường ống tuxedo trên Dell EMC PowerEdge C6520

Tổng quan

Phân tích biểu hiện gen cũng quan trọng như xác định Đa hình Nucleotide Đơn (SNP), chèn/xóa (indel) hoặc tái cấu trúc nhiễm sắc thể. Cuối cùng, tất cả các sự kiện sinh lý và sinh hóa đều phụ thuộc vào sản phẩm biểu hiện gen cuối cùng là protein. Mặc dù hầu hết các động vật có vú đều có một lớp kiểm soát bổ sung trước khi biểu hiện protein, nhưng việc biết có bao nhiêu bản phiên mã tồn tại trong một hệ thống sẽ giúp mô tả trạng thái sinh hóa của tế bào. Lý tưởng nhất là công nghệ sẽ cho phép chúng ta định lượng tất cả các protein trong một tế bào, điều này sẽ thúc đẩy đáng kể tiến trình của Khoa học Đời sống; tuy nhiên, chúng ta còn lâu mới đạt được điều này.  

Trong blog này, chúng tôi báo cáo kết quả thử nghiệm của một quy trình phân tích dữ liệu RNA-Seq phổ biến được gọi là quy trình Tuxedo. Bộ đường ống Tuxedo cung cấp một bộ công cụ để phân tích nhiều loại dữ liệu RNA-Seq, bao gồm ánh xạ đọc ngắn, xác định các mối nối mối nối, phát hiện bản sao và đồng dạng, biểu thức khác biệt, trực quan hóa và số liệu kiểm soát chất lượng. Quy trình thử nghiệm là phân tích gen (DEG) được biểu hiện khác biệt và các bước chi tiết trong quy trình được thể hiện trong Hình 1. 

Hình 1: Tuxedo Pipeline cập nhật với Cuffquant Step

Trong nghiên cứu này, hiệu suất của các nút đơn với Bộ xử lý có khả năng thay đổi Intel® Xeon® thế hệ thứ 3 (tên mã Ice Lake) và Bộ xử lý có khả năng thay đổi Intel® Xeon® thế hệ thứ 2 (tên mã Cascade Lake) trên các máy chủ Dell EMC PowerEdge R6520 (làm mát bằng chất lỏng) và C6420 máy chủ (làm mát bằng không khí) đã được so sánh. Cấu hình của các hệ thống thử nghiệm được tóm tắt trong Bảng 1.

Bảng 1: Cấu hình nút điện toán đã thử nghiệm

Dell EMC PowerEdge C6520 Làm mát bằng chất lỏng
CPU Bộ xử lý có khả năng thay đổi Intel® Xeon® thế hệ thứ 3 đã được thử nghiệm:

2 x Intel® Xeon® Platinum 8358, 32 lõi, 2,60 GHz – 3,40 GHz Base-Boost, TDP 250W

2 x Intel® Xeon® Platinum 8352Y, 32 lõi, 2,20 GHz – 3,40 GHz Base-Boost, TDP 205W

 

Bộ xử lý có khả năng mở rộng Intel® Xeon® thế hệ thứ 2 đã được thử nghiệm:

2 x Intel® Xeon® Gold 6248, 20 lõi, 2,50 GHz – 3,90 GHz Base-Boost, TDP 150W trên Dell EMC PowerEdge C6420 Làm mát bằng không khí

ĐẬP DDR4 512 GB (16 x 32 GB) 3200 tấn/giây
Hệ điều hành RHEL 8.3 (4.18.0-240.el8.x86_64)
kết nối Mellanox InfiniBand HDR100
Hệ thống tập tin Giải pháp sẵn sàng của Dell EMC cho Bộ lưu trữ dung lượng cao HPC BeeGFS
Hồ sơ hệ thống BIOS Hiệu suất được tối ưu hóa
bộ xử lý logic Vô hiệu hóa
công nghệ ảo hóa Vô hiệu hóa
tophat 2.1.1
nơ 2 2.2.5
r 3.6
bioconductor-cummerbund 2.26.0

Một nghiên cứu về hiệu suất của quy trình RNA-Seq không hề đơn giản vì bản chất của quy trình công việc yêu cầu các tệp đầu vào không giống nhau nhưng có kích thước tương tự nhau. Do đó, dữ liệu đọc đầu cuối ghép nối 185 RNA-Seq được thu thập từ kho lưu trữ dữ liệu công khai . Tất cả các tệp dữ liệu đã đọc chứa khoảng 25 triệu mảnh vỡ (MF) và có độ dài đọc tương tự nhau. Các mẫu cho thử nghiệm được chọn ngẫu nhiên từ nhóm 185 tệp đọc hai đầu được ghép nối. Mặc dù những dữ liệu thử nghiệm này sẽ không có bất kỳ ý nghĩa sinh học nào, nhưng chắc chắn những dữ liệu này với mức độ nhiễu cao sẽ đặt các thử nghiệm vào trường hợp xấu nhất.

Đánh giá hiệu suất

Kiểm tra thông lượng – Một đường ống có nhiều hơn hai mẫu, bản sao sinh học và kỹ thuật

Các nghiên cứu RNA-Seq điển hình bao gồm nhiều mẫu, đôi khi là hàng trăm mẫu khác nhau, ví dụ: mẫu bình thường so với bệnh hoặc mẫu không được điều trị so với mẫu được điều trị. Những mẫu này có xu hướng có độ ồn cao vì lý do sinh học; do đó, phân tích đòi hỏi các quy trình tiền xử lý dữ liệu mạnh mẽ. 

Chúng tôi đã thử nghiệm nhiều mẫu khác nhau (tất cả các dữ liệu RNA-Seq khác nhau được chọn từ 185 bộ dữ liệu đọc ở hai đầu được ghép nối) để xem một nút duy nhất có thể xử lý bao nhiêu dữ liệu. Thông thường, khi số lượng mẫu tăng lên, thời gian chạy của Tuxedo Pipeline cũng tăng lên như thể hiện trong Hình 2. CPU Ice Lake cho thấy thời gian chạy tổng thể được cải thiện từ 10% trở lên so với CPU Cascade Lake 6248.

Hình 2: So sánh tổng thời gian chạy từ nhiều mẫu khác nhau với một nút tính toán duy nhất

Phần kết luận

Vẫn cần nhiều thử nghiệm bổ sung để hiểu rõ hơn về bộ xử lý Intel Ice Lake cho khu vực phân tích dữ liệu NGS. Thật không may, chúng tôi không thể thực hiện các thử nghiệm của mình trên 8 mẫu do giới hạn lưu trữ. Tuy nhiên, dường như có nhiều chỗ để xử lý thông lượng cao hơn với hơn 8 mẫu cùng nhau.