Tổng quan
Phân tích biểu hiện gen cũng quan trọng như xác định Đa hình Nucleotide Đơn (SNP), chèn/xóa (indel) hoặc tái cấu trúc nhiễm sắc thể. Cuối cùng, toàn bộ các sự kiện sinh lý và sinh hóa phụ thuộc vào sản phẩm biểu hiện gen cuối cùng là protein. Mặc dù hầu hết các động vật có vú đều có một lớp kiểm soát bổ sung trước khi biểu hiện protein, nhưng việc biết có bao nhiêu bản phiên mã tồn tại trong một hệ thống sẽ giúp mô tả trạng thái sinh hóa của tế bào. Lý tưởng nhất là một công nghệ cho phép chúng ta định lượng toàn bộ protein trong một tế bào có thể vượt trội trong tiến trình của Khoa học Đời sống một cách đáng kể; tuy nhiên, chúng ta còn lâu mới đạt được nó.
Ở đây, trong blog này, chúng tôi thử nghiệm một quy trình phân tích dữ liệu RNA-Seq phổ biến được gọi là quy trình Tuxedo (1). Bộ đường ống Tuxedo cung cấp một bộ công cụ để phân tích nhiều loại dữ liệu RNA-Seq, bao gồm ánh xạ đọc ngắn, xác định các mối nối mối nối, phát hiện bản sao và đồng dạng, biểu thức khác biệt, trực quan hóa và số liệu kiểm soát chất lượng. Các bước chi tiết trong quy trình được hiển thị trong Hình 1. Phiên bản cập nhật này của quy trình Tuxedo bao gồm bước Cuffquant so với phiên bản cũ được thử nghiệm trong blog trước đó (2).
Hình 1 Cập nhật Tuxedo Pipeline với Cuffquant Step
Các cấu hình của cụm thử nghiệm được tóm tắt trong Bảng 1 .
Dell EMC PowerEdge C6420 | |
CPU | 2x Xeon® Gold 6248 20c 2.5GHz (Cascade Lake) |
ĐẬP | 12x 16GB @2933 tấn/giây |
hệ điều hành | RHEEL 7.6 |
kết nối | Intel® Omni-Path |
Hồ sơ hệ thống BIOS | Hiệu suất được tối ưu hóa |
Bộ xử lý logic | Tàn tật |
Công nghệ ảo hóa | Tàn tật |
tophat | 2.1.1 |
nơ 2 | 2.2.5 |
r | 3.6 |
bioconductor-cummerbund | 2.26.0 |
Giải pháp Dell EMC Sẵn sàng cho Lưu trữ Lustre | |
Số nút | 1x Dell EMC PowerEdge R640 làm Trình quản lý tích hợp cho Lustre (IML)
2x Dell EMC PowerEdge R740 làm Máy chủ siêu dữ liệu (MDS) 2x Dell EMC PowerEdge R740 làm Máy chủ lưu trữ đối tượng (OSS) |
bộ vi xử lý | Máy chủ IML: Intel Xeon Gold 5118 kép @ 2,3 GHz
Máy chủ MDS và OSS: Intel Xeon Gold 6136 kép @ 3,00 GHz |
Trí nhớ | Máy chủ IML: 12 x 8 GB 2.666 MT/s DDR4 RDIMM
Máy chủ MDS và OSS: 24 x 16 GiB 2.666 MT/s DDR4 RDIMM |
Lưu trữ ngoài
bộ điều khiển |
2 x HBA Dell 12 Gb/s SAS (trên mỗi MDS)
4 x Dell 12 Gb/s SAS HBA (trên mỗi OSS) |
Lưu trữ đối tượng
bao vây |
4x ME4084 với tổng số 336 x 8TB NL 7.2K rpm SAS HDDs |
Lưu trữ siêu dữ liệu
bao vây |
1x ME4024 với 24x SSD 960GB SAS. Hỗ trợ tối đa 4.688B tệp/nút |
bộ điều khiển RAID | RAID kép trong vỏ ME4084 và ME4024 |
Hệ điều hành | CentOS 7.5 x86_64
Red Hat Enterprise Linux (RHEL) 7.5 x86_64 |
Phiên bản hạt nhân | 3.10.0-862.el7.x86_64 |
phiên bản sinh học | 1.4.5 |
Intel Omni-Path
phiên bản IF |
10.8.0.0 |
Hệ thống tập tin bóng
phiên bản |
2.10.4 |
phiên bản IML | 4.0.7.0 |
Một nghiên cứu về hiệu suất của đường dẫn RNA-Seq không hề đơn giản vì quy trình làm việc tự nhiên yêu cầu các tệp đầu vào không giống nhau. 185 Dữ liệu đọc đầu cuối ghép nối RNA-Seq được thu thập từ kho lưu trữ dữ liệu công cộng . Tất cả các tệp dữ liệu đã đọc chứa khoảng 25 triệu mảnh vỡ (MF) và có độ dài đọc tương tự nhau. Các mẫu cho thử nghiệm được chọn ngẫu nhiên từ nhóm 185 tệp đã đọc ở hai đầu được ghép nối. Mặc dù những dữ liệu được chọn ngẫu nhiên này sẽ không có bất kỳ ý nghĩa sinh học nào, nhưng chắc chắn những dữ liệu có mức độ nhiễu cao này sẽ đặt các thử nghiệm vào tình huống xấu nhất.
Đánh giá hiệu suất
Thử nghiệm hai mẫu
Trong Hình 2 , thời gian chạy của từng bước được vẽ. Thử nghiệm được chạy trong hai nút điện toán với hai mẫu chứa khoảng 25 triệu dữ liệu RNA-Seq đã đọc. Bước Tophat bắt đầu song song với từng mẫu trên một nút điện toán. Sau đó, Khuy măng sét bắt đầu sau khi hoàn thành Tophat. Bước Khuy măng sét kết hợp các kết quả từ hai lần chạy Khuy măng sét. Bước Cuffquant được thêm vào để định lượng các biểu hiện gen trong mỗi mẫu và kết quả được kiểm tra thêm trong các bước Cuffdiff và Cuffnorm. Bước cuối cùng, CummeRbund là một bước phân tích thống kê từ gói R CummeRbund và nó tạo ra một báo cáo trực quan như trong Hình 2 .
Hình 2 Tổng thời gian chạy cho quy trình Tuxedo với hai mẫu: SRR1608490 và SRR934809 .
Hình 3 cho thấy các gen được biểu hiện khác nhau từ 8 lần chạy mẫu (mỗi mẫu bao gồm 4 bản sao) có màu đỏ với giá trị p (trục Y) thấp hơn đáng kể so với các biểu hiện gen khác được minh họa bằng màu đen 1 . Trục X là các lần thay đổi trong cơ sở nhật ký của 2 và các thay đổi về lần này của từng gen được vẽ theo giá trị p. Nhiều mẫu hơn sẽ mang lại ước tính biểu hiện gen tốt hơn. Ô phía trên bên phải là các biểu hiện gen trong mẫu 2 so với mẫu 1 trong khi ô phía dưới bên trái là các biểu hiện gen trong mẫu 1 so với mẫu 2. Các biểu hiện gen trong các chấm đen không khác biệt đáng kể ở cả hai mẫu.
Hình 3 Biểu đồ núi lửa của kết quả Cuffdiff
Kiểm tra thông lượng – Một đường ống có nhiều hơn hai mẫu, bản sao sinh học và kỹ thuật
Các nghiên cứu RNA-Seq điển hình bao gồm nhiều mẫu, đôi khi là 100 mẫu khác nhau, bình thường so với bệnh hoặc mẫu không được điều trị so với được điều trị. Những mẫu này có xu hướng có độ ồn cao do lý do sinh học của chúng; do đó, phân tích yêu cầu quy trình tiền xử lý dữ liệu mạnh mẽ.
Chúng tôi đã thử nghiệm nhiều mẫu khác nhau (tất cả dữ liệu RNA-Seq khác nhau được chọn từ 185 bộ dữ liệu đọc đầu cuối được ghép nối) để xem 8 nút trong cụm PowerEdge C6420 có thể xử lý bao nhiêu dữ liệu. Như được hiển thị trong Hình 4 , thời gian chạy với 2, 4, 8, 16, 32 và 64 mẫu tăng theo cấp số nhân khi số lượng mẫu tăng lên. Số lượng Tỷ mảnh/Ngày tăng gần ba lần với bộ lưu trữ Cascade Lake 6248/LustreME4 và quy trình cập nhật.
Hình 4 So sánh thông lượng với 8x C6420 giữa Cascade Lake 6248/LustreME4 và Skylake 6148/H600
Bước Cuffmerge không chậm lại khi số lượng mẫu tăng lên trong khi bước Cuffdiff và Cuffnorm chậm lại đáng kể. Đặc biệt, bước Cuffdiff trở thành nút cổ chai cho đường ống do thời gian chạy tăng theo cấp số nhân (Hình 5). Mặc dù thời gian chạy của Cuffnorm tăng theo cấp số nhân như Cuffdiff, nhưng không thể biết được vì thời gian chạy của Cuffnorm bị giới hạn bởi thời gian chạy của Cuffdiff. Việc thêm bước Cuffquant đã cải thiện đáng kể thời gian chạy của Cuffdiff. Giảm 30 giờ thời gian chạy ở bước Cuffdiff và Cuffnorm hoàn thành nhanh hơn 20 giờ với bước Cuffquant. Mặc dù hiệu suất đạt được từ Cuffnorm không hiển thị do Cuffdiff và Cuffnorm bắt đầu cùng một lúc.
Hình 5 Gia số thời gian chạy trên Cuffdiff và Cuffnorm
Phần kết luận
Kết quả kiểm tra thông lượng cho thấy PowerEdge C6420 8 nút với bộ lưu trữ Lustre có thể xử lý khoảng 2,7 tỷ Mảnh vỡ từ 64 mẫu với ~50 triệu lượt đọc được ghép nối cho mỗi mẫu (25 MF) thông qua quy trình Tuxedo được minh họa trong Hình 1. Vì quy trình Tuxedo tương đối nhanh hơn các quy trình khác các đường ống phổ biến, thật khó để khái quát hóa hoặc sử dụng các kết quả này để định cỡ chính xác hệ thống HPC. Tuy nhiên, kết quả có thể giúp ước tính sơ bộ về quy mô của hệ thống HPC.
Bài viết mới cập nhật
Tăng tốc khối lượng công việc của Hệ thống tệp mạng (NFS) của bạn với RDMA
Giao thức NFS hiện nay được sử dụng rộng rãi trong ...
Mẹo nhanh về dữ liệu phi cấu trúc – OneFS Protection Overhead
Gần đây đã có một số câu hỏi từ lĩnh vực ...
Giới thiệu Dell PowerScale OneFS dành cho Quản trị viên NetApp
Để các doanh nghiệp khai thác được lợi thế của công ...
Cơ sở hạ tầng CNTT: Mua hay đăng ký?
Nghiên cứu theo số liệu của IDC về giải pháp đăng ...