Tổng quan
Phân tích biểu hiện gen cũng quan trọng như xác định Đa hình Nucleotide Đơn (SNP), chèn/xóa (indel) hoặc tái cấu trúc nhiễm sắc thể. Cuối cùng, tất cả các sự kiện sinh lý và sinh hóa đều phụ thuộc vào sản phẩm biểu hiện gen cuối cùng là protein. Mặc dù hầu hết các động vật có vú đều có một lớp kiểm soát bổ sung trước khi biểu hiện protein, nhưng việc biết có bao nhiêu bản phiên mã tồn tại trong một hệ thống sẽ giúp mô tả trạng thái sinh hóa của tế bào. Lý tưởng nhất là công nghệ sẽ cho phép chúng ta định lượng tất cả các protein trong một tế bào, điều này sẽ thúc đẩy đáng kể tiến trình của Khoa học Đời sống. Tuy nhiên, chúng ta còn lâu mới đạt được điều này.
Blog này cung cấp kết quả thử nghiệm của một quy trình phân tích dữ liệu RNA-Seq phổ biến được gọi là quy trình Tuxedo (1). Bộ đường dẫn Tuxedo cung cấp một bộ công cụ để phân tích nhiều loại dữ liệu RNA-Seq, bao gồm ánh xạ đọc ngắn, xác định các mối nối mối nối, bản phiên mã và phát hiện đồng dạng, biểu thức khác biệt, trực quan hóa và các chỉ số kiểm soát chất lượng. Quy trình thử nghiệm là phân tích gen (DEG) được biểu hiện khác biệt và các bước chi tiết trong quy trình được thể hiện trong Hình 1.
Hình 1. Đường ống tuxedo được cập nhật với bước khuy măng sét
Nghiên cứu một nút với dòng AMD EPYC 7002 (Rome) và dòng AMD EPYC 7003 (Milan) trên máy chủ Dell EMC PowerEdge R6525 đã được thực hiện. Các cấu hình của hệ thống thử nghiệm được tóm tắt trong Bảng 1.
Bảng 1. Cấu hình nút điện toán đã thử nghiệm
Dell EMC PowerEdge R6525 | |
---|---|
CPU | Đã thử nghiệm AMD Milan:
2x 7763 (Milan), 64 lõi, 2,45 GHz – 3,5 GHz Base-Boost, TDP 280 W, 256 MB L3 Cache 2x 7713 (Milan), 64 lõi, 2,0 GHz – 3,7 GHz Base-Boost, TDP 225 W, 256 MB L3 Cache 7543 (Milan), 32 lõi, 2,8 GHz – 3,7 GHz Base-Boost, TDP 225 W, 256 MB bộ nhớ đệm L3
Đã thử nghiệm AMD Rome: 7702 (Rome), 64 lõi, 2,0 GHz – 3,35 GHz Base-Boost, TDP 200 W, 256 MB bộ nhớ đệm L3 |
ĐẬP | DDR4 256 GB (16 Gb x 16) 3200 tấn/giây |
Hệ điều hành | RHEL 8.3 (4.18.0-240.el8.x86_64) |
kết nối | Mellanox InfiniBand HDR100 |
Hệ thống tập tin | Giải pháp sẵn sàng của Dell EMC cho Bộ lưu trữ dung lượng cao HPC BeeGFS |
Hồ sơ hệ thống BIOS | Hiệu suất được tối ưu hóa |
bộ xử lý logic | Vô hiệu hóa |
công nghệ ảo hóa | Vô hiệu hóa |
tophat | 2.1.1 |
nơ 2 | 2.2.5 |
r | 3.6 |
chất dẫn điện sinh học | 2.26.0 |
Một nghiên cứu về hiệu suất của quy trình RNA-Seq không hề đơn giản vì bản chất của quy trình công việc yêu cầu các tệp đầu vào không giống nhau nhưng các tệp đầu vào tương tự nhau về kích thước. Do đó, dữ liệu đọc đầu cuối ghép nối 185 RNA-Seq được thu thập từ kho lưu trữ dữ liệu công khai . Tất cả các tệp dữ liệu đã đọc chứa khoảng 25 triệu mảnh vỡ (MF) và có độ dài đọc tương tự nhau. Các mẫu cho thử nghiệm được chọn ngẫu nhiên từ nhóm 185 tệp đọc hai đầu được ghép nối. Mặc dù những dữ liệu thử nghiệm này sẽ không có bất kỳ ý nghĩa sinh học nào, nhưng chắc chắn những dữ liệu này với mức độ nhiễu cao sẽ đặt các thử nghiệm vào tình huống xấu nhất.
Đánh giá hiệu suất
Kiểm tra thông lượng – Một đường ống có nhiều hơn hai mẫu, bản sao sinh học và kỹ thuật
Các nghiên cứu RNA-Seq điển hình bao gồm nhiều mẫu, đôi khi là 100 mẫu khác nhau, bình thường so với bệnh hoặc mẫu chưa được xử lý so với đã được xử lý. Những mẫu này có xu hướng có độ ồn cao vì lý do sinh học; do đó, phân tích yêu cầu quy trình tiền xử lý dữ liệu mạnh mẽ.
Một số mẫu khác nhau đã được xử lý, với dữ liệu RNA-Seq khác nhau được chọn từ bộ dữ liệu đọc 185 đầu cuối được ghép nối, để xem một nút có thể xử lý bao nhiêu dữ liệu. Thông thường, khi số lượng mẫu tăng lên, thời gian chạy của quy trình Tuxedo cũng tăng lên. Tuy nhiên, như thể hiện trong hình bên dưới, thời gian chạy với hai thử nghiệm mẫu sử dụng 7713 cao hơn thời gian chạy từ bốn mẫu. Sai số chuẩn từ năm lần chạy lặp lại không trùng lặp với bốn và tám kết quả mẫu. Sự can thiệp của những người dùng khác có thể gây ra sự chênh lệch lớn này. Môi trường thử nghiệm hiện tại, đặc biệt là hệ thống tệp dùng chung được thiết kế cho dung lượng lớn, không lý tưởng cho điểm chuẩn phân tích dữ liệu Trình tự thế hệ tiếp theo (NGS).
Hình 2. So sánh thời gian chạy giữa các bộ xử lý Sê-ri AMD EPYC 7003 khác nhau: Sai số chuẩn được ước tính từ độ lệch chuẩn ước tính dựa trên mẫu (hàm STDDEV.S trong Excel)
Tám kết quả thử nghiệm mẫu cho thấy bộ xử lý AMD Milan hoạt động tốt hơn một trong các bộ xử lý Rome (7702) ở khối lượng công việc cao hơn.
Phần kết luận
Nhiều thử nghiệm vẫn được yêu cầu để có được cái nhìn sâu sắc hơn về bộ xử lý AMD Milan cho khu vực phân tích dữ liệu NGS. Thật không may, các thử nghiệm không thể vượt quá tám mẫu do hạn chế về lưu trữ. Tuy nhiên, dường như có nhiều chỗ cho thông lượng cao hơn để xử lý hơn tám mẫu cùng nhau. AMD Milan 7763 hoạt động tốt hơn 20% so với AMD Rome 7702. AMD Milan 7713 hoạt động tốt hơn 18% trong tám thử nghiệm mẫu cho đường ống Tuxedo như được mô tả trong Hình 2.
Bài viết mới cập nhật
Tăng tốc khối lượng công việc của Hệ thống tệp mạng (NFS) của bạn với RDMA
Giao thức NFS hiện nay được sử dụng rộng rãi trong ...
Mẹo nhanh về dữ liệu phi cấu trúc – OneFS Protection Overhead
Gần đây đã có một số câu hỏi từ lĩnh vực ...
Giới thiệu Dell PowerScale OneFS dành cho Quản trị viên NetApp
Để các doanh nghiệp khai thác được lợi thế của công ...
Cơ sở hạ tầng CNTT: Mua hay đăng ký?
Nghiên cứu theo số liệu của IDC về giải pháp đăng ...