Đường ống gọi biến thể BWA-GATK Germline
-
Mặc dù BWA đã ổn định trong nhiều năm, một số sửa đổi cơ bản đã được thực hiện đối với GATK phiên bản 4 trở lên. Trong khi các phiên bản GATK trước phiên bản 4 hỗ trợ đa luồng, phiên bản 4 trở lên chỉ hỗ trợ hoạt động đơn luồng. Để khắc phục nhược điểm này, phiên bản Spark của GATK cũng được cung cấp; tuy nhiên, nó chủ yếu là thử nghiệm.
Để đo điểm chuẩn GATK v3.6, Dell Technologies đã sử dụng cùng một quy trình cho tất cả các điểm chuẩn trước đó. Tuy nhiên, hai phiên bản khác nhau của quy trình dành cho GATK v4.2 được tạo dựa trên quy trình phân tích dữ liệu nhóm dòng mầm như trong Hình 5.
Đường ống BWA-GATK v3.6
Quy trình này được thiết kế để thực hiện gọi biến thể dòng mầm cho các mục đích điểm chuẩn. Các bước trong quy trình và ứng dụng của chúng được liệt kê trong Bảng 6.
Bước 1 bao gồm ba ứng dụng được kết nối với nhau. Đầu ra từ BWA được chuyển trực tiếp đến Samtools để chuyển đổi tệp từ SAM sang BAM. Và đầu ra được chuyển đổi từ nguồn cấp dữ liệu Samtools sang Sambamba để sắp xếp trình tự đọc theo vị trí nhiễm sắc thể của chúng. Kỹ thuật đường ống này có thể tiết kiệm được việc ghi một tệp lớn hai lần; tuy nhiên, nó có thể dễ dàng làm cạn kiệt khả năng đa nhiệm của CPU nếu nhiều mẫu được xử lý thông qua đường ống này. Có một số lượng lớn các mẫu được xử lý đồng thời với đường ống. Mặt khác, tổng số lõi trong một hệ thống là số lượng mẫu tối đa có thể chạy cùng nhau.
Nếu không có tập dữ liệu nhóm thuần tập phù hợp, thì không thể có được thời gian chạy đáng tin cậy từ Bước 7, Nhóm cuộc gọi chung. Điều đáng chú ý là kết quả từ Bước 7 không thực tế như Dell Technologies đã thử nghiệm với một mẫu duy nhất. Thời gian chạy của Bước 7 sẽ tăng theo quy mô của nhóm.
Bước chân
Hoạt động
Các ứng dụng
1
Căn chỉnh và sắp xếp
BWA, Samtools, Sambamba
2
Đánh dấu và loại bỏ trùng lặp
sambamba
3
Tạo mục tiêu sắp xếp lại
GATK – RealignerTargetCreator
4
Sắp xếp lại xung quanh Chèn và Xóa
GATK – IndelRealigner
5
Căn chỉnh lại
GATK – Bộ hiệu chỉnh cơ sở
6
Biến thể cuộc gọi
GATK – HaplotypeCaller
7
Hợp nhất GVCF
GATK – Kiểu genGVCF
số 8
Hiệu chỉnh lại các biến thể
GATK – Bộ hiệu chỉnh biến thể
9
Áp dụng hiệu chỉnh lại biến thể
GATK – Áp dụng hiệu chỉnh lại
Đường dẫn BWA-GATK v4.2
Với GATK phiên bản 4 trở lên, các bước GATK được đơn giản hóa đáng kể. Đặc biệt, Bước 4 được loại bỏ trong Bảng 6 ở trên tiết kiệm hơn bảy giờ thời gian chạy. Tuy nhiên, GATK phiên bản 4 trở lên không hỗ trợ nhiều luồng, điều này làm tăng thời gian chạy gần gấp ba lần so với đường dẫn BWA-GATK v3.6.
Bước chân
Hoạt động
Các ứng dụng
1
Căn chỉnh và sắp xếp
BWA, Samtools, Sambamba
2
Đánh dấu và loại bỏ trùng lặp
sambamba
3
Hiệu chỉnh lại cơ sở và tạo BQSR
GATK – Bộ hiệu chỉnh cơ sở
4
Áp dụng BQSR
GATK – Áp dụngBQSR
5
Biến thể cuộc gọi
GATK – HaplotypeCaller
6
Hợp nhất GVCF
GATK – Kiểu genGVCF
Đường ống song song hóa dữ liệu BWA-GATK v4.2
Do thiếu hỗ trợ đa luồng trong GATK v4.2, thời gian xử lý của một mẫu có thể tăng gấp ba lần so với thời gian chạy từ GATK v3.6. Sẽ không công bằng khi so sánh thời gian chạy giữa hai phiên bản GATK khác nhau vì chúng đang xử lý dữ liệu theo những cách khác nhau. Tuy nhiên, thời gian chạy tổng thể của đường ống v4.2 tăng lên đáng kể và rõ ràng là nó sẽ gây ra tắc nghẽn nghiêm trọng trong quá trình xử lý dữ liệu.
Việc thêm các bước song song hóa dữ liệu không đơn giản vì nó có thể gây loãng dữ liệu ở các bước thống kê trong Bước 3 đến 6. Nếu không song song hóa dữ liệu, các bước này sẽ thấy toàn bộ dữ liệu được cung cấp ở Bước 1. Ví dụ: chuỗi đầu vào đọc dữ liệu là 50x WGS , các bước này sẽ sử dụng khoảng 50 ví dụ cho mỗi vị trí nhiễm sắc thể. Tuy nhiên, nếu đầu vào được chia thành 50 khối để song song hóa dữ liệu, thì các bước này về cơ bản sẽ chuyển đổi dữ liệu 50x thành dữ liệu 1x WGS. Sự chia tách này sẽ là nguyên nhân chính dẫn đến kết quả không đáng tin cậy. Ý tưởng về song song hóa dữ liệu được đề xuất là thêm bước DP 2 để hợp nhất dữ liệu được căn chỉnh. Sau đó, tách dữ liệu một lần nữa để giữ tất cả các lần đọc từ một vùng nhiễm sắc thể tương tự. Sự song song hóa này có thể thực hiện được vì các lần đọc trình tự được sắp xếp dựa trên vị trí các lần đọc này khớp với nhau trên các nhiễm sắc thể. Tuy nhiên, việc chia nhỏ dữ liệu thành nhiều tệp yêu cầu thời gian hoạt động đáng kể do có liên quan đến việc ghi nhiều tệp nhỏ. Ở bước DP 3 và 4, hãy đếm số lần đọc được căn chỉnh thành công trong Bước 1. Sau đó, tạo các tệp chỉ mục để ghi lại vị trí bắt đầu và kết thúc của nhiễm sắc thể chia đều số lần đọc. Bước DP 4 tạo nhiều tệp khoảng thời gian để chuyển qua các bước tiếp theo, Bước 3 đến 6 chỉ cho phép các bước hoạt động trong vùng được chỉ định trong tệp khoảng thời gian. Sau khi các bước đồng thời tạo ra kết quả đầu ra cuối cùng ở Bước 6, các kết quả này được ghép lại với nhau ở bước DP 5. Sau đó, tạo các tệp chỉ mục để ghi lại vị trí bắt đầu và kết thúc nhiễm sắc thể chia đều số lần đọc. Bước DP 4 tạo nhiều tệp khoảng thời gian để chuyển qua các bước tiếp theo, Bước 3 đến 6 chỉ cho phép các bước hoạt động trong vùng được chỉ định trong tệp khoảng thời gian. Sau khi các bước đồng thời tạo ra kết quả đầu ra cuối cùng ở Bước 6, các kết quả này được ghép lại với nhau ở bước DP 5. Sau đó, tạo các tệp chỉ mục để ghi lại vị trí bắt đầu và kết thúc nhiễm sắc thể chia đều số lần đọc. Bước DP 4 tạo nhiều tệp khoảng thời gian để chuyển qua các bước tiếp theo, Bước 3 đến 6 chỉ cho phép các bước hoạt động trong vùng được chỉ định trong tệp khoảng thời gian. Sau khi các bước đồng thời tạo ra kết quả đầu ra cuối cùng ở Bước 6, các kết quả này được ghép lại với nhau ở bước DP 5.
Hoạt động
Các ứng dụng
ĐP 1
Tách tệp FASTQ
tùy chỉnh
1
Căn chỉnh và sắp xếp
BWA, Samtools, Sambamba
2
Đánh dấu và loại bỏ trùng lặp
sambamba
ĐP 2
Hợp nhất các tệp BAM
tùy chỉnh
ĐP 3
Đếm số lần đọc được căn chỉnh
tùy chỉnh
ĐP 4
Tạo các tệp Khoảng thời gian
tùy chỉnh
3
Hiệu chỉnh lại cơ sở và tạo BQSR
GATK – Bộ hiệu chỉnh cơ sở
4
Áp dụng BQSR
GATK – Áp dụngBQSR
5
Biến thể cuộc gọi
GATK – HaplotypeCaller
6
Hợp nhất GVCF
GATK – Kiểu genGVCF
ĐP 5
Hợp nhất các tệp VCF
tùy chỉnh
Lưu ý : Các bước song song hóa dữ liệu khác được gắn nhãn là DP.
Bài viết mới cập nhật
Thuần hóa sự hỗn loạn của công nghệ: Giải pháp phục hồi sáng tạo của Dell
Sự cố CNTT nghiêm trọng ảnh hưởng đến 8,5 triệu hệ ...
Dell PowerScale và Marvel hợp tác để tạo ra quy trình làm việc truyền thông tối ưu
Hiện đang ở thế hệ thứ 9, giải pháp lưu trữ Dell ...
Bảo mật PowerScale OneFS SyncIQ
Trong thế giới sao chép dữ liệu, việc đảm bảo tính ...
Danh sách kiểm tra cơ sở bảo mật PowerScale
Là một biện pháp bảo mật tốt nhất, chúng tôi khuyến ...