Thiết kế được xác thực của Dell cho lĩnh vực chăm sóc sức khỏe và khoa học đời sống với Dell PowerEdge C6520 và XE8545 (5)

Đường ống gọi biến thể BWA-GATK Germline

  • Mặc dù BWA đã ổn định trong nhiều năm, một số sửa đổi cơ bản đã được thực hiện đối với GATK phiên bản 4 trở lên. Trong khi các phiên bản GATK trước phiên bản 4 hỗ trợ đa luồng, phiên bản 4 trở lên chỉ hỗ trợ hoạt động đơn luồng. Để khắc phục nhược điểm này, phiên bản Spark của GATK cũng được cung cấp; tuy nhiên, nó chủ yếu là thử nghiệm.

    Để đo điểm chuẩn GATK v3.6, Dell Technologies đã sử dụng cùng một quy trình cho tất cả các điểm chuẩn trước đó. Tuy nhiên, hai phiên bản khác nhau của quy trình dành cho GATK v4.2 được tạo dựa trên quy trình phân tích dữ liệu nhóm dòng mầm như trong Hình 5.

    Mô tả sơ đồ được tạo tự động

    Hình 5.    Các bước chính đối với Dữ liệu đoàn hệ Germline

    Đường ống BWA-GATK v3.6

    Quy trình này được thiết kế để thực hiện gọi biến thể dòng mầm cho các mục đích điểm chuẩn. Các bước trong quy trình và ứng dụng của chúng được liệt kê trong Bảng 6.

    Bước 1 bao gồm ba ứng dụng được kết nối với nhau. Đầu ra từ BWA được chuyển trực tiếp đến Samtools để chuyển đổi tệp từ SAM sang BAM. Và đầu ra được chuyển đổi từ nguồn cấp dữ liệu Samtools sang Sambamba để sắp xếp trình tự đọc theo vị trí nhiễm sắc thể của chúng. Kỹ thuật đường ống này có thể tiết kiệm được việc ghi một tệp lớn hai lần; tuy nhiên, nó có thể dễ dàng làm cạn kiệt khả năng đa nhiệm của CPU nếu nhiều mẫu được xử lý thông qua đường ống này. Có một số lượng lớn các mẫu được xử lý đồng thời với đường ống. Mặt khác, tổng số lõi trong một hệ thống là số lượng mẫu tối đa có thể chạy cùng nhau.

    Nếu không có tập dữ liệu nhóm thuần tập phù hợp, thì không thể có được thời gian chạy đáng tin cậy từ Bước 7, Nhóm cuộc gọi chung. Điều đáng chú ý là kết quả từ Bước 7 không thực tế như Dell Technologies đã thử nghiệm với một mẫu duy nhất. Thời gian chạy của Bước 7 sẽ tăng theo quy mô của nhóm.

    Bảng 6.       Các bước trong quy trình thử nghiệm BWA-GATK v3.6

    Bước chân

    Hoạt động

    Các ứng dụng

    1

    Căn chỉnh và sắp xếp

    BWA, Samtools, Sambamba

    2

    Đánh dấu và loại bỏ trùng lặp

    sambamba

    3

    Tạo mục tiêu sắp xếp lại

    GATK – RealignerTargetCreator

    4

    Sắp xếp lại xung quanh Chèn và Xóa

    GATK – IndelRealigner

    5

    Căn chỉnh lại

    GATK – Bộ hiệu chỉnh cơ sở

    6

    Biến thể cuộc gọi

    GATK – HaplotypeCaller

    7

    Hợp nhất GVCF

    GATK – Kiểu genGVCF

    số 8

    Hiệu chỉnh lại các biến thể

    GATK – Bộ hiệu chỉnh biến thể

    9

    Áp dụng hiệu chỉnh lại biến thể

    GATK – Áp dụng hiệu chỉnh lại

    Đường dẫn BWA-GATK v4.2

    Với GATK phiên bản 4 trở lên, các bước GATK được đơn giản hóa đáng kể. Đặc biệt, Bước 4 được loại bỏ trong Bảng 6 ở trên tiết kiệm hơn bảy giờ thời gian chạy. Tuy nhiên, GATK phiên bản 4 trở lên không hỗ trợ nhiều luồng, điều này làm tăng thời gian chạy gần gấp ba lần so với đường dẫn BWA-GATK v3.6.

    Bảng 7.      Các bước trong quy trình thử nghiệm BWA-GATK v4.2

    Bước chân

    Hoạt động

    Các ứng dụng

    1

    Căn chỉnh và sắp xếp

    BWA, Samtools, Sambamba

    2

    Đánh dấu và loại bỏ trùng lặp

    sambamba

    3

    Hiệu chỉnh lại cơ sở và tạo BQSR

    GATK – Bộ hiệu chỉnh cơ sở

    4

    Áp dụng BQSR

    GATK – Áp dụngBQSR

    5

    Biến thể cuộc gọi

    GATK – HaplotypeCaller

    6

    Hợp nhất GVCF

    GATK – Kiểu genGVCF

    Đường ống song song hóa dữ liệu BWA-GATK v4.2

    Do thiếu hỗ trợ đa luồng trong GATK v4.2, thời gian xử lý của một mẫu có thể tăng gấp ba lần so với thời gian chạy từ GATK v3.6. Sẽ không công bằng khi so sánh thời gian chạy giữa hai phiên bản GATK khác nhau vì chúng đang xử lý dữ liệu theo những cách khác nhau. Tuy nhiên, thời gian chạy tổng thể của đường ống v4.2 tăng lên đáng kể và rõ ràng là nó sẽ gây ra tắc nghẽn nghiêm trọng trong quá trình xử lý dữ liệu.

    Việc thêm các bước song song hóa dữ liệu không đơn giản vì nó có thể gây loãng dữ liệu ở các bước thống kê trong Bước 3 đến 6. Nếu không song song hóa dữ liệu, các bước này sẽ thấy toàn bộ dữ liệu được cung cấp ở Bước 1. Ví dụ: chuỗi đầu vào đọc dữ liệu là 50x WGS , các bước này sẽ sử dụng khoảng 50 ví dụ cho mỗi vị trí nhiễm sắc thể. Tuy nhiên, nếu đầu vào được chia thành 50 khối để song song hóa dữ liệu, thì các bước này về cơ bản sẽ chuyển đổi dữ liệu 50x thành dữ liệu 1x WGS. Sự chia tách này sẽ là nguyên nhân chính dẫn đến kết quả không đáng tin cậy. Ý tưởng về song song hóa dữ liệu được đề xuất là thêm bước DP 2 để hợp nhất dữ liệu được căn chỉnh. Sau đó, tách dữ liệu một lần nữa để giữ tất cả các lần đọc từ một vùng nhiễm sắc thể tương tự. Sự song song hóa này có thể thực hiện được vì các lần đọc trình tự được sắp xếp dựa trên vị trí các lần đọc này khớp với nhau trên các nhiễm sắc thể. Tuy nhiên, việc chia nhỏ dữ liệu thành nhiều tệp yêu cầu thời gian hoạt động đáng kể do có liên quan đến việc ghi nhiều tệp nhỏ. Ở bước DP 3 và 4, hãy đếm số lần đọc được căn chỉnh thành công trong Bước 1. Sau đó, tạo các tệp chỉ mục để ghi lại vị trí bắt đầu và kết thúc của nhiễm sắc thể chia đều số lần đọc. Bước DP 4 tạo nhiều tệp khoảng thời gian để chuyển qua các bước tiếp theo, Bước 3 đến 6 chỉ cho phép các bước hoạt động trong vùng được chỉ định trong tệp khoảng thời gian. Sau khi các bước đồng thời tạo ra kết quả đầu ra cuối cùng ở Bước 6, các kết quả này được ghép lại với nhau ở bước DP 5. Sau đó, tạo các tệp chỉ mục để ghi lại vị trí bắt đầu và kết thúc nhiễm sắc thể chia đều số lần đọc. Bước DP 4 tạo nhiều tệp khoảng thời gian để chuyển qua các bước tiếp theo, Bước 3 đến 6 chỉ cho phép các bước hoạt động trong vùng được chỉ định trong tệp khoảng thời gian. Sau khi các bước đồng thời tạo ra kết quả đầu ra cuối cùng ở Bước 6, các kết quả này được ghép lại với nhau ở bước DP 5. Sau đó, tạo các tệp chỉ mục để ghi lại vị trí bắt đầu và kết thúc nhiễm sắc thể chia đều số lần đọc. Bước DP 4 tạo nhiều tệp khoảng thời gian để chuyển qua các bước tiếp theo, Bước 3 đến 6 chỉ cho phép các bước hoạt động trong vùng được chỉ định trong tệp khoảng thời gian. Sau khi các bước đồng thời tạo ra kết quả đầu ra cuối cùng ở Bước 6, các kết quả này được ghép lại với nhau ở bước DP 5.

    Bảng 8.      Các bước trong quy trình song song hóa dữ liệu BWA-GATK v4.2 đã thử nghiệm

    Bước chân

    Hoạt động

    Các ứng dụng

    ĐP 1

    Tách tệp FASTQ

    tùy chỉnh

    1

    Căn chỉnh và sắp xếp

    BWA, Samtools, Sambamba

    2

    Đánh dấu và loại bỏ trùng lặp

    sambamba

    ĐP 2

    Hợp nhất các tệp BAM

    tùy chỉnh

    ĐP 3

    Đếm số lần đọc được căn chỉnh

    tùy chỉnh

    ĐP 4

    Tạo các tệp Khoảng thời gian

    tùy chỉnh

    3

    Hiệu chỉnh lại cơ sở và tạo BQSR

    GATK – Bộ hiệu chỉnh cơ sở

    4

    Áp dụng BQSR

    GATK – Áp dụngBQSR

    5

    Biến thể cuộc gọi

    GATK – HaplotypeCaller

    6

    Hợp nhất GVCF

    GATK – Kiểu genGVCF

    ĐP 5

    Hợp nhất các tệp VCF

    tùy chỉnh

    Lưu ý : Các bước song song hóa dữ liệu khác được gắn nhãn là DP.