Investigasi varian langka dan frekuensi rendah menggunakan sequencing throughput tinggi dengan sampel dna dikumpulkan | laporan ilmiah

Investigasi varian langka dan frekuensi rendah menggunakan sequencing throughput tinggi dengan sampel dna dikumpulkan | laporan ilmiah

Anonim

Subjek

  • Studi asosiasi genetika
  • Sequencing generasi berikutnya
  • Penanda prediktif

Abstrak

Sekuensing throughput tinggi menggunakan sampel DNA yang dikumpulkan dapat memfasilitasi studi luas genom pada varian langka dan frekuensi rendah dalam populasi besar. Beberapa pertanyaan besar mengenai strategi pengurutan gabungan adalah apakah varian langka dan frekuensi rendah dapat dideteksi dengan andal, dan apakah estimasi frekuensi alel minor (MAF) dapat mewakili nilai aktual yang diperoleh dari sampel yang di-genotip secara individual. Dalam penelitian ini, kami mengevaluasi perkiraan MAF menggunakan tiga alat deteksi varian dengan dua set pooled whole exome sequencing (WES) dan satu set pooled whole genome sequencing (WGS) data. Baik GATK dan Freebayes menampilkan sensitivitas, spesifisitas, dan akurasi yang tinggi ketika mendeteksi varian langka atau frekuensi rendah. Untuk studi WGS, 56% dari varian frekuensi rendah dalam array Illumina memiliki MAFs identik dan 26% memiliki satu perbedaan alel antara sekuensing dan data genotipe individual. Perkiraan MAF dari WGS berkorelasi dengan baik ( r = 0, 94) dengan yang dari susunan Illumina. MAF dari data WES yang dikumpulkan juga menunjukkan kesesuaian tinggi ( r = 0, 88) dengan mereka yang berasal dari data genotipe individu. Kesimpulannya, MAF yang diperkirakan dari kumpulan data sekuensing DNA mencerminkan MAF dalam sampel yang di-genotip secara individual dengan baik. Dengan demikian, strategi penyatuan dapat menjadi pendekatan yang cepat dan hemat biaya untuk penyaringan awal dalam studi asosiasi berskala besar.

pengantar

Dalam dua dekade terakhir, lebih dari 10.000 varian yang terkait dengan sifat kompleks telah diidentifikasi oleh studi asosiasi genome-wide (GWAS) 1 . Namun, sebagian besar situs target GWAS adalah varian umum (frekuensi alel risiko> 5%) dengan efek genetik sederhana atau lemah, biasanya memerlukan ukuran sampel besar untuk deteksi pada level signifikan level genom-lebar 2 . Di sisi lain, ada kemungkinan bahwa penyakit umum sebagian disebabkan oleh varian langka dan umumnya merusak dengan dampak yang kuat pada risiko penyakit pada pasien individu 3 . Mayoritas varian frekuensi rendah tersebut belum diselidiki oleh GWAS berbasis array nukleotida polimorfisme (SNP), karena array terutama menargetkan varian umum.

Teknologi sequencing generasi berikutnya (NGS) yang tinggi telah merevolusi penelitian genetika dengan memungkinkan identifikasi variasi genetika langka dan frekuensi rendah pada skala besar 4, 5 . Berbeda dengan SNP array genotyping, sekuensing DNA generasi berikutnya tidak bergantung pada probe pra-desain terhadap sekuens target dan karenanya mampu mendeteksi varian apa pun dalam genom yang diteliti. Selain itu, teknologi baru ini sangat mengurangi biaya sekuensing pasangan basa, memberikan cakupan dan kedalaman baca yang tinggi dan menghasilkan banyak pembacaan sekuensing pada keseluruhan genom dan skala luas exome. Ini telah berkontribusi pada pemetaan sejumlah varian genetik yang mendasari penyakit Mendel 6, 7, 8, dan ada minat yang kuat dalam memperluas penerapan NGS pada sifat kompleks 9 .

Sekuensing genom utuh (WGS) dan sekuensing seluruh eksome (WES) 10, 11 menjadi semakin populer karena cakupan luas dan resolusi berbasis-tunggal. Namun, teknik-teknik ini masih mahal, melelahkan dan memakan waktu bagi sebagian besar laboratorium yang terlibat dalam studi asosiasi berbasis populasi. Untuk menangkap varian langka yang berkaitan dengan penyakit kompleks, pendekatan yang ideal adalah mengurutkan setiap sampel individu dalam kohort yang sangat besar 12 . Pendekatan alternatif adalah mengumpulkan sejumlah sampel DNA individu dan mengurutkan DNA yang dikumpulkan, yang secara efisien dapat meningkatkan ukuran sampel dan kedalaman pengurutan dengan mengurangi biaya dan upaya dalam persiapan perpustakaan. Selain memungkinkan identifikasi varian langka pada gen kandidat 13, 14, studi sekuensing DNA gabungan pada skala exome keseluruhan juga melaporkan varian frekuensi rendah yang terkait dengan penyakit kompleks 15, 16 .

Pertanyaan penting menggunakan strategi penyatuan untuk studi genetik yang berfokus pada varian langka dan frekuensi rendah mencakup dua aspek: (1) apakah varian dapat dideteksi dengan andal dan (2) apakah frekuensi alel minor (MAF) dapat diperkirakan secara akurat menggunakan sampel yang dikumpulkan . Di sini, kami melaporkan evaluasi strategi pengumpulan berdasarkan data WES dari penelitian pada skoliosis idiopatik manusia 17 dan pre-eklampsia, serta pada data WGS dari studi tentang perilaku pengejaran ekor anjing kompulsif kompulsif. Kami membandingkan varian yang terdeteksi oleh tiga alat yang berbeda (SAMtools, GATK dan Freebayes) dan mengevaluasi keakuratan estimasi MAF dari data pengurutan DNA yang dikumpulkan dengan membandingkannya dengan MAF yang diperoleh dari data genotipe individual.

Hasil

Mengurutkan keseluruhan exome

Baca deteksi penyelarasan dan varian nukleotida tunggal (SNV)

Prosedur analisis membaca sekuensing diilustrasikan dalam Gambar Tambahan. S1. Dalam studi skoliosis, kami memperoleh 307 hingga 412 juta bacaan urutan di setiap kelompok sampel. Dari sekuens berbunyi, 93, 3% hingga 98, 5% dapat dipetakan ke genom referensi manusia (GRCh37 / hg19) (Tambahan Tabel S1). Setelah menghapus duplikat PCR, kedalaman rata-rata peta yang dibaca di setiap kelompok berkisar antara 104x hingga 194x. Sekitar 40–46 Mb (77-89%) wilayah pengayaan SureSelect mencakup lebih dari 30x dan 29-41 Mb (56-79%) mencakup lebih dari 60x, dengan 0, 7–2% wilayah yang tidak tercakup (Tabel Tambahan S2) . Dalam studi pra-eklampsia, WES menghasilkan 290 hingga 487 juta bacaan per kelompok dan lebih dari 98% bacaan sekuensing dapat dipetakan ke genom referensi manusia (GRCh37 / hg19) (Tambahan Tabel S1). Setelah menghapus duplikat, kedalaman baca rata-rata daerah pengayaan adalah lebih dari 200x di semua kecuali dua kolam (95x di kolam 1 dan 169x di kolam 10). Lebih dari 99% wilayah pengayaan tercakup. Kecuali untuk dua kelompok dengan tingkat duplikat yang tinggi (kelompok 1 dan kelompok 10), setidaknya 46 Mb (90%) dari daerah sasaran dicakup lebih dari 30x dan lebih dari 42 Mb (82%) tercakup lebih dari 60x (Tambahan Tabel S2 ).

Mengambil pembacaan unik yang dipetakan sebagai input, kami mendeteksi varian nukleotida tunggal (SNV) dalam data WES menggunakan tiga alat, SAMtools, GATK dan Freebayes, dengan pengaturan ploidy yang berbeda. Pada awalnya, kami membandingkan SNV yang terdeteksi menggunakan dua pengaturan ploidi GATK UnifiedGenotyper yang berbeda, dengan asumsi diploidy atau ploidy dari 20. Tambahan Gambar. S2 menunjukkan bahwa SNV yang terdeteksi oleh GATK menggunakan pengaturan ploidy dari 20 mencakup sebagian besar SNV yang diidentifikasi oleh GATK dengan pengaturan diploid default. Oleh karena itu, kami menerapkan pengaturan ploidy 20 ketika menggunakan program GATK UnifiedGenotyper dalam deteksi SNV berikutnya dalam data gabungan WGS dan WES. SAMtools, GATK dan Freebayes mendeteksi lebih dari 2 juta SNV di kelompok skoliosis dan 2, 4 hingga 3, 2 juta SNV di kelompok pre-eklampsia (Tambahan Tabel S3). Dalam kedua studi WES, kami memperoleh jumlah SNV terbesar (2, 2 juta pada skoliosis dan lebih dari 3, 2 juta pada pre-eklampsia) menggunakan GATK. Dibandingkan dengan dua alat lainnya, proporsi yang lebih tinggi dari SNV yang terdeteksi oleh Freebayes adalah lajang (SNV hanya dalam satu kelompok). Dibandingkan dengan GATK dan Freebayes, SAMtools menyediakan lebih sedikit varian langka, tetapi lebih banyak varian umum. Namun, sebagian besar varian umum yang diidentifikasi secara unik oleh SAMtools terletak di luar wilayah pengayaan kit Agilent SureSelect dan didasarkan pada data cakupan urutan yang sangat rendah.

Perbandingan SNV dari tiga alat pendeteksi varian

Ketika mempertahankan SNV yang terletak di daerah pengayaan kit Agilent SureSelect, jumlah SNV yang terdeteksi oleh ketiga alat adalah 77.932 dalam skoliosis dan 68.227 dalam studi pra-eklampsia (Gbr. 1). Freebayes mendeteksi jumlah SNV terbesar di wilayah pengayaan. Sebaliknya, SAMtools mendeteksi SNV paling sedikit dan sebagian besar SNV ini (99%) juga terdeteksi oleh GATK.

Image

Lingkaran biru, merah dan kuning mewakili SNV yang terdeteksi oleh GATK UnifiedGenotyper (pengaturan ploidy), Freebayes (pengaturan ploidy), dan SAMtools, secara berturut-turut. ( a ) SNV di wilayah target Agilent SureSelect dalam studi skoliosis. ( B ) SNV di wilayah target Agilent SureSelect dalam studi pra-eklampsia.

Gambar ukuran penuh

Karena tumpang tindih SNV yang terdeteksi menunjukkan pola yang sama dalam kedua studi WES (Gbr. 1), kami memilih studi skoliosis sebagai contoh untuk menggambarkan kinerja deteksi varian dari tiga alat, menyelidiki SNV dalam wilayah pengayaan. Baik GATK dan Freebayes mendeteksi SNV dua kali lebih banyak dari pada SAMtools (Gbr. 1a). Perbedaan dalam jumlah SNV adalah karena varian baru yang tidak dijelaskan dalam dbSNP, atau varian langka dengan frekuensi alel alternatif (AAF) kurang dari 1%. Secara khusus, 93% dari SAMtools yang terdeteksi dan 84% dari SNV yang terdeteksi GATK sudah dijelaskan dalam dbSNP 144, tetapi tingkat anotasi turun menjadi 61% dengan Freebayes. Ketika SNV yang terdeteksi dikelompokkan berdasarkan AAF, tiga alat memberikan jumlah SNV umum (AAF> 5%) yang sebanding, sedangkan jumlah SNV yang langka (AAF <1%) dan frekuensi rendah (1% ≤ AAF ≤ 5%) SNV sangat bervariasi di antara alat-alat (Tabel 1). Selain itu, sekitar setengah dari SNV yang terdeteksi oleh Freebayes tidak memiliki informasi frekuensi alel alternatif dalam database proyek 1000 Genome, berbeda dengan proporsi ini yang hanya 10% untuk SNV yang terdeteksi SAMtools (Tabel 1). Ketika mengklasifikasikan SNV berdasarkan jumlah kumpulan mereka terdeteksi, kami melihat bahwa baik SAMtools dan GATK mendeteksi lebih sedikit lajang (14-19%) daripada Freebayes (43%, Gambar Tambahan. S3).

Tabel ukuran penuh

Karena tingginya tingkat deteksi potensi novel dan SNV langka oleh Freebayes, kami meneliti lebih lanjut 80.272 SNV spesifik-Freebayes di wilayah pengayaan (Tambahan Gambar. S4). Kurang dari setengah SNV didukung oleh setidaknya 60x pembacaan dan lebih dari 20% dicakup oleh kurang dari 30x kedalaman baca. Lebih dari 90% SNV diidentifikasi hanya dalam satu kelompok skoliosis atau tidak memiliki informasi AAF dalam proyek 1000 Genom (Tambahan Gambar. S4). Ketika kami menetapkan pemfilteran untuk skor kualitas varian, 96% SNV khusus-Freebayes memiliki skor kualitas kurang dari 3, yaitu kemungkinan kurang dari 50% untuk benar-benar polimorfik. Hanya 2% dari mereka yang memiliki probabilitas lebih dari 90% untuk menjadi polimorfik, (skor kualitas lebih dari 10), menunjukkan bahwa mayoritas SNV spesifik-Freebayes cenderung positif palsu.

Validasi genotip

Kami memilih 50 dan 59 SNV dari studi WES skoliosis dan pre-eklampsia, masing-masing, untuk validasi dengan menggunakan genotipe (Tabel Tambahan S4). 100 sampel DNA yang sama digunakan dalam setiap studi WES yang genotipe secara individual menggunakan sistem Sequenom MassARRAY. Kami berhasil memvalidasi 42 skoliosis dan 44 SNV terkait pre-eklampsia setelah mengecualikan empat situs monomorfik (satu di skoliosis dan tiga dalam studi pra-eklampsia). Keempat SNV positif palsu semuanya dijelaskan dalam dbSNP 144, tetapi tidak satupun dari mereka memiliki informasi MAF dalam database proyek 1000 Genome. Secara total, 95, 6% dari SNV yang dipilih divalidasi dalam setiap dataset.

Keempat SNV positif palsu diidentifikasi sebagai polimorfik oleh GATK, dan Freebayes juga mengidentifikasi tiga SNV dalam studi pre-eklampsia sebagai polimorfik. SAMtools memiliki deteksi false-positive terendah, mengidentifikasi tiga varian sebagai monomorfik, sementara itu melewatkan beberapa lokus yang sebenarnya polimorfik dalam kedua studi (Tambahan Gambar. S5).

Evaluasi perkiraan MAF

Dua strategi diterapkan untuk perkiraan MAF: menggunakan kedalaman baca dan jumlah alel. Kesesuaian antara estimasi dan validasi MAF diukur dengan deviasi root-mean-square (RMSD). Ketika menggunakan kedalaman baca untuk memperkirakan MAF di semua kumpulan, sebagian besar MAF dalam sampel yang dikumpulkan diperbesar tetapi garis tren paling cocok dari estimasi SAMtools lebih diagonal daripada dua alat lainnya. Namun, MAF diperkirakan berdasarkan pada kedalaman baca dengan tiga alat sangat bervariasi (Tambahan Tabel S5). Saat menggunakan jumlah alel untuk memperkirakan MAF, baik GATK dan Freebayes menunjukkan akurasi yang sama dari perkiraan MAF (RMSD = 0, 031-0, 032). MAF yang diperkirakan menggunakan jumlah alel dengan GATK dari data sekuensing DNA yang dikumpulkan menunjukkan kesesuaian yang tinggi dengan genotipe individu (koefisien korelasi Pearson, r = 0, 88) (Gambar 2) meskipun mereka sedikit berlebihan dalam data WES.

Image

Perkiraan MAF diperkirakan dengan GATK berdasarkan jumlah alel. Kotak biru mewakili 43 SNV yang divalidasi dalam studi skoliosis dan titik merah 47 SNV yang divalidasi dalam studi pra-eklampsia. Diagonal ditunjukkan dengan garis putus-putus berwarna abu-abu.

Gambar ukuran penuh

Karena SNV yang divalidasi dalam dataset pre-eklampsia termasuk varian langka, frekuensi rendah dan umum, kami memilih 47 SNV dalam studi pre-eklampsia untuk mengevaluasi MAFs yang diperkirakan GATK dari semua SNV di setiap kelompok individu, serta MAF yang diperkirakan GATK untuk setiap SNV di semua kumpulan. Perbandingan MAF berdasarkan pada masing-masing kelompok (Gambar Tambahan. S6) mengungkapkan bahwa SNV di dua kelompok (6 dan 9) menunjukkan kesesuaian yang lebih tinggi antara MAF yang diperkirakan dan yang divalidasi dibandingkan kelompok-kelompok lainnya. Selama lebih dari setengah SNV yang divalidasi, MAF dinilai terlalu tinggi dengan menggunakan data WES. Perkiraan MAF dari beberapa SNVs memiliki perbedaan yang lebih besar dari MAFs aktual (lebih dari dua kali) di beberapa kelompok (Tambahan Gambar. S7).

Untuk menyelidiki efek dari jumlah pembacaan sekuensing (yaitu, kedalaman sekuensing) pada deteksi varian dan estimasi MAF, kami secara acak memilih 70% dan 80% dari pembacaan dari kumpulan pre-eklampsia 7 dan mendeteksi SNV menggunakan GATK hanya pada pool 7 dengan bacaan yang dipilih. Di antara tiga SNV positif palsu yang divalidasi menjadi monomorfik, semuanya diidentifikasi sebagai varian saat menggunakan 70% dan 80% dari total bacaan yang dipilih secara acak. Untuk mengevaluasi keakuratan MAF yang diperkirakan dari semua bacaan dan bacaan parsial, MAF dihitung berdasarkan jumlah alel. Kami mengambil MAF rata-rata 10 putaran untuk 70% dan 80% dari pembacaan, dan selanjutnya membandingkannya dengan hasil genotipe untuk setiap SNV (Gambar Tambahan. S8). Pandangan yang lebih dekat pada perbandingan MAF menunjukkan bahwa ketika menggunakan pembacaan parsial untuk estimasi MAF, masing-masing dari 17 SNV memiliki MAF yang sama dengan yang diperoleh dari pembacaan total, sedangkan 8 SNVs menunjukkan lebih kecil dan lebih dari 20 SNVs dengan deviasi yang lebih besar dari validasi bila dibandingkan dengan hasil berdasarkan 100% berbunyi. MAF yang diperkirakan menggunakan pembacaan total menunjukkan kesesuaian yang lebih tinggi dengan validasi ( r = 0, 86), dibandingkan dengan yang diperkirakan menggunakan pembacaan parsial ( r = 0, 84).

SNV frekuensi rendah (rs36051194, Gambar. 3a) dan SNV langka (rs3803339, Gambar. 3b) dipilih untuk menunjukkan efek dari jumlah kolam yang digunakan untuk deteksi varian pada keakuratan estimasi MAF. Kami secara acak memilih kelompok pre-eklampsia untuk menghitung perbedaan antara nilai MAF yang diperkirakan dan yang divalidasi, mulai dari satu hingga sembilan kelompok. Penyimpangan terbesar dari MAF tervalidasi muncul ketika menggunakan kumpulan tunggal atau dua kelompok untuk perkiraan MAF berdasarkan pada jumlah alel di kedua SNV. Dengan bertambahnya jumlah kumpulan, penyimpangan cenderung mendekati nol. Menggunakan lebih banyak kumpulan untuk deteksi varian menghasilkan perkiraan MAF yang lebih tepat.

Image

Sumbu X mewakili jumlah kumpulan yang digunakan untuk memperkirakan MAF dari data sekuensing exome dan sumbu Y menunjukkan perbedaan MAF antara estimasi sekuensing exome dan validasi genotip. ( a ) SNV frekuensi rendah rs36051194. ( B ) Langka SNV rs3803339.

Gambar ukuran penuh

Mengumpulkan sekuensing seluruh genom

Array SNP anjing

20 Bull Terrier di WGS sebelumnya genotip sebagai bagian dari studi tentang perilaku pengejaran ekor kompulsif anjing, menggunakan array Illumina Canine HD SNP. Susunan Canine HD berisi 172.371 penanda dalam genom anjing. Setelah menyaring orang-orang yang gagal kontrol kualitas, 170.287 penanda di terpengaruh dan 170.260 di kolam tidak terpengaruh lebih lanjut digunakan untuk evaluasi deteksi varian. Di antara lokus-lokus itu, 105.715 di yang terkena dampak dan 102.665 di Bull Terrier yang tidak terpengaruh adalah monomorfik. Karena sampel yang dikumpulkan mengandung Bull Terrier jantan dan betina, kami mengecualikan lokus pada kromosom seks untuk mengurangi kompleksitas pengukuran MAF. Dari 166.813 spidol autosomal yang tersisa pada array, spidol 1945 dalam spidol yang terpengaruh dan 1972 spidol Bull Terrier yang tidak terpengaruh gagal mengontrol kualitas. Marker yang tersisa (164.868 pada anjing yang terkena dan 164.841 pada anjing yang tidak terpengaruh) digunakan sebagai referensi untuk perbandingan MAF antara sekuensing DNA yang dikumpulkan dan genotipe array.

Baca perataan dan deteksi SNV

Sekuensing seluruh genom awal dari sampel DNA Terrier Bull yang terkumpul berisi sekitar 2, 0 miliar bacaan di setiap kumpulan. Kemudian, replikasi teknis dengan berbagai perpustakaan berisi masing-masing 1, 4 miliar dan 1, 7 miliar bacaan di kelompok yang terkena dampak dan kelompok kontrol. Kami menggabungkan dua proses pengurutan dan memetakan pembacaan pengurutan ke genom referensi CanFam 3.1. Setelah menghapus duplikat PCR, tingkat pemetaan adalah 82-93% untuk total pembacaan (Tambahan Tabel S1). Kedalaman rata-rata adalah 133x dalam kelompok sampel yang terpengaruh dan 135x pada kelompok kontrol. Kurang dari 1% genom tidak tercakup sama sekali, sementara lebih dari 97% genom ditutupi dengan setidaknya 30x pembacaan dan 90-92% genom dengan setidaknya 60x dibaca di kedua kelompok (Tambahan Tabel S2). Dengan pengaturan ploidy 20, GATK mendeteksi sekitar 7, 32 juta SNV secara total, mirip dengan jumlah SNV yang terdeteksi oleh Freebayes (7, 61 juta). Sebaliknya, ada lebih sedikit SNV (4, 76 juta) yang terdeteksi oleh SAMtools. Sekitar 88-92% dari SNV yang terdeteksi didukung oleh setidaknya 30x pembacaan (Tabel 1).

Perbandingan deteksi varian di antara tiga alat

Setelah menghapus SNV multi-alel, mayoritas SNV yang dihasilkan SAMtools (lebih dari 99%) juga terdeteksi oleh GATK atau Freebayes (Tambahan Gambar. S9). Mayoritas SNV khusus-SAMtools (64%) dicakup oleh pembacaan kurang dari 30x, sementara 75-95% dari SNM khusus-Freebay dan GATK spesifik dicakup oleh setidaknya 30x pembacaan. Sekitar 30% dari SNV spesifik-Freebayes memiliki probabilitas lebih dari 50% untuk menjadi polimorfik. Namun, sebanyak 92% dari sisa SNV yang dihasilkan Freebayes memiliki lebih dari 50% kemungkinan menjadi polimorfik.

Dari data WGS, GATK dan Freebayes mendeteksi jumlah SNV yang serupa yang ada dalam array Illumina (Gbr. 4a), dan memiliki kesepakatan terbesar pada penanda monomorfik. SAMtools melewatkan lebih dari 26.000 SNV (tingkat kesalahan 20, 26%) yang terdeteksi dalam array (Tambahan Tabel S6), sedangkan tingkat kesalahan deteksi GATK atau Freebayes kurang dari 4%. Selain itu, SAMtools mendeteksi lebih banyak SNV (3%) yang monomorfik dalam array dibandingkan dengan GATK dan Freebayes (1, 2-1, 3%). Oleh karena itu, dengan menggunakan data genotipe array Illumina sebagai referensi, spesifisitas, presisi, dan akurasi deteksi SAMtools relatif rendah (di bawah 90%). Sebaliknya, semua pengukuran kinerja deteksi GATK dan Freebayes lebih dari 96% (Tabel 2).

Image

( a ) Penanda polimorfik dan monomorfik di kumpulan yang terpengaruh atau tidak terpengaruh terdeteksi dengan tiga alat pendeteksi varian dan deretan Illumina. ( B ) Varian berwarna biru adalah SNV dengan MAF 5% dalam data genotip. ( c ) Persentase perbedaan jumlah alel (nilai absolut) antara dua platform di antara lokus polimorfik.

Gambar ukuran penuh

Tabel ukuran penuh

Evaluasi perkiraan MAF

Karena akurasi tinggi dari deteksi varian, GATK dipilih untuk memperkirakan MAF dari data pengurutan gabungan dan untuk membandingkan MAF antara WGS dan data array Illumina. Ketika menyertakan penanda monomorfik (60% dari total) di kedua platform, tingkat kesesuaian antara WGS dan array adalah 77% dalam dua sampel yang dikumpulkan (Tambahan Gambar. S10). Koefisien korelasi Pearson dari frekuensi alel penanda autosomal antara WGS dan array Illumina adalah 0, 94. Ketika 198.162 penanda monomorfik autosom (100.415 pada sampel yang terkena dan 97.747 dalam sampel yang tidak terpengaruh) terdeteksi pada kedua platform dikeluarkan, 56.260 SNVs (43%) memiliki MAFs identik di WGS dan array Illumina (Gbr. 4b, c) dan 53.870 SNVs ( 41%) hanya memiliki satu perbedaan alel dengan penghitungan alel langsung. Tingkat konkordansi bahkan lebih tinggi (56%) untuk varian frekuensi rendah dengan MAF ≤5% dalam array (Gambar 4c). Koefisien korelasi Pearson dari MAFs dari penanda polimorfik autosomal antara WGS dan array Illumina adalah 0, 85.

Diskusi

Proyek pengurutan skala besar untuk menemukan varian langka dan frekuensi rendah yang mungkin berkontribusi pada penyakit adalah mahal dan memakan waktu. Adalah menguntungkan untuk melakukan proyek percontohan yang cepat dan murah untuk mengeksplorasi varian urutan yang sangat menarik yang mungkin terjadi di antara pasien. Studi ini dilakukan untuk menguji kelayakan pendekatan semacam itu, yaitu WGS dan WES menggunakan DNA yang terkumpul. Dengan penelitian ini, kami menemukan bahwa (1) alel frekuensi langka dan rendah ditemukan dengan probabilitas yang cukup tinggi dan (2) estimasi frekuensi alel cukup akurat. Hasil kami menunjukkan bahwa pendekatan pengumpulan yang dapat memotong biaya menggunakan sampel DNA 10-plex mungkin menjadi pilihan yang layak sebagai studi percontohan dalam proyek pemetaan gen. Namun, perhatian khusus harus diberikan untuk membaca kedalaman dan pilihan alat pendeteksi varian.

Dalam percobaan yang dijelaskan di sini, pengurutan tidak optimal dalam satu proyek, membutuhkan putaran kedua WES karena tingkat duplikat yang tinggi dalam kelompok skoliosis. Meskipun total sekuensi bacaan mentah sama dalam jumlah dalam studi skoliosis dan pra-eklampsia, kedalaman akhir yang dipetakan dan rata-rata setelah penghilangan duplikat sangat berbeda (Tabel Tambahan S1, S2). Menjalankan kembali sekuensing dengan pustaka DNA yang sama tidak mengkompensasi hilangnya yang disebabkan oleh tingkat duplikat PCR yang tinggi. Meskipun demikian, kami mengevaluasi pengaruh hasil sekuensing untuk menguji kekuatan pendekatan pengumpulan. Seperti yang diharapkan, lebih sedikit SNV yang terdeteksi di kolam WES dengan kedalaman baca rendah (Tambahan Tabel S7). Namun, jumlah SNV di wilayah pengayaan antar kelompok adalah sama, dengan sekitar 98, 8-99, 7% dari total SNV di wilayah target. Ini menunjukkan bahwa sekuensing gabungan kami cukup dalam untuk menemukan varian dengan kedalaman baca rata-rata sekitar 100x.

Di antara tiga alat deteksi varian yang diuji, SAMtools mendeteksi jumlah SNV terendah, terutama SNV langka dan frekuensi rendah dalam data WES. Selain itu, dalam perbandingan SNVs antara WGS dan array Illumina dalam studi Bull Terrier SAMtools menunjukkan sensitivitas dan spesifisitas yang lebih rendah daripada dua alat lainnya. Oleh karena itu, SAMtools mungkin tidak berkinerja sebaik GATK dan Freebayes dalam deteksi varian yang langka. Di sisi lain, ini bekerja dengan baik dengan pendeteksian dan perkiraan MAF dari varian umum.

GATK dan Freebayes mendeteksi SNV yang lebih jarang dan frekuensi rendah daripada SAMtools, terutama Freebayes mengidentifikasi sejumlah besar SNV tunggal di wilayah pengayaan. Mayoritas SNV spesifik-Freebayes tidak dijelaskan dalam database dbSNP. Proporsi varian tidak diketahui yang sangat tinggi juga dilaporkan oleh penelitian lain 18 . Selain itu, hampir semua SNV spesifik-Freebayes memiliki kualitas deteksi varian yang sangat rendah, yaitu kemungkinan mereka menjadi situs polimorfik benar sangat rendah. Akibatnya, penyaringan kualitas sangat penting untuk pemrosesan hilir SNV yang terdeteksi dengan Freebayes. Meskipun ada beberapa hit positif palsu di SNAT yang terdeteksi GATK dan Freebayes, kedua alat tersebut menunjukkan presisi dan akurasi yang tinggi dalam pendeteksian varian secara umum. Oleh karena itu, mungkin disarankan untuk mengidentifikasi varian langka dan frekuensi rendah dalam sekuensing DNA gabungan dengan salah satu dari dua alat ini. Namun, ketika menggunakan Freebayes, sangat disarankan untuk menyaring SNV dengan kualitas rendah.

Secara umum, perkiraan MAF dalam sekuensing DNA gabungan sama dengan yang berdasarkan pada data genotip individu dalam ketiga studi (Gambar 2 dan 4). Secara khusus, sejumlah besar SNP dalam jajaran Illumina memberi kami kesempatan untuk mengkonfirmasi akurasi deteksi varian yang tinggi dan kesesuaian perkiraan MAF yang tinggi pada skala genom-lebar. Dalam studi WES, MAF dari varian frekuensi rendah (AAF antara 1% dan 5%) cenderung terlalu tinggi dalam pengurutan gabungan (Tambahan Gambar. S7). Salah satu penyebab potensial mungkin menjadi salah satu kriteria penyaringan SNV untuk validasi eksperimental yaitu SNV yang diperoleh memiliki perbedaan terbesar antara perkiraan MAF dan MAF dalam populasi besar. Memilih SNV acak mungkin akan menghasilkan akurasi yang lebih baik, seperti yang ditunjukkan dalam studi bull terrier. Efeknya juga bisa karena pengambilan sampel, yaitu ukuran sampel kami mungkin terlalu sederhana. Kami menunjukkan bahwa secara acak mengurangi angka baca dalam satu kelompok pre-eklampsia menyebabkan penyimpangan yang lebih besar dari perkiraan MAF di kedua arah dalam kelompok yang dipilih (Tambahan Gambar. S8). Selain itu, sebagian besar situs di mana perkiraan MAF berbeda jauh dari nilai yang divalidasi cenderung memiliki cakupan baca yang lebih rendah, yang menunjukkan bahwa kedalaman membaca yang cukup sangat penting untuk memperkirakan frekuensi alel dalam sekuensing DNA yang dikumpulkan.

Dengan menggunakan pengaturan tata letak penyatuan dalam dua studi WES, kami dapat mendeteksi SNV dengan MAF setidaknya 0, 5% dalam 100 sampel. Namun, sebagai bagian dari pemfilteran, kami mengecualikan varian tunggal yang muncul hanya dalam satu sampel yang dikumpulkan karena tidak mungkin untuk membedakan varian langka nyata dari kesalahan teknis. Oleh karena itu SNV dengan MAF kurang dari 1% dalam 100 sampel tidak dipilih untuk validasi dan analisis asosiasi. Keputusan ini menyebabkan hilangnya deteksi sejumlah varian langka yang mungkin terkait dengan fenotipe. Karena itu, ketika berhadapan dengan varian yang sangat langka, beberapa peringatan harus diambil. Misalnya, jumlah materi DNA yang tidak sama dalam kumpulan dapat memengaruhi keakuratan perkiraan MAF, dan cakupan yang buruk atau tidak merata di seluruh kumpulan juga dapat memengaruhi total perkiraan MAF. Mendistribusikan secara merata setiap kelompok ke setiap jalur untuk pengurutan dapat menghindari bias semacam itu. Selain itu, kesalahan urutan dan ketidaksejajaran bacaan pendek yang berbeda sulit untuk diidentifikasi, oleh karena itu validasi independen harus diatur. Selain itu, pembacaan bacaan tidak memberikan informasi haplotipe individual, yang diperlukan untuk beberapa tes beban gen.

Sebagai kesimpulan, dengan mengurutkan sampel DNA yang dikumpulkan, kami menemukan sejumlah besar varian langka dan frekuensi rendah. MAF diperkirakan dari kumpulan data sekuensing DNA mewakili MAF dari data genotipe individu dengan akurasi yang masuk akal dalam penelitian kami. Hasil kami menunjukkan bahwa strategi penyatuan dapat menjadi metode yang hemat biaya sebagai prosedur penyaringan awal untuk studi asosiasi varian langka dan frekuensi rendah.

Material dan metode

Pengumpulan dan ekstraksi sampel DNA

WES: Seratus wanita Finlandia dengan pre-eklampsia diasingkan dalam 10 kelompok, masing-masing berisi 10 sampel DNA. Sembilan puluh peserta penelitian dipilih dari Genetika Finlandia Konsorsium Pra-Eklampsia (FINNPEC). Sepuluh wanita berasal dari kohort keluarga pre-eklampsia yang digunakan dalam studi keterkaitan sebelumnya 19, 20 . DNA genom diekstraksi dari sampel darah menggunakan kit ekstraksi DNA NucleoSpin Blood XL (Macherey-Nagel GmbH & Co.), mesin Modul Pemisahan Magnetik Chemagic (Chemagen) atau, dalam kasus sampel keluarga, fenol-kloroform metode. 100 sampel DNA genomik dibagi menjadi 10 kelompok sesuai dengan sub-fenotipe pasien tanpa menggunakan barcode. 10 sampel keluarga dikumpulkan dalam satu kolam. Seratus pasien skoliosis parah dari Swedia menjadi sasaran sekuensing eksome dengan strategi pooling yang sama. Pengumpulan sampel dan ekstraksi DNA telah dijelaskan sebelumnya. Dalam kedua studi sekuensing exome, 800 ng dari masing-masing sampel digunakan untuk pengumpulan dan konsentrasi dan kemurnian DNA dalam sampel dikendalikan menggunakan spektrofotometer Nanodrop, elektroforesis gel agarosa dan fluorometer Qubit. Semua peserta dalam studi skoliosis dan preeklampsia telah memberikan persetujuan tertulis. Protokol penelitian telah disetujui oleh dewan etika regional di Lund (290/2006), dewan etika regional di Stockholm (2009 / 1124-31 / 2), komite etika penelitian Universitas Lund (LU 363-02), Karolinska Institutet ( 496/02), dan Komite Etika Koordinasi dari Rumah Sakit Distrik Helsinki dan Uusimaa (149 / E0 / 07). Metode dilakukan sesuai dengan pedoman yang disetujui.

WGS: Sampel darah EDTA (~ 3 mL) dikumpulkan dari dua puluh Terrier Bull milik Finlandia. DNA diekstraksi menggunakan robot ekstraksi Chemagen semi-otomatis (PerkinElmer Chemagen Technologie GmbH). Koleksi sampel dan protokol penelitian telah disetujui secara etis oleh Komite Etika Hewan Kantor Provinsi Negara Bagian Finlandia Selatan, Hämeenlinna, Finlandia (ESAVI / 6054 / 04.10.03 / 2012). Dua puluh sampel, masing-masing 1 μg, dibagi menjadi dua kelompok, masing-masing 10 kelompok. Satu kelompok terdiri dari 10 Bull Terrier dengan perilaku pengejaran ekor kompulsif 21, sementara yang lain terdiri dari 10 kontrol. Konsentrasi dan kemurnian DNA dalam sampel dikendalikan menggunakan spektrofotometer Nanodrop, elektroforesis gel agarosa dan fluorometer Qubit.

Persiapan perpustakaan dan sekuensing NGS

Persiapan perpustakaan dan sekuensing exome keseluruhan pada studi pre-eklampsia telah dijelaskan sebelumnya. Pengaturan yang sama diterapkan pada studi skoliosis juga 17 . Karena tingkat duplikasi PCR yang tinggi di babak pertama di antara 10 sampel DNA skoliosis yang dikumpulkan, replikasi teknis dilakukan untuk sekuensing exome keseluruhan dengan perpustakaan yang sama di delapan kolam. Pustaka DNA untuk sekuensing seluruh genom disiapkan menggunakan kit DNA TruSeq (Illumina Inc.) dan dua set sampel genom DNA yang terkumpul difragmentasi menjadi 300 bp. Clustering dilakukan pada sistem generasi cBot cluster menggunakan kit generasi cluster baca-baca HiSeq (Illumina Inc.). Replikasi teknis dilakukan untuk setiap kelompok dengan persiapan perpustakaan DNA yang berbeda. Keseluruhan sekuensing genom dan exome dilakukan pada Illumina HiSeq 2000. Konversi basis dilakukan menggunakan OLB v1.9 (Illumina Inc.).

NGS membaca perataan

Kontrol kualitas awal dari data sekuensing dilakukan oleh penyedia layanan sekuensing (SciLifeLab Core Facility, Stockholm, Swedia). Urutan Illumina berpasangan-ujung disejajarkan dengan genom referensi dengan Burrows-Wheeler Aligner (BWA) 23 versi 0.6.1 untuk setiap kumpulan. Dalam studi skoliosis idiopatik dan pra-eklampsia, kami menggunakan National Human Center for Biotechnology Information (NCBI) gen acuan rujukan manusia 37 (GRCh37 / hg19) sebagai rujukan genom. Dalam studi Bull Terrier, genom referensi adalah Canom lupus familiaris perakitan genom CanFam3.1. Ambang batas skor kualitas dasar untuk perataan baca ditetapkan ke 20. SAMtools 24 digunakan untuk menghapus duplikat PCR di setiap kumpulan dan mengevaluasi kedalaman baca (versi 0.1.18 untuk studi WES dan versi 0.1.19 untuk studi WGS). Genome Analysis Toolkit (GATK) 25 versi 2.7.2 diterapkan untuk penataan kembali lokal dan kalibrasi ulang basis. Varian referensi yang disediakan untuk kalibrasi ulang adalah dbSNP 137 di WES. Dalam studi WES, kami menggunakan BEDtools 26 versi 2.16.2 untuk memilih secara acak 70% dan 80% bacaan di pre-eklampsia pool 7 untuk mengevaluasi pengaruh kedalaman pada deteksi varian dan estimasi MAF dari SNV yang divalidasi.

Deteksi SNV

Kami menerapkan tiga alat, fungsi SAMtools mpileup (versi 0.1.19), modul GATK UnifiedGenotyper (versi 2.7.2 untuk studi WES dan versi 3.2.2 untuk studi WGS), dan Freebayes 27 (versi 0.9.21), untuk mendeteksi SNV. Semua bacaan yang selaras dari 10 kumpulan di WES secara bersamaan diambil sebagai input untuk alat pendeteksi varian. Bacaan yang dipetakan secara unik (kualitas pemetaan> 20) dengan skor kualitas dasar> 20 digunakan untuk identifikasi varian. Kedalaman baca maksimum ditetapkan sebagai 10.000x saat menggunakan SAMtools dan GATK. Selain pengaturan diploid default dalam deteksi SAMtools dan GATK UnifiedGenotyper, kami juga menerapkan pengaturan ploidi 20 dalam deteksi GATK UnifiedGenotyper dan Freebayes karena setiap kumpulan berisi 10 sampel individu dalam ketiga penelitian.

Estimasi frekuensi alel

Dua strategi diterapkan untuk estimasi frekuensi alel: berdasarkan kedalaman baca atau jumlah alel. SAMtools, GATK dan Freebayes menghitung kedalaman referensi baca dan alel alternatif di semua sampel yang dikumpulkan pada setiap lokus SNV saat mendeteksi varian. Dalam studi WES, total AAF untuk SNV yang divalidasi dalam 100 sampel diperkirakan dengan menghitung persentase bacaan yang mendukung alel alternatif di seluruh 10 kelompok. Selain itu, ketika menggunakan GATK dan Freebayes dengan pengaturan ploidy untuk deteksi varian, kami menggunakan rasio jumlah alel alternatif terhadap jumlah alel total (n = 200) dari prediksi genotipe dalam semua sampel yang dikumpulkan sebagai total AAF. Dalam studi Bull Terrier, strategi yang sama diterapkan untuk memperkirakan MAF: jumlah alel minor dari informasi genotipe yang dihasilkan oleh GATK dan Freebayes menggunakan pengaturan ploidy diekstraksi dalam setiap sampel yang dikumpulkan, kemudian dibagi dengan total alel di kolam (n = 20) .

Penyaringan SNV untuk validasi

Dalam studi WES, kandidat SNV yang berpotensi terkait dengan fenotipe dipilih untuk validasi genotipe. Kriteria penyaringan berikut ini diterapkan untuk memilih kandidat varian langka dan frekuensi rendah: 1. Memfilter SNV tunggal dalam hanya satu kumpulan kasus atau SNV di lebih dari satu kelompok kontrol; 2. Menjaga SNV fungsional langka dan frekuensi rendah dengan kedalaman baca> 10 ×; 3. Menyaring SNV yang terletak di 'gen yang tidak dapat diandalkan' menurut daftar gen yang dicurigai 28, 29 . Dalam studi skoliosis, kami lebih lanjut menyimpan SNV yang relevan menurut database Gene Ontology 30 . Selain itu, kami juga memilih SNV yang tidak hadir di kelompok kontrol dengan visualisasi manual di Integrative Genomics Viewer, IGV 31, 32 . Dalam penyaringan hilir studi pra-eklampsia kami juga memasukkan beberapa varian umum yang terdapat di lebih dari satu kelompok pra-eklampsia, tetapi dalam kurang dari lima kelompok skoliosis. Dengan mengambil data skoliosis sebagai referensi eksternal bersama-sama dengan referensi berbasis populasi dari 1000 proyek Genome 33 dan proyek SiSu (www.sisuproject.fi), rasio MAF di semua sampel pra-eklampsia ke MAF dalam dataset referensi> 1, 5 adalah digunakan sebagai ambang penyaringan. Selain itu, satu varian omong kosong dan satu SNV yang terletak di daerah puncak keterkaitan yang diidentifikasi dalam studi sebelumnya 19 dipilih.

Genotipe

Validasi SNV oleh genotipe telah dijelaskan sebelumnya dalam studi skoliosis 17 dan studi pra-eklampsia 22 . Singkatnya, varian yang dipilih untuk validasi di-genotipe menggunakan sistem Sequenom MassARRAY (San Diego, California, Amerika Serikat) pada sampel yang termasuk dalam WES. 20 Bull Terrier yang termasuk dalam WGS di-genotip secara individual di FIMM Technology Center di bawah kendali kualitas rutin oleh Illumina GenomeStudio (Pusat Teknologi FIMM, Universitas Helsinki, Helsinki, Finlandia) menggunakan susunan Illumina Canine HD 173k SNP (San Diego, California, Amerika Serikat ). Perangkat lunak PLINK 34 digunakan untuk menganalisis data genotipe dan untuk menghitung MAF.

Evaluasi deteksi varian dengan alat yang berbeda

Dalam studi WES, untuk mengevaluasi kinerja berbagai alat deteksi SNV, kami menggunakan paket ANNOVAR 35 untuk membubuhi keterangan SNV yang terdeteksi dengan dbSNP 144 dan proyek 1000 Genome (Agustus 2015). SNV yang tidak dijelaskan dalam dbSNP 144 didefinisikan sebagai SNV novel yang potensial. Frekuensi alel sampel dengan leluhur Eropa dalam proyek 1000 Genom digunakan sebagai referensi untuk mengkategorikan SNV. SNV dengan frekuensi alel alternatif (AAF) kurang dari 1% digolongkan sebagai varian langka dan mereka yang AAF antara 1% dan 5% didefinisikan sebagai varian frekuensi rendah. SNV dengan AAF lebih dari 5% diklasifikasikan sebagai varian umum. SNV tanpa informasi AF dalam proyek 1000 Genom didefinisikan sebagai tidak diketahui. SNV bersama didefinisikan sebagai polimorfisme dengan genotipe yang sama yang terdeteksi oleh setidaknya dua alat. SNV dengan lebih dari satu alel alternatif didefinisikan sebagai SNV multi-alel.

Dalam studi Bull Terrier WGS, untuk mengurangi kompleksitas mengevaluasi kinerja alat dan perkiraan frekuensi alel, kami menyaring SNV multi-alel yang diidentifikasi oleh alat apa pun. Kami mengambil genotipe 20 anjing dari jajaran Illumina sebagai kondisi sebenarnya untuk mengevaluasi kinerja alat pendeteksi varian. Pengukuran yang digunakan didefinisikan sebagai berikut:

True positive (TP): jumlah SNV yang terdeteksi oleh array WGS dan Illumina; True negative (TN): jumlah lokus monomorfik yang tidak menunjukkan SNVs baik dalam WGS atau array Illumina; False positive (FP): jumlah SNV yang terdeteksi oleh WGS, tetapi monomorfik dalam jajaran Illumina; False negative (FN): jumlah SNV yang terdeteksi oleh array Illumina, tetapi monomorfik dalam WGS.

Image

Image

Image

Image

Image

Evaluasi estimasi MAF

Dalam studi WES, kami menggunakan deviasi root-mean-square (RMSD) untuk mengukur perbedaan antara MAF yang diperkirakan dari sekuensing exome dan MAF yang divalidasi secara eksperimental dengan genotipe. RMSD dihitung sebagai berikut:

Image

MAF: Frekuensi alel minor minor yang divalidasi secara eksperimen; estimasi_MAF: frekuensi alel minor diperkirakan dari data urutan exome. Dalam studi Bull Terrier WGS, kami mengumpulkan jumlah alel minor dari 10 anjing yang terkena dan 10 yang tidak terpengaruh menurut pengaturan WGS dan menghitung alel kecil dari setiap sampel yang dikumpulkan dalam data array. Perbedaan jumlah alel antara kedua platform dihitung dengan secara langsung membandingkan jumlah alel kecil antara WGS dan array Illumina. Koefisien korelasi Pearson ( r ) diterapkan untuk mengukur korelasi antara estimasi MAF dan MAF yang divalidasi secara eksperimental dalam ketiga studi.

informasi tambahan

Cara mengutip artikel ini : Wang, J. et al. Investigasi varian langka dan frekuensi rendah menggunakan sekuensing throughput tinggi dengan sampel DNA yang dikumpulkan. Sci. Rep. 6, 33256; doi: 10.1038 / srep33256 (2016).

Informasi tambahan

File PDF

  1. 1.

    Informasi tambahan

Komentar

Dengan mengirimkan komentar Anda setuju untuk mematuhi Ketentuan dan Pedoman Komunitas kami. Jika Anda menemukan sesuatu yang kasar atau yang tidak mematuhi persyaratan atau pedoman kami, harap tandai sebagai tidak pantas.