Long-read RNA sequencing analysis of the lytic human cytomegalovirus transcriptome
Introduction The human cytomegalovirus (HCMV) is a ubiquitous herpesvirus and has a complex transcriptome. Polycistronism and alternative splicing make forming accurate transcript models particularly challenging. Long-read sequencing is a powerful nover tool that is able to distinguish between isofo...
Elmentve itt :
Szerző: | |
---|---|
További közreműködők: | |
Dokumentumtípus: | Disszertáció |
Megjelent: |
2019-04-18
|
Kulcsszavak: | transcriptome, human cytomegalovirus, long-read sequencing, nanopore, SMRT sequencing, annotation pipeline |
Tárgyszavak: | |
doi: | 10.14232/phd.10113 |
mtmt: | 30663068 |
Online Access: | http://doktori.ek.szte.hu/10113 |
Tartalmi kivonat: | Introduction The human cytomegalovirus (HCMV) is a ubiquitous herpesvirus and has a complex transcriptome. Polycistronism and alternative splicing make forming accurate transcript models particularly challenging. Long-read sequencing is a powerful nover tool that is able to distinguish between isoforms and discern a complex transcriptome. In order to gain a better insight into the transcriptional repertoire of the virus, we have sequenced the lytic HCMV transcriptome on multiple third-generation sequencing platforms. Our main objectives were to determine exon-connectivity, and to annotate the lytic transcriptome of the virus. In order to utilize the power of long-read sequencing, we have developed a pipeline that is suited for the analysis of long-read RNA sequencing data and is able to compare results obtained from different sequencing platforms. We also aimed to characterize the performance of each sequencing platform and library preparation method based on their ability to sequence full-length genuine transcripts. Materials and Methods Two biologically independent samples were sequenced. The first sample was subjected to cDNA sequencing on the Pacific Biosciences (PacBio) RSII and Sequel platforms as well as cDNA and dRNA sequencing on the Oxford Nanopore Technologies (ONT) MinION platform. The second sample was used for cap-selected cDNA sequencing on the MinION platform. The data were analysed using a custom pipeline utilizing the biopython and the pysam modules, and the bedtools software. Custom scripts were written to generate read statistics, characterize transcripts and to compare results. Results Over 80,000 cDNA reads were obtained from the two PacBio platforms and over 1,000,000 cDNA reads from the MinION platform. The direct RNA sequencing yielded 36,195 reads. The direct RNA sequencing reads were used to validate the cDNA sequencing results. We have created a pipeline for the analysis of long-read RNA sequencing data which accepts mapped sequencing reads produced by any long-read sequencing platform, and outputs a transcriptome annotation based on the sequenced reads. 440 isoforms were detected in our dataset. 377 of them were novel isoforms. The novel transcripts include TSS-, TES- or alternatively spliced isoforms of known genes, antisense transcripts and a novel intergenic transcript in the short repeat region. Many of the transcript isoforms only differed from each other in a few nucleotides, however, interestingly, most isoforms differed from each other in the combination of ORFs that they contained. Discussion Our results have more than doubled the number of annotated HCMV transcripts. Cross-platform validation gives these novel features high confidence. Using long-read RNA sequencing data we were able to draw a more detailed map of the HCMV transcriptome, which is instrumental both for the analysis of the viral gene expression and for understanding the molecular mechanisms of infection. Long-read RNA sequencing has discovered countless new isoforms in all the organisms for which it has been used. The biological function of most of these isoforms is currently unknown. However, our results show that many of the isoforms have distinct coding potentials, meaning that they code for different peptides of express upstream ORFs which may play a regulatory role during translation. With the headway of long-read sequencing technologies, the importance of bioinformatics tools that can analyse such data is increasing. We developed a pipeline which can rapidly process long-read RNA sequencing data from different platforms and create a transcriptome annotation which can be utilized by user with no bioinformatics background. Bevezetés A human citomegalovírus (HCMV) egy ubiquiter herpeszvírus, transzkriptoma komplex. A policisztonikus, alternatívan splice-olt és transzkripteket különösen nehéz rövid-read szekvenálással elemezni. A hosszú-read szekvenálás azonban képes megkülönböztetni a transzkripteket egy ilyen komplex transzkriptomban is. A vírus transzkripciós repertoárjának részletes megismerése érdekében számos harmadik-generációs szekvenáló platformon megszekvenáltuk a HCMV lítikus transzkriptomát. Célul tűztük ki a lítikus fertőzés során keletkező transzkriptek bázispár-pontosságú feltérképezését. A hosszú-read szekvenálási eredmények elemzéséhez kidolgoztunk egy olyan pipeline-t ami a hosszú-read RNS-szekvenálás adatait feldolgozza és a különöző platformmal kapott eredményeket összehasonlíthatóvá teszi. Továbbá célunk volt az egyes könyvtárkészítési eljárások jellemzése az alapján, hogy milyen hatékonysággal képesek felismerni a teljes hosszúságú transzkripteket. Anyagok és módszerek Két biológiailag független mintát szekvenáltunk. Az első mintát cDNS írás után a Pacific Biosciences (PacBio) RSII és Sequel platformjain és az Oxford Nanopore Technologies (ONT) MinION platformján szekvenáltuk meg. A második minta egy részét cap-szelekció és cDNS írás után a MinION platformon cDNS-ként, a minta másik részét ugyanezen a platformon RNS formájában szekvenáltuk meg. Az adatokat saját készítésű scriptekkel elemeztük. Ezek a scriptek a biopython és a pysam modulokon, valamint a bedtools szoftver használatán alapulnak. A statisztikai elemzésre, a transzkriptek jellemzésére és az eredmények összehasonlítására szintén sajátkészítésű scripteket alkalmaztunk. Eredmények Több, mint 80000 cDNS leolvasást kaptunk a PacBio platformról és több, mint egy milliót a MinION platformról. A direkt RNS szekvenálás 36195 readet eredményezett. A direkt-RNS szekvenálás eredményeit a cDNS-szekvenálás eredményeinek a validálására használtuk fel. Létrehoztunk egy pipeline-t a hosszú-read szekvenálás analízisére, amely már mappelt readeket fogad el inputként bármelyik hosszú-read szekvenálási platformról és a readek alapján elkészít egy transzkriptom annotációt. 440 izoformát sikerült azonosítani az adatok alapján, ezek közül 377 új izoforma. Az új transzkriptek között találhatóak ismert gének TSS-, TES- valamint alternatívan splice-olt izoformái, antiszensz gének és egy intergénikus transzkript a rövid repeat régióban. A transzkript izoformák közül sok csak néhány nukleotidban tért el egymástól, azonban, érdekes módon, a legtöbb izoforma eltért a bennük foglalt ORF-ek kombinációjában. Diszkusszió Eredményeink több, mint megháromszorozták az annotált HCMV transzkriptek számát. A különböző platformok általi validációnak köszönhetően eredményeink megbízhatóak. Hosszú-read szekvenálási adataink sokkal részletesebb képet tudtak mutatni a HCMV transzkriptomáról, amely hasznos mind a virális génexpresszió tanulmányozásához, mind pedig a fertőzés molekuláris mechanizmusának megértéséhez. A hosszú-read RNS szekvenálási technikák számos új izoformát fedeztek fel minden megvizsgált organizmusban, amelyben eddig alkalmazták őket. Az izoformák nagy részének egyelőre nem ismert a biológiai jelentősége. Azonban, az eredményeink azt mutatják, hogy sok izoforma különböző kódoló potenciállal rendelkezik, ami azt jelenti, hogy különböző polipeptideket kódolnak vagy pedig különböző rövid upstream ORF-eket fejeznek ki, amelyek szabályozó szerepet tölthetnek be a transzkript transzlációjában. A hosszú-read szekvenálás rohamos ütemű fejlődése mellett az ezek elemzésére képes bioinformatikai eszközök jelentősége is növekszik. Egy olyan pipeline-t fejlesztettünk ki, amelyik a különböző hosszú-read szekvenálási platformok adatait gyorsan képes feldolgozni és azok alapján egy olyan transzkriptom annotációt készít, ami egy bioinformatikai ismeretekkel nem rendelkező felhasználó által is kezelhető. |
---|