本發明屬于生物信息領域,涉及一種DNA測序數據的標準存儲方式FASTQ格式文件無損壓縮的方法。首先,將原FASTQ文件按序列進行提取,第三行丟棄。然后,將提取的序列按照行重新生成新的文件,分別為保存第一行的序列標志文件、保存第二行的序列數據文件和保存第四行的質量評分文件。其次,對第二步生成的三個文件分別利用進行壓縮處理:對序列數據文件進行壓縮、對質量評分文件進行壓縮、將序列標志文件進行處理之后再進行壓縮。最后,對第三步生成的壓縮文件,用tar將其壓縮為一個文件,并且刪除中間過程文件。通過本發明方法可以對下一代測序技術產生的海量DNA測序數據進行經濟性存儲和快速傳輸。
聲明:
“FASTQ格式文件無損壓縮的方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業用途,請聯系該技術所有人。
我是此專利(論文)的發明人(作者)