QIIME 사용법 QIIME(차임) 을 이용해 16s 시퀀스를 분석하는 방법을 설명하고자 한다. 시퀀싱을 해주는 곳에 따라서 받게 되는 파일이 다를 수 있지만 기계에서 얻어지는 파일을 아무 작업 없이 받았다고 가정하고 글을 쓴다. 가끔 시퀀싱을 해주는 곳에서 퀄리티 트림, merge 등의 작업을 해서 보내주는 경우도 있으니 그런 경우에는 단계 중간에 맞는 부분부터 시작하면 된다. 만약 일루미나 Miseq 에서 시퀀싱을 했다면 세개의 파일을 받게 된다. 1) Undetermined_S0_L001_R1_001.fastq.gz2) Undetermined_S0_L001_R2_001.fastq.gz3) Undetermined_S0_L001_I1_001.fastq.gz 1번 파일은 Paired end의 forwar..
시작하기 전에 이 글은 16s 앰플리콘 시퀀스 분석을 위한 글임을 알려둔다. 16s 앰플리콘 시퀀싱과 샷건 시퀀싱을 흔히 메타지노믹스라고 혼동하여 사용하는 경향이 있는데, 본인은 샷건 시퀀싱을 메타지노믹스라고 부르고 16s를 시퀀싱 한것은 앰플리콘 시퀀싱이라고 불러야 한다고 생각한다. 자세한 내용은 여기를 참고. 16s시퀀싱은 이미 보편화 되어 사용되기 때문에 분석의 방법이나 툴이 어느정도 갖추어져 있다. 사람들이 가장 많이 사용하는 두가지 프로그램은 QIIME과 Muther이다. 두 프로그램 모두 여러 단계를 거쳐야 하는 분석을 한개의 프로그램에서 수행 가능하게 해준다. 1. QIIME (http://qiime.org) 발음은 '차임'으로 한다. 시퀀싱 분석을 위해 거쳐야 하는 많은 단계를 몇개의 co..
메타지놈 시퀀스를 받고 본격적으로 분석을 하기 위해서는 세가지 정보가 필요하다. 1) 메타데이터, 2) 카운트 테이블, 3) 어노테이션. 이중에서 어노테이션을 설명하려고 한다. 어노테이션은 쉽게말해 시퀀스가 어떤 기능을 가지고 있는지, 어드 유기체에서 왔는지 찾는 것을 말한다. 일루미나로 시퀀싱을 하면 250~300 베이스 페어 길이의 시퀀스를 얻게 된다. 이 시퀀스가 어느 유전자의 한 부분일수도 있고 유전자 사이에 단백질을 만들지 않는 부분일수도 있다. 간혹 드물게 두개 이상의 유전자 부분이 한 시퀀스에 있을 수도 있다. 이렇게 복잡한 경우의 수를 모두 생각해서 어디가 유전자 부분이고, 알려진 단백질 중에 어떤것과 비슷하고 하는 것들을 일일이 연구자가 정하기도 어렵고 또 이런 작업은 대부분 랩탑 수준의..