NCBI의 많은 정보가 Genbank 형식으로 저장되어 있다. 하지만 여기에서 내가 원하는 유전자의 단백질이나 DNA의 서열을 얻는 것은 초보자에게 어려울 수 있다. 아래의 파이선 코드를 이용하여 genbank파일에서 단백질과 DNA서열을 얻는 방법을 소개한다. 1. 먼저 NCBI에서 genbank파일을 얻는다. 이 링크 페이지를 예로들어보자. 링크를 눌러 NCBI에 들어가면 Clostridium thermocellum 의 full-genome 정보가 Genbank 형식으로 보여진다. 먼저 이 정보를 다운받기 위해 오른쪽 위에 Send를 누르고, Complete Record, File 을 선택한 후에 Format 부분에서 Genbank(full)을 선택해 준다. 만약 Full버전이 아닌 그냥 Genban..
QIIME 사용법 QIIME(차임) 을 이용해 16s 시퀀스를 분석하는 방법을 설명하고자 한다. 시퀀싱을 해주는 곳에 따라서 받게 되는 파일이 다를 수 있지만 기계에서 얻어지는 파일을 아무 작업 없이 받았다고 가정하고 글을 쓴다. 가끔 시퀀싱을 해주는 곳에서 퀄리티 트림, merge 등의 작업을 해서 보내주는 경우도 있으니 그런 경우에는 단계 중간에 맞는 부분부터 시작하면 된다. 만약 일루미나 Miseq 에서 시퀀싱을 했다면 세개의 파일을 받게 된다. 1) Undetermined_S0_L001_R1_001.fastq.gz2) Undetermined_S0_L001_R2_001.fastq.gz3) Undetermined_S0_L001_I1_001.fastq.gz 1번 파일은 Paired end의 forwar..
시작하기 전에 이 글은 16s 앰플리콘 시퀀스 분석을 위한 글임을 알려둔다. 16s 앰플리콘 시퀀싱과 샷건 시퀀싱을 흔히 메타지노믹스라고 혼동하여 사용하는 경향이 있는데, 본인은 샷건 시퀀싱을 메타지노믹스라고 부르고 16s를 시퀀싱 한것은 앰플리콘 시퀀싱이라고 불러야 한다고 생각한다. 자세한 내용은 여기를 참고. 16s시퀀싱은 이미 보편화 되어 사용되기 때문에 분석의 방법이나 툴이 어느정도 갖추어져 있다. 사람들이 가장 많이 사용하는 두가지 프로그램은 QIIME과 Muther이다. 두 프로그램 모두 여러 단계를 거쳐야 하는 분석을 한개의 프로그램에서 수행 가능하게 해준다. 1. QIIME (http://qiime.org) 발음은 '차임'으로 한다. 시퀀싱 분석을 위해 거쳐야 하는 많은 단계를 몇개의 co..
메타지놈 시퀀스를 받고 본격적으로 분석을 하기 위해서는 세가지 정보가 필요하다. 1) 메타데이터, 2) 카운트 테이블, 3) 어노테이션. 이중에서 어노테이션을 설명하려고 한다. 어노테이션은 쉽게말해 시퀀스가 어떤 기능을 가지고 있는지, 어드 유기체에서 왔는지 찾는 것을 말한다. 일루미나로 시퀀싱을 하면 250~300 베이스 페어 길이의 시퀀스를 얻게 된다. 이 시퀀스가 어느 유전자의 한 부분일수도 있고 유전자 사이에 단백질을 만들지 않는 부분일수도 있다. 간혹 드물게 두개 이상의 유전자 부분이 한 시퀀스에 있을 수도 있다. 이렇게 복잡한 경우의 수를 모두 생각해서 어디가 유전자 부분이고, 알려진 단백질 중에 어떤것과 비슷하고 하는 것들을 일일이 연구자가 정하기도 어렵고 또 이런 작업은 대부분 랩탑 수준의..
바이오인포매틱스를 업으로 한다면 모를 수 없는 웹사이트가 NCBI(www.ncbi.nlm.nih.gov) 이다. 미국 NIH에서 운영중인 이 웹사이트는 유럽의 EMBL-EBI (http://www.ebi.ac.uk)와 더불어 가장 큰 DNA시퀀스 데이터베이스라고 할 수 있다. 그런데 살펴보다 보면 이 웹사이트의 정보가 '참 믿을 수 없다'는 생각이 들 때가 있다. 본인이 겪은 예를 들면, 보통 박테리아에 16s gene DNA 가 2개 이상 있는 경우가 흔하다. 그런데 이들의 시퀀스는 매우 비슷하다. 따라서 여러개 중 어느것을 이용해도 보통 무방하다. 어느날, 어느 박테리아에서 16s 시퀀스를 두개 얻었는데 이것이 완전히 다른 경우가 있었다. 이런경우 어느것을 사용해야 할지 매우 막막하게 된다. 그리고 ..
사우스웨스트항공을 이용해 보았다. 일단 저렴한 가격이 가장 큰 장점이었다. 나머지는 모두 단점이랄까? 항공사에서는 불필요한 비용을 줄여 낮은 항공권가격이 가능하게 했다고 한다. 예를들어 기내영화, 식사, 서비스 등을 최소화 하는 것을 말한다. 실제로 이용해보니 그런 점이 크게 단점으로 다가오지는 않았다. 다른 항공사와 비교해 가장 크게 다른점으로 느껴진 것은 두가지이다. 1) 패널티 없이 항공권을 언제든지 바꿀 수 있다. 2) 좌석이 정해져 있지 않고 타는 순서만 정해져 있다. 여기서는 이 두가지를 자세히 다루어 보고자 한다. 1) 패널티 없이 항공권을 바꿀 수 있다.항공권을 살때 옵션은 세가지이다. 1)? 2)? 3)? 나는 이중에 가장 저렴한 세번째를 선택했다. 가격이 다른 항공사에 비해 100불 이..
시퀀싱을 하면 결과가 보통 FASTQ 포멧으로 나온다. 하지만 가끔은 FASTA포멧이 필요할 때가 있다. FASTQ 포멧을 FASTA포멧으로 변경하는 방법을 소개한다. 리눅스 또는 맥의 터미널을 이용한다고 가정한다. cat filename.fastq | paste - - - - | sed 's/^@/>/g'| cut -f1-2 | tr '\t' '\n' > filename.fasta 조금 복잡해 보일 수 있으나 의외로 간편하게 아무런 프로그램을 설치하지 않고도 포멧 변경이 가능하다. 여러개의 파일을 한꺼번에 바꾸려면 다음과 같이 for 구문을 사용하면 된다. for x in *.fastq;do cat $x | paste - - - - | sed 's/^@/>/g'| cut -f1-2 | tr '\t' '..