Miseq 시퀀싱을 맏기면 시퀀싱 센터에서 파일을 준다. 어디에 맏기는지에 따라 다르지만 샘플을 나누는 demultiplex 과정을 거치지 않고 주는 경우 read1, read2, index 파일 총 3개 또는 4개(두개의 인덱스)의 파일을 준다. 아래 그림과 같이 말이다. 수십개의 샘플을 보냈는데 파일이 달랑 4개라니!!! 도대체 내 시퀀스는 어디에 있단 말인가! 하지만 걱정할 필요 없다. 위에 4개의 파일안에 여러분이 필요한 모든 정보가 들어있다. 파일을 자세히보면 R1, R2라고 되어 있는 파일이 실제 시퀀스가 들어있는 파일이다. R1는 Read1 을 뜻하고 forward read를 말한다. R2는 Read2이고 reverse read이다. paired-end 를 사용했을 경우 이렇게 두개의 파일이..
어떤 종류의 단백질의 DNA 시퀀스를 얻고 싶다고 하자. 예를들어 EC.3.2.1.21 인 단백질의 DNA 시퀀스를 얻고 싶다. EC.3.2.1.21 의 기능을 가지는 단백질이 아주 많을 것이다. 몇개는 검색으로 찾을 수 있지만 모두 얻고 싶다면? 단백질의 아미노산 시퀀스를 얻는 것은 쉬운데, DNA시퀀스를 얻으려면? 이러할때 아래 방법을 사용해 보자. 1 단계: 검색을 통해 EC.3.2.1.21 에 해당하는 단백질 시퀀스를 얻는다.NCBI 나 여러곳을 이용해 검색을 통해 얻을 수 있는 정보를 많이 얻는다. 이렇게 검색을 통해 찾으면 많은 경우에 아미노산 시퀀스를 얻을 수 있다. (바로 DNA 시퀀스를 얻을 수 있으면 물론 좋다). 2 단계: 위의 단계에서 아쉽게도 아미노산 시퀀스만 얻었다고 하자. 먼저..
텍스트 중에 특정 문자가 포함되어 있는지, 어디에 있는지 찾아야 할 때가 있다. 그때는 아래와 같은 방법을 상용한다. 1. 특정 문자열이 포함되어 있는지 확인할때string = 'test test test'if 'test in string:print string 2. 특정 문자열이 포함된 위치를 확인할 때string = "this is test string"print string.find("test") 3. 특정 문자열이 여러번 포함된 경우import rest = [m.start() for min re.finditer('test', 'test test test test')] print st
QIIME을 이용해 키메라 (Chimera)를 제거하는 방법은 Usearch를 이용하는 것과 ChimeraSlayer를 이용하는 것 두가지가 있다. 1. usearch를 이용하는 방법usearch61 은 QIIME기본설치에 포함되지 않기 때문에 따로 설치해야 한다. 그리고, usearch 명령어는 버전 5.2.236 그리고 usearch61은 버전 6.1.544가 설치되어야 한다. 이해하기 어렵지만 두개 버전이 모두 설치 되어야 하고, 최신 버전이 아닌 아래 제공되는 버전을 설치해야 한다. 설치하는 방법은 아래와 같다. 파일을 다운받아 시스템 폴더에 복사해 넣는 것으로 충분하다. curl -O https://raw.githubusercontent.com/edamame-course/2015-tutorial..
NCBI의 많은 정보가 Genbank 형식으로 저장되어 있다. 하지만 여기에서 내가 원하는 유전자의 단백질이나 DNA의 서열을 얻는 것은 초보자에게 어려울 수 있다. 아래의 파이선 코드를 이용하여 genbank파일에서 단백질과 DNA서열을 얻는 방법을 소개한다. 1. 먼저 NCBI에서 genbank파일을 얻는다. 이 링크 페이지를 예로들어보자. 링크를 눌러 NCBI에 들어가면 Clostridium thermocellum 의 full-genome 정보가 Genbank 형식으로 보여진다. 먼저 이 정보를 다운받기 위해 오른쪽 위에 Send를 누르고, Complete Record, File 을 선택한 후에 Format 부분에서 Genbank(full)을 선택해 준다. 만약 Full버전이 아닌 그냥 Genban..
QIIME 사용법 QIIME(차임) 을 이용해 16s 시퀀스를 분석하는 방법을 설명하고자 한다. 시퀀싱을 해주는 곳에 따라서 받게 되는 파일이 다를 수 있지만 기계에서 얻어지는 파일을 아무 작업 없이 받았다고 가정하고 글을 쓴다. 가끔 시퀀싱을 해주는 곳에서 퀄리티 트림, merge 등의 작업을 해서 보내주는 경우도 있으니 그런 경우에는 단계 중간에 맞는 부분부터 시작하면 된다. 만약 일루미나 Miseq 에서 시퀀싱을 했다면 세개의 파일을 받게 된다. 1) Undetermined_S0_L001_R1_001.fastq.gz2) Undetermined_S0_L001_R2_001.fastq.gz3) Undetermined_S0_L001_I1_001.fastq.gz 1번 파일은 Paired end의 forwar..
시작하기 전에 이 글은 16s 앰플리콘 시퀀스 분석을 위한 글임을 알려둔다. 16s 앰플리콘 시퀀싱과 샷건 시퀀싱을 흔히 메타지노믹스라고 혼동하여 사용하는 경향이 있는데, 본인은 샷건 시퀀싱을 메타지노믹스라고 부르고 16s를 시퀀싱 한것은 앰플리콘 시퀀싱이라고 불러야 한다고 생각한다. 자세한 내용은 여기를 참고. 16s시퀀싱은 이미 보편화 되어 사용되기 때문에 분석의 방법이나 툴이 어느정도 갖추어져 있다. 사람들이 가장 많이 사용하는 두가지 프로그램은 QIIME과 Muther이다. 두 프로그램 모두 여러 단계를 거쳐야 하는 분석을 한개의 프로그램에서 수행 가능하게 해준다. 1. QIIME (http://qiime.org) 발음은 '차임'으로 한다. 시퀀싱 분석을 위해 거쳐야 하는 많은 단계를 몇개의 co..
메타지놈 시퀀스를 받고 본격적으로 분석을 하기 위해서는 세가지 정보가 필요하다. 1) 메타데이터, 2) 카운트 테이블, 3) 어노테이션. 이중에서 어노테이션을 설명하려고 한다. 어노테이션은 쉽게말해 시퀀스가 어떤 기능을 가지고 있는지, 어드 유기체에서 왔는지 찾는 것을 말한다. 일루미나로 시퀀싱을 하면 250~300 베이스 페어 길이의 시퀀스를 얻게 된다. 이 시퀀스가 어느 유전자의 한 부분일수도 있고 유전자 사이에 단백질을 만들지 않는 부분일수도 있다. 간혹 드물게 두개 이상의 유전자 부분이 한 시퀀스에 있을 수도 있다. 이렇게 복잡한 경우의 수를 모두 생각해서 어디가 유전자 부분이고, 알려진 단백질 중에 어떤것과 비슷하고 하는 것들을 일일이 연구자가 정하기도 어렵고 또 이런 작업은 대부분 랩탑 수준의..
바이오인포매틱스를 업으로 한다면 모를 수 없는 웹사이트가 NCBI(www.ncbi.nlm.nih.gov) 이다. 미국 NIH에서 운영중인 이 웹사이트는 유럽의 EMBL-EBI (http://www.ebi.ac.uk)와 더불어 가장 큰 DNA시퀀스 데이터베이스라고 할 수 있다. 그런데 살펴보다 보면 이 웹사이트의 정보가 '참 믿을 수 없다'는 생각이 들 때가 있다. 본인이 겪은 예를 들면, 보통 박테리아에 16s gene DNA 가 2개 이상 있는 경우가 흔하다. 그런데 이들의 시퀀스는 매우 비슷하다. 따라서 여러개 중 어느것을 이용해도 보통 무방하다. 어느날, 어느 박테리아에서 16s 시퀀스를 두개 얻었는데 이것이 완전히 다른 경우가 있었다. 이런경우 어느것을 사용해야 할지 매우 막막하게 된다. 그리고 ..