Miseq 시퀀싱을 맏기면 시퀀싱 센터에서 파일을 준다. 어디에 맏기는지에 따라 다르지만 샘플을 나누는 demultiplex 과정을 거치지 않고 주는 경우 read1, read2, index 파일 총 3개 또는 4개(두개의 인덱스)의 파일을 준다. 아래 그림과 같이 말이다. 수십개의 샘플을 보냈는데 파일이 달랑 4개라니!!! 도대체 내 시퀀스는 어디에 있단 말인가! 하지만 걱정할 필요 없다. 위에 4개의 파일안에 여러분이 필요한 모든 정보가 들어있다. 파일을 자세히보면 R1, R2라고 되어 있는 파일이 실제 시퀀스가 들어있는 파일이다. R1는 Read1 을 뜻하고 forward read를 말한다. R2는 Read2이고 reverse read이다. paired-end 를 사용했을 경우 이렇게 두개의 파일이..
어떤 종류의 단백질의 DNA 시퀀스를 얻고 싶다고 하자. 예를들어 EC.3.2.1.21 인 단백질의 DNA 시퀀스를 얻고 싶다. EC.3.2.1.21 의 기능을 가지는 단백질이 아주 많을 것이다. 몇개는 검색으로 찾을 수 있지만 모두 얻고 싶다면? 단백질의 아미노산 시퀀스를 얻는 것은 쉬운데, DNA시퀀스를 얻으려면? 이러할때 아래 방법을 사용해 보자. 1 단계: 검색을 통해 EC.3.2.1.21 에 해당하는 단백질 시퀀스를 얻는다.NCBI 나 여러곳을 이용해 검색을 통해 얻을 수 있는 정보를 많이 얻는다. 이렇게 검색을 통해 찾으면 많은 경우에 아미노산 시퀀스를 얻을 수 있다. (바로 DNA 시퀀스를 얻을 수 있으면 물론 좋다). 2 단계: 위의 단계에서 아쉽게도 아미노산 시퀀스만 얻었다고 하자. 먼저..
텍스트 중에 특정 문자가 포함되어 있는지, 어디에 있는지 찾아야 할 때가 있다. 그때는 아래와 같은 방법을 상용한다. 1. 특정 문자열이 포함되어 있는지 확인할때string = 'test test test'if 'test in string:print string 2. 특정 문자열이 포함된 위치를 확인할 때string = "this is test string"print string.find("test") 3. 특정 문자열이 여러번 포함된 경우import rest = [m.start() for min re.finditer('test', 'test test test test')] print st
QIIME을 이용해 키메라 (Chimera)를 제거하는 방법은 Usearch를 이용하는 것과 ChimeraSlayer를 이용하는 것 두가지가 있다. 1. usearch를 이용하는 방법usearch61 은 QIIME기본설치에 포함되지 않기 때문에 따로 설치해야 한다. 그리고, usearch 명령어는 버전 5.2.236 그리고 usearch61은 버전 6.1.544가 설치되어야 한다. 이해하기 어렵지만 두개 버전이 모두 설치 되어야 하고, 최신 버전이 아닌 아래 제공되는 버전을 설치해야 한다. 설치하는 방법은 아래와 같다. 파일을 다운받아 시스템 폴더에 복사해 넣는 것으로 충분하다. curl -O https://raw.githubusercontent.com/edamame-course/2015-tutorial..