티스토리 뷰

Miseq 시퀀싱을 맏기면 시퀀싱 센터에서 파일을 준다. 어디에 맏기는지에 따라 다르지만 샘플을 나누는 demultiplex 과정을 거치지 않고 주는 경우 read1, read2, index 파일 총 3개 또는 4개(두개의 인덱스)의 파일을 준다. 아래 그림과 같이 말이다. 



수십개의 샘플을 보냈는데 파일이 달랑 4개라니!!! 도대체 내 시퀀스는 어디에 있단 말인가!


하지만 걱정할 필요 없다. 위에 4개의 파일안에 여러분이 필요한 모든 정보가 들어있다. 파일을 자세히보면 R1, R2라고 되어 있는 파일이 실제 시퀀스가 들어있는 파일이다. R1는 Read1 을 뜻하고 forward read를 말한다. R2는 Read2이고 reverse read이다. paired-end 를 사용했을 경우 이렇게 두개의 파일이 나오고, single-end를 사용했을 경우에는 한개만 나온다 I1, I2 파일은 인덱스 파일이다. 이 파일을 이용해 어느 시퀀스가 어느 샘플에 해당하는지 알려준다. I1 은 R1과 매치되고 I2는 R2와 매치된다. 경우에 따라서 I파일을 한개만 주는 경우도 있다. 이때는 한개의 인덱스 파일 안에 R1과 R2의 정보가 모두 들어있다.


첫번째 단계는 하나로 되어있는 파일을 샘플별로 나누어 주는 demultiplex 작업이다. 이 작업을 위해서는 한가지 파일이 더 필요한데, 흔히 매핑파일(mapping file)이라고 부른다. 간단한 텍스트 파일로 되어 있고 (.txt) 파일을 열어보면 샘플이름, 바코드 정보가 들어있다. 매핑파일을 이용해 demultiplex 하려면 아래 코드를 이용한다.

https://github.com/metajinomics/dev/tree/master/amplicon_tools


커맨드라인을 어떻게 사용하는지 궁금하다면 여기에 설명이 되어 있습니다. 



도움이 되셨다면

공감 눌러주세요 ^.^ 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/03   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31
글 보관함