티스토리 뷰

바이오 인포매틱스

NCBI 시퀀스 등록

메타지노믹스 메타지노믹스 2017.01.06 23:36

바이오인포매틱스 일을 하면서 가장 귀찮은(?), 하지만 중요한 일중에 하나는 바로 NCBI 에 시퀀스를 등록하는 것이다. 그 이유는 생각보다 시간도 많이 들고 등록하다보면 '여기서는 뭐라고 써야하지?'하는 것들이 많기 때문이다. 하지만 시퀀스 등록은 필수이다!! 모든 분석이 시퀀스에서 시작하는데 시퀀스가 등록되어 있지 않다면 아무도 내 연구를 재현할 수 없을 것이다. 


어디에 올려야 하는가?

제일 첫번째 과정은 NCBI 웹사이트에 방문해 아이디를 만들고 Submission 페이지로 들어가는 것이다. 

https://submit.ncbi.nlm.nih.gov/subs/





그런데, NCBI에 시퀀스를 올리기 위해 웹사이트에 들어가보면 종류가 너무 많아 도무지 어디에 올려야 하는지 알기 어렵다 (왼쪽 위 "Start a new submission" 부분). NCBI에서 설명하는 페이지가 있지만 어렵기는 마찬가지다. 하지만, 요즘 시퀀싱은 대부분 셋중의 하나일 것이다. 1) 대부분의 NGS 데이터 2) Whole genome sequencing 3) 한개의 16s 시퀀스 


1. 대부분의 NGS 데이터 - SRA

일루미나(Illumina)또는 454 에서 나온 시퀀스의 경우 SRA (Sequence Read Archive)에 올리면 된다. 내가 연구에 사용한 가장 Raw한 데이터, 기계에서 바로 나온 데이터를 FASTQ 포멧으로 올릴 수 있다. 

자세한 설명은 여기 


2. Whole genome sequencing -WGS

만약 관심있는 생물의 전체 지놈을 얻었다면 (Assembly를 해서 또는 기타 방법으로) Whole genome sequence로 등록하면 된다. 


3. 한개의 16s 시퀀스 -GenBank

만약 새로운 미생물을 Isolation했는데, WGS까지 얻기는 힘들고 (가격이 후덜덜 ㅜㅜ), 그냥 16s 만 PCR해서 생어시퀀싱을 했다면 GenBank에 등록하면 된다. 



BioProject 와 BioSample

다른 사람들이 올린 데이터를 보면 BioProject와 BioSample이 함께 등록되어 있는 것을 볼 수 있다. 그럼 이것도 따로 만들어 줘야 하는것인가? 고맙게도 위에서 언급한 데이터 등록 과정에서 BioProject와 BioSample을 등록하는 과정이 포함되어 있다. 따라서 따로 등록하지 않아도 된다. 하지만 이것이 무엇인지는 알고 있어야 실수하지 않고 잘 등록 할  수 있다. 


BioProject

프로젝트 이름이라고 생각하면 된다. 여러개 샘플을 한꺼번에 시퀀싱을 돌렸다고 하면, 샘플은 많아도 프로젝트는 한개가 된다. 많은 경우 샘플당 파일한개씩 되어있으므로 첫번째 파일을 등록할 때 프로젝트를 만들고 (그러면 프로젝트 ID가 생성된다), 이때 생성된 ID를 두번째 파일 등록때부터 반복해서 사용하면 된다. 


BioSample

한개의 프로젝트에 샘플은 여러개 들어간다. 샘플마다 모두 따로 BioSample ID를 만들어 줘야 한다. 만약에 같은 샘플을 여러번 시퀀싱을 돌렸다면 하나의 샘플 ID를 이용해도 된다. 


나머지는 대부분 넣으라고 하는 정보를 넣으면 된다. Submit하고 나면 큐레이터가(사람이다!) 등록된 파일을 점검하고 프로세스 해준다. 이 큐레이터가 친절해서(적어도 내 프로젝트를 담당했던 사람은 친절했다) 이메일로 의사소통하는데 아무 문제 없었다. 실수가 있다면 이 사람이 고쳐준다. 이미 submit된 파일의 경우 직접 고치는 것 보다 큐레이터한테 고쳐달라고 하는게 더 나을 수 있다. 


그리고..기다림.... 엄청 오래걸린다... 특히 WGS의 경우 NCBI의 Annotation pipeline이 있는데 이게 몇달 걸린다 ㅜㅜ . Publish하기 전에 미리미리 업로드하자!!! 



신고
댓글
댓글쓰기 폼
공지사항
Total
5,306
Today
3
Yesterday
14
링크
«   2017/08   »
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31    
글 보관함