티스토리 뷰

메타지노믹스

NCBI SRA에 NGS 시퀀싱 파일 올리기

메타지노믹스 메타지노믹스 2017.06.13 21:39

NCBI에 시퀀스를 어디에 등록해야 하는지 포스팅 했었다.  이번에는 그중 SRA에 등록하는 방법을 자세히 소개하고자 한다. 


1. 먼저 NCBI 웹사이트에 방문해 로그인을 한다. ID가 없을 경우에는 회원가입을 한다.

https://submit.ncbi.nlm.nih.gov




2. 로그인을 하고 아래 주소로 들어가보면 시퀀스를 submit할 수 있는 페이지가 나온다. 여기서 Sequence Read Archive (SRA)를 선택한다. 아래에는 내가 예전에 submit했던 프로젝트 들이 나온다.

https://submit.ncbi.nlm.nih.gov/subs/




3. 이제 New submission 버튼을 눌러 시작한다. 이 버튼을 누를때마다 Submission ID가 자동으로 생성되는데, 여러번 연습으로 만들지 말고 한번에 제대로 만드는 것이 좋다. 일단 만들어 놓으면 중간에 언제든지 멈추었다가 다시 시작할 수 있고, 예전에 입력한 정보들도 다시 수정할 수 있다.



4. 첫번째 단계는 시퀀스를 등록하는 사람의 정보를 입력하는 것이다. 이름과 직장(학교)이메일, 직장(학교)주소를 넣는다.



5. 여기서부터 "어떤걸 선택해야 하지?"라는 궁금증이 생기는 질문들이 나오기 시작한다. 첫번째 질문인 BioProject를 새로 만들꺼냐는 질문에는 만약 처음 등록하는 것이라면 Yes를 선택한다. 프로젝트 하나에 여러개의 샘플과 여러개의 시퀀스가 들어갈 수 있다. 만약 부득이하게 시퀀스를 하나씩 올려야 하는경우이거나 (예를들어 WGS) 이미 따로 프로젝트를 만들어 놓은 경우에는 No를 선택하고 해당 프로젝트 ID를 입력하면 된다.


두번째 질문도 마찬가지로 아직 등록해 놓은 샘플이 없다면 Yes를 눌러 이 과정에서 자동으로 생성하도록 한다.





6. 프로젝트를 새로 만들기로 했으니 프로젝트에 관한 정보를 요구한다. 화면을 잘 보면 탭이 5개에서 9개로 늘어나 있는 것을 확인할 수 있다.




7. 다음은 논문 정보를 물어본다. 보통 논문이 출판되기 이전에 시퀀스를 등록하기 때문에 완전한 정보를 넣기는 어렵지만 가능한 만큼 입력한다. (이 단계는 사진을 못찍음..)


8. 여기서 다시한번 어려운 질문과 마주하게 된다. 내가 가진 샘플이 어떤것이냐는 질문인데, 여기서 샘플은 DNA를 뽑기 전 샘플을 말한다. 예를들어 박테리아 pure 컬쳐인지, 환경샘플인지 등 을 말한다. MIxS라는 것은 Genome standard consortium에서 시퀀스를 등록할 때 샘플에 대한 자세한 정보를 standard 해서 잘 등록하자는 취지에서 만들어진 것이다. http://gensc.org/projects/mixs-gsc-project/ 시퀀스만 덩그러니 올려놓고 샘플에 대한 정보는 논문을 찾아서 일일이 읽어봐야 하는 어려움을 덜기위해 만들어진 것인데 매우 바람직한 방향이라고 할 수 있다. MIxS를 선택하면 거기에 맞는 형식의 정보를 제공하도록 요청받게 되고 샘플에 대한 자세한 내용 (예를들어 호수에서 물을 떠왔다면 샘플을 얻은 물의 깊이, 온도, GPS(위치), 날자 등)을 입력해야 한다.



9. 샘플에 대한 내용은 파일로 만들어서 올리게 되어있다. Download Excel 또는 Download TSV를 눌러 Format 파일을 받고 필요한 정보를 입력한다. 앞 화면에서 선택에 따라 다른 종류의 Form을 보여준다. 중요한것은 Excel 파일을 다운로드 받아 정보를 입력했다면 Save as를 누르고 Tab Delimited Text로 저장해야 한다. 여기서는 샘플에 대한 정보를 올린다. DNA를 뽑기 전 샘플을 말하는 것이다. 예를들어 Control 과 treatment 로 각각 biological replicate가 3개씩 있었다면 총 샘플의 수는 6개가 된다. 그런데 각 샘플당 시퀀싱을 두번 했다고 하자. 그러면 내가 upload 해야 하는 시퀀싱 파일은 12개이다 (paired end 라면 24개). 그렇다고 해도 샘플 수는 6개로 해야한다. 두번 시퀀싱 한것에 대한 내용은 나중에 SRA metadata에서 입력하게 된다.



10. 이번에는 SRA 메타 데이터를 제공한다. 이부분은 시퀀싱이 어떻게 이루어 졌는지를 물어본다. 위 단계에서 예로 들었던 한개의 샘플을 두번 시퀀싱 했을 때의 정보는 여기서 입력한다. 같은 샘플을 여러번 시퀀싱 했을 경우  엑셀 파일에서 Sample_name은 같게, Library_ID는 다르게 입력한다. 나머지 내용은 파일안에 설명부분을 참고해 입력한다. 마지막으로, Paired end로 시퀀싱을 해서 파일이 2개 나왔다면 (R1, R2), filename에 R1을 filename2에 R2를 입력한다.



11. 이제 실제 파일을 올리는 단계이다. 파일 개수가 적고 용량이 작다면 웹페이지에서 직접 올려도 되지만, 파일용량이 크고 개수가 많다면 FTP로 올리는 것이 좋다. I have all files preloaded for this submission을 누르고 FTP를 선택하면 FTP 아이디와 패스워드를 생성해준다. FTP로 파일을 올리고 난 후에 이 페이지로 돌아와서 업로드한 폴더를 선택해준다.



12. 마지막 Overview에서는 입력한 내용이 잘 들어가 있는지 보여준다. 확인하고 Submit을 누르면 완료!




신고
댓글
댓글쓰기 폼
공지사항
Total
4,335
Today
55
Yesterday
50
링크
«   2017/07   »
            1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31          
글 보관함