티스토리 뷰

NCBI의 많은 정보가 Genbank 형식으로 저장되어 있다. 하지만 여기에서 내가 원하는 유전자의 단백질이나 DNA의 서열을 얻는 것은 초보자에게 어려울 수 있다. 아래의 파이선 코드를 이용하여 genbank파일에서 단백질과 DNA서열을 얻는 방법을 소개한다. 


1. 먼저 NCBI에서 genbank파일을 얻는다. 이 링크 페이지를 예로들어보자. 링크를 눌러 NCBI에 들어가면 Clostridium thermocellum 의 full-genome 정보가 Genbank 형식으로 보여진다. 먼저 이 정보를 다운받기 위해 오른쪽 위에 Send를 누르고, Complete Record, File 을 선택한 후에 Format 부분에서 Genbank(full)을 선택해 준다. 만약 Full버전이 아닌 그냥 Genbank를 선택하면 DNA서열 정보가 함께 다운로드 되지 않는다. 그리고 Create File버튼을 누르면 파일이 다운로드 된다. 용량이 대략 2.5 Mb정도 되며, 파일이름은 자동으로 sequence.gb.txt가 된다. 


2. 깃허브에서 파이선 코드를 다운받는다.

git clone https://github.com/metajinomics/ncbi_tools.git


3. 파이선 코드를 이용해 단백질 시퀀스를 얻는다.

python genbank_to_faa.py sequence.gb.txt > Clostridium_thermocellum.faa


4. 파이선 코드를 이용해 DNA 시퀀스를 얻는다.

python genbank_to_fna.py sequence.gb.txt > Clostridium_thermocellum.fna



코드는 간단한 편이며 바이오 파이썬을 이용해 쓰여졌다. 



도움이 되셨다면

공감 눌러주세요 ^.^ 


신고
댓글
댓글쓰기 폼
공지사항
Total
8,556
Today
1
Yesterday
74
링크
«   2017/10   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31        
글 보관함