Genbank 파일에서 단백질과 DNA 시퀀스 추출하기

티스토리 뷰

바이오 인포매틱스 /파이썬 (Python)

Genbank 파일에서 단백질과 DNA 시퀀스 추출하기

메타지노믹스 2016. 11. 28. 06:53

NCBI의 많은 정보가 Genbank 형식으로 저장되어 있다. 하지만 여기에서 내가 원하는 유전자의 단백질이나 DNA의 서열을 얻는 것은 초보자에게 어려울 수 있다. 아래의 파이선 코드를 이용하여 genbank파일에서 단백질과 DNA서열을 얻는 방법을 소개한다.

1. 먼저 NCBI에서 genbank파일을 얻는다. 이 링크 페이지를 예로들어보자. 링크를 눌러 NCBI에 들어가면 Clostridium thermocellum 의 full-genome 정보가 Genbank 형식으로 보여진다. 먼저 이 정보를 다운받기 위해 오른쪽 위에 Send를 누르고, Complete Record, File 을 선택한 후에 Format 부분에서 Genbank(full)을 선택해 준다. 만약 Full버전이 아닌 그냥 Genbank를 선택하면 DNA서열 정보가 함께 다운로드 되지 않는다. 그리고 Create File버튼을 누르면 파일이 다운로드 된다. 용량이 대략 2.5 Mb정도 되며, 파일이름은 자동으로 sequence.gb.txt가 된다.

2. 깃허브에서 파이선 코드를 다운받는다.

git clone https://github.com/metajinomics/ncbi_tools.git

3. 파이선 코드를 이용해 단백질 시퀀스를 얻는다.

python genbank_to_faa.py sequence.gb.txt > Clostridium_thermocellum.faa

4. 파이선 코드를 이용해 DNA 시퀀스를 얻는다.

python genbank_to_fna.py sequence.gb.txt > Clostridium_thermocellum.fna

코드는 간단한 편이며 바이오 파이썬을 이용해 쓰여졌다.

도움이 되셨다면

공감 눌러주세요 ^.^

'바이오 인포매틱스 > 파이썬 (Python)' 카테고리의 다른 글

파이선 기본 함수를 사용해 파일 열고 읽기 (0)	2017.07.25
[파이썬] 와일드 카드를 이용한 파일 읽기 (0)	2017.01.20
[파이썬] python에서 gz파일 열기 (2)	2017.01.20
파이썬(python) 에서 파일 복사하기, 옮기기 (0)	2017.01.10
[파이썬] 텍스트 중에 특정 문자가 포함되어 있는지 찾기 (1)	2016.12.07

공유하기 링크

페이스북
카카오스토리
트위터

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2024/04 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

글 보관함

티스토리 뷰

Genbank 파일에서 단백질과 DNA 시퀀스 추출하기

'바이오 인포매틱스 > 파이썬 (Python)' 카테고리의 다른 글

티스토리툴바