티스토리 뷰

바이오 인포매틱스

단백질 ID로 DNA 시퀀스 찾기

메타지노믹스 메타지노믹스 2016. 12. 9. 00:49

어떤 종류의 단백질의 DNA 시퀀스를 얻고 싶다고 하자. 예를들어 EC.3.2.1.21 인 단백질의 DNA 시퀀스를 얻고 싶다. EC.3.2.1.21 의 기능을 가지는 단백질이 아주 많을 것이다. 몇개는 검색으로 찾을 수 있지만 모두 얻고 싶다면? 단백질의 아미노산 시퀀스를 얻는 것은 쉬운데, DNA시퀀스를 얻으려면? 이러할때 아래 방법을 사용해 보자. 


1 단계: 검색을 통해 EC.3.2.1.21 에 해당하는 단백질 시퀀스를 얻는다.

NCBI 나 여러곳을 이용해 검색을 통해 얻을 수 있는 정보를 많이 얻는다. 이렇게 검색을 통해 찾으면 많은 경우에 아미노산 시퀀스를 얻을 수 있다. (바로 DNA 시퀀스를 얻을 수 있으면 물론 좋다). 


2 단계: 위의 단계에서 아쉽게도 아미노산 시퀀스만 얻었다고 하자. 먼저, 내가 가진 시퀀스가 EC.3.2.1.21의 전부는 아닐테니 BLASTP를 통해 비슷한 녀석들을 모두 가져온다. 데이터 베이스는 RefSeq을 사용한다. 이유는 RefSeq의 경우 단백질 ID와 DNA시퀀스를 연결하는게 가능하기 때문이다. nr/nt를 사용할 경우 원하는 정보가 없을 수도 있다. 


3 단계: RefSeq 데이터베이스를 이용해 protein ID에 해당하는 DNA sequence를 가져온다. 


4 단계: 이렇게 가져온 DNA 시퀀스는 겹치는 경우가 많다. cd-hit을 이용해 cluster해준다.


이렇게 하면 원하는 단백질의 DNA시퀀스를 얻을 수 있다. 


도움이 되셨다면

공감 눌러주세요 ^.^ 

댓글
댓글쓰기 폼
공지사항
Total
126,011
Today
95
Yesterday
114
링크
«   2021/06   »
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30      
글 보관함