티스토리 뷰

바이오 인포매틱스

NCBI를 믿어도 되는가?

메타지노믹스 메타지노믹스 2016. 11. 5. 06:11



바이오인포매틱스를 업으로 한다면 모를 수 없는 웹사이트가 NCBI(www.ncbi.nlm.nih.gov) 이다. 미국 NIH에서 운영중인 이 웹사이트는 유럽의 EMBL-EBI (http://www.ebi.ac.uk)와 더불어 가장 큰 DNA시퀀스 데이터베이스라고 할 수 있다. 그런데 살펴보다 보면 이 웹사이트의 정보가 '참 믿을 수 없다'는 생각이 들 때가 있다. 본인이 겪은 예를 들면, 보통 박테리아에 16s gene DNA 가 2개 이상 있는 경우가 흔하다. 그런데 이들의 시퀀스는 매우 비슷하다. 따라서 여러개 중 어느것을 이용해도 보통 무방하다. 어느날, 어느 박테리아에서 16s 시퀀스를 두개 얻었는데 이것이 완전히 다른 경우가 있었다. 이런경우 어느것을 사용해야 할지 매우 막막하게 된다. 그리고 '어떻게 한 박테리아에 완전히 다른 16s 시퀀스 두개가 존재할 수 있는가'를 두고 고민하게 되었다. 좀 더 자세히 두개의 시퀀스를 확인해 본 결과 genebank상에서 complementary 표시가 잘못 되어 있는 것을 발견하였다. 다시말해, complementary가 아닌 것을 그렇게 표시하여 reverse 방향으로 된 것으로 혼동한 것이다. 시퀀스를 reverse-complementary로 바꾸어 보니 100% 일치하였다. 


이런 일이 왜 발생하는가? 가장 큰 이유는 '다 사람이 하는일' 이기 때문이다. NCBI에 시퀀스를 등록해본 사람이라면 느낄 수 있지만 '누구나' 시퀀스를 올릴 수 있다. 물론 등록이 완료되기 위해서는 큐레이터가 확인하는 작업을 거치기는 하지만 업로드 하는 사람이 잘못된 시퀀스를 잘못된 박테리아의 이름으로 올린다면 큐레이터 입장에서는 확인할 길이 없다. 이렇게 어떤 시퀀스 하나가 박테리아 무엇무엇 이라는 잘못된 이름으로 올라간다면 이후에 사람들은 이 잘못된 정보를 바탕으로 연구를 하게 될 것이다. 얼마나 끔찍한 일인가! 


NCBI에서도 이런 문제를 인식하고 해결에 노력을 하고 있는 것으로 생각된다.  업로드를 할 때 큐레이터를 거치는 것도 이런 노력의 일환이라고 생각된다. 또 RefSeq과 같이 한단계 더 선별된 시퀀스만 다시 모아서 보여주는 데이터베이스의 제공 또한 이런 노력이라고 할 수 있다. 


연구자 입장에서는 NCBI에 시퀀스를 업로드 할 때 더욱 신중 하도록 하자! species 레벨에서 확신이 없다면 Genuse 레벨까지만 명명하고 큐레이터에서 그렇게 말해주자. 그리고 잘 모르면 물어보자!! NCBI의 큐레이터들이 이메일에 대답도 잘 해주고 꽤 일을 잘한다. 자신의 무지로 인해 모든 사람들이 사용하는 데이터베이스에 잘못된 정보를 올리지 않도록 하자. 


마지막으로 바이오인포매틱스를 업으로 하는 입장에서 이 문제를 어떻게 바라봐야 하는가? 내 연구가 엉망진창 데이터베이트를 기반으로 되었다고 생각하면 정말 잠이오지 않는다. 흔히 Trash in, trash out 이라고 하지 않던가. 어쩌면 현재 상황을 알고 문제점과 한계를 인식하고 또 인정하고 연구를 수행하는 방법 밖에는 없어 보인다. 따라서 수집한 데이터에서 혹시 잘못된 정보가 있는지 확인하고 걸러내고 하는 작업을 게을리 하지 않아야 한다. 검색해서 나왔다고 다 맞는게 아니다! 

댓글
댓글쓰기 폼
공지사항
Total
139,586
Today
0
Yesterday
98
링크
«   2021/12   »
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31  
글 보관함