NCBI에 시퀀스를 어디에 등록해야 하는지 포스팅 했었다. 이번에는 그중 SRA에 등록하는 방법을 자세히 소개하고자 한다. 1. 먼저 NCBI 웹사이트에 방문해 로그인을 한다. ID가 없을 경우에는 회원가입을 한다.https://submit.ncbi.nlm.nih.gov 2. 로그인을 하고 아래 주소로 들어가보면 시퀀스를 submit할 수 있는 페이지가 나온다. 여기서 Sequence Read Archive (SRA)를 선택한다. 아래에는 내가 예전에 submit했던 프로젝트 들이 나온다. https://submit.ncbi.nlm.nih.gov/subs/ 3. 이제 New submission 버튼을 눌러 시작한다. 이 버튼을 누를때마다 Submission ID가 자동으로 생성되는데, 여러번 연습으로 만..
NGS를 처음 접하면 생소한 단어들이 많이 등장한다. 플랫폼이 무엇인가? Flatform 이란 어떤 기계를 사용했는가와 같은 것이다. 일루미나에서는 HiSeq, MiSeq 등의 플랫폼이 있다.Flow Cell은 무엇인가? 샘플을 넣고 기계에 들어가는 일종의 카트리지이다. HiSeq과 MiSeq에 사용되는 Flow cell은 각각 아래처럼 생겼다.HiSeq 용 Flow cell MiSeq 용 Flow cell Hiseq에는 이런 Flow cell이 2개까지 들어갈 수 있다. 아래 그림처럼 놓는 곳이 2군데이다. Miseq은 1개만 들어간다. Lane은 무엇인가? NGS에서는 보통 여러개의 샘플을 섞어서 Load하는데, 한개의 Lane에 한개의 Load가 들어간다. 위에 Hiseq Flow cell 그림은 ..
RefSoil ( Soil reference database)를 다운로드 받으려면 아래 웹사이트를 방문하면 된다. https://figshare.com/articles/RefSoil_Database/4362812 만약 서버이용 등의 이유로 커맨드라인을 이용해야 한다면 아래와 같이 각 파일을 다운로드 할 수 있다. bacteria.protein.fa.gzwget -O bacteria.protein.fa.gz https://ndownloader.figshare.com/files/7088924 bacteria.nu.fa.gzwget -O bacteria.nu.fa.gz https://ndownloader.figshare.com/files/7088969 archaea.protein.fa.gzwget -O arc..
NGS 시퀀싱 관련한 데이터베이스가 어떤 것들이 있을까? 사실 너무 많은 데이터베이스들이 존재해서 어디서부터 봐야할지 막막하기도 하다. 아래 대표적으로 반드시 알아야할!! 데이터베이스를 소개한다. 1. NCBI (https://www.ncbi.nlm.nih.gov/)생물학을 하는 사람이라면 모를 수 없는 웹사이트다. 바이오인포매틱스(Bioinformatics)나 computational biology를 하지 않아도 이 웹사이트에서 제공하는 Blast는 써봤을 법하다. 이 웹사이트는 미국 NIH에서 운영하는 것으로 '모든 DNA 시퀀스는 모두에게 공개되어야 한다'는 모토로 지금까지 알려진 모든 DNA시퀀스 정보를 제공하는데 목적이 있다. 2. EMBL-EBI (http://www.ebi.ac.uk/)위에서..
Next-generation sequencing (NGS), Massive parallel seqeuncing, High-throughput sequencing 이라고 부르는 차세대 염기서열 분석법은 짧은 역사에 비해 생물학 발달에 지대한 공헌을 한 분석방법이다. 부르는 이름이 다양한 것은 그만큼 나온지 오래되지 않는 기술이고 사람마다 제각기 부르는 이름이 다랐기 때문이다. 최근에는 Next-generation sequencing (NGS)으로 수렴되는 분위기다. 이름이 다르지만 결국 '빠르게' '대량으로' '한꺼번에 많이' 시퀀싱을 하는 기술을 뜻한다. 생어 염기서열 분석1977년 개발되어 DNA 시퀀싱에 가장 고전적인 방법이며 오랜 기간동안 사용된 방법이다. NGS에는 속하지 않으며, 생어 시퀀싱이 ..
메타지놈 시퀀스를 받고 본격적으로 분석을 하기 위해서는 세가지 정보가 필요하다. 1) 메타데이터, 2) 카운트 테이블, 3) 어노테이션. 이중에서 어노테이션을 설명하려고 한다. 어노테이션은 쉽게말해 시퀀스가 어떤 기능을 가지고 있는지, 어드 유기체에서 왔는지 찾는 것을 말한다. 일루미나로 시퀀싱을 하면 250~300 베이스 페어 길이의 시퀀스를 얻게 된다. 이 시퀀스가 어느 유전자의 한 부분일수도 있고 유전자 사이에 단백질을 만들지 않는 부분일수도 있다. 간혹 드물게 두개 이상의 유전자 부분이 한 시퀀스에 있을 수도 있다. 이렇게 복잡한 경우의 수를 모두 생각해서 어디가 유전자 부분이고, 알려진 단백질 중에 어떤것과 비슷하고 하는 것들을 일일이 연구자가 정하기도 어렵고 또 이런 작업은 대부분 랩탑 수준의..