R 을 이용해 앰플리콘 데이터를 분석하는 것은 여러모로 장점이 많다. 그중 가장 큰 장점은 '자동화'일 것이다. 한번 R 스크립트를 만들어 놓으면 이후에 그대로 혹은 최소한의 편집으로 다시 사용할 수 있기 때문이다. 또한 copy-paste 의 무한반복을 하지 않아도 된다!!! R에서 앰플리콘 시퀀스 데이터 분석을 도와주는 라이브러리 중 많이 사용하는 것이 phyloseq과 vegan 이다. 오늘은 그 중 phyloseq에 대해 알아보려고 한다. phyloseq은 R에서 앰플리콘 데이터를 읽어 다양한 형태의 결과물 (그래프)을 간편히 만들어 내는데 큰 도움이 된다. Phyloseq의 개발자가 좋은 튜토리얼을 많이 만들어 놓아 따라하기도 비교적 쉽다. 본인의 경험으로 phyloseq을 사용하는데 가장 어려..
리눅스 커맨드라인에서 FTP에 접속해 파일을 다운로드 받으려면 ncftp라는 프로그램을 이용하면 된다. 사용은 'ncftp 주소' 와 같은 형식으로 하면 된다. 예를들어 NCBI에 접속하려면 아래와 같이 한다. ncftp ftp.ncbi.nlm.nih.gov 그러면 NCBI FTP서버에 접속하게 되고 ls, cd 와 같은 명령어를 이용해 폴더를 이동하면 된다. 만약 FTP서버에 username이 필요하다면 -u 를 사용한다. ncftp -u your.username ftp.address 원하는 파일을 다운로드 받으려면 아래와 같이 한다. get filename 자동화를 위해서는 다운로드를 커맨드라인에서 하는 것이 좋다. 이럴때는 ncftpget을 이용한다. ncftp -R -u [username] -p ..
리눅스/유닉스 시스템에서 많이 사용하는 압축 포멧은 gz 와 tar이 있다. gz는 한개의 파일을 압축할 때, tar은 여러개의 파일을 압축해 하나로 만들때 주로 사용한다. 한개 파일 (gz) 압축 풀기만약 sample01.fastq.gz 라는 파일의 압축을 풀고 싶으면 아래와 같이 실행한다. gunzip sample01.fastq.gz 이렇게 하면 sample01.fastq 라는 파일이 만들어 진다. gunzip은 와일드카드를 인식한다. 만약 여러개 파일을 한꺼번에 각각 압축하고 싶다면 아래와 같이 사용할 수 있다gunzip sample*.fastq.gz 한개 파일(gz) 압축하기 만약 sample01.fastq 라는 파일을 압축하고 싶으면 아래와 같이 실행한다. gzip sample01.fastq 그..
파이썬(python)을 이용해 파일을 복사하거나 옮기려면 파이썬에서 시스템 커맨드라인을 실행하게 하면 된다. 먼저, import os 를 불러주고, import osos.system("cp old_file.txt new_file.txt") 이런 식으로 커맨드를 따옴표안에 넣어 실행한다. 커맨드를 변수형태로 부를수도 있다. 예를들어 list.txt 안에 sample01sample02sample03 위와같이 있다고 하자, 그리고 폴더안에 sample01.R1.fastq.gzsample01.R2.fastq.gzsample02.R1.fastq.gzsample02.R2.fastq.gzsample03.R1.fastq.gzsample03.R2.fastq.gz 위와 같은 파일이 있다고 하자. 이 파일들을 new 라는 ..
바이오인포매틱스 일을 하면서 가장 귀찮은(?), 하지만 중요한 일중에 하나는 바로 NCBI 에 시퀀스를 등록하는 것이다. 그 이유는 생각보다 시간도 많이 들고 등록하다보면 '여기서는 뭐라고 써야하지?'하는 것들이 많기 때문이다. 하지만 시퀀스 등록은 필수이다!! 모든 분석이 시퀀스에서 시작하는데 시퀀스가 등록되어 있지 않다면 아무도 내 연구를 재현할 수 없을 것이다. 어디에 올려야 하는가?제일 첫번째 과정은 NCBI 웹사이트에 방문해 아이디를 만들고 Submission 페이지로 들어가는 것이다. https://submit.ncbi.nlm.nih.gov/subs/ 그런데, NCBI에 시퀀스를 올리기 위해 웹사이트에 들어가보면 종류가 너무 많아 도무지 어디에 올려야 하는지 알기 어렵다 (왼쪽 위 "Start..
리눅스 커맨드라인 (Command-line)에서 for문을 사용해서 반복 실행이 가능하다!!! 이걸 처음 알았을 때 내게 정말 대박! 이었다. 만약 커맨드라인 (Command-line), 터미널(Terminal), 배쉬(Bash)가 무엇인지 궁금하다면 여기를 클릭! 커맨드 라인을 사용해 프로그램을 돌려본 사람이라면 프로그램을 여러번 반복해서 돌려야 하는 일이 힘들다는 것을 알것이다. 바이오인포매틱스를 하면서 이런 어려움이 피부로 느껴진다. 예를들어 샘플이 60개 라고 하면 파일이 60개가 나오는데, 분석을 하려면 프로그램을 적게는 몇개에서 많게는 열개 넘게 돌려야 한다. 만약 10개의 프로그램을 돌려야 분석이 마쳐진다고 하면 60 X 10 총 600번의 커맨드 입력을 해야한다!!! 이 과정을 자동화 혹은..
한 분야의 대가가 누구인지는 말하기 아주 어렵다. 모든 연구자들이 모두 자신의 영역에서 최선을 다해 연구를 수행하므로 어떤 연구가 '좋은'연구인지 누가 '대가'인지 말하는 것은 사실 말이 되지 않는 일이다. 하지만 한분야에서 연구를 하다보면 그 분야를 이끄는 연구자들이 있는것을 발견하게 된다. 아래 리스트는 본인의 주관적인 판단에 따른 것으로 절대적인 것이 아님을 미리 알려두는 바이다. 1. James M. Tiedje미시간 주립대 교수 http://www.cme.msu.edu/tiedjelab/jtiedje.shtml 2. Titus BrownKhmer 개발자 http://ivory.idyll.org/lab/ 3. Rob KnightGut microbiomhttp://www.ted.com/talks/r..
지난번 포스트를 통해 자신의 컴퓨터에 터미널을 설치하고 실행하는 방법을 배웠다. 이번에는 터미널에서 사용되는 기본적인 명력어를 익혀 보기로 한다. 터미널에서 사용되는 명령어는 유닉스계열의 명령어를 사용한다. 리눅스와 같다. 맥과 리눅스 운영체제는 유닉스기반에서 만들어졌기 때문에 같은 명령어를 사용한다. 윈도우는 도스기반으로 만들어져서 다르다. 이번에 배울 명령어는 유닉스 계열의 명령어이다. 디렉토리(폴더) 안에 어떤 파일이 있는지 보고 싶을 때현재 내가 있는 폴더안에 어떤 파일이 있는지 보고 싶을 때 아래와 같이 입력하고 엔터를 누른다. List의 약자이다. ls 다른 폴더로 가고 싶을 때컴퓨터 파일 시스템은 트리 구조를 가지고 있다. 트리구조란 폴더안에 폴더.. 이런식으로 생각하면 된다. 현재 있는 폴..
윈도우 환경에 익숙한 대부분의 사용자에게 커맨드라인(Command Line)은 바이오인포매틱스(Bioinformatics)로 들어가는데 가장 큰 허들일 것이다. 심지어 검색으로 나오는 대부분의 결과들이 이미 커맨드라인을 안다고 가정하고 있어서 "도대체 이걸 어떻게 실행하라는 거야!" 라는 생각이 들기도 한다. 본 블로그에서 소개하는 바이오인포매틱스, 파이썬 관련 포스트 들이 또한 커맨드라인을 사용하고 있다. 이 부분을 잘 모르는 사람들을 위해 '컴퓨터를 프로처럼 사용'하는 커맨드라인을 소개한다. 실제로 많은 프로그래머, 컴퓨터 전공자들이 아래와 같은 커맨드라인을 사용한다. 처음에는 조금 어려워 보일 수 있지만 조금만 시간을 들여 익숙해 진다면 컴퓨터 전공자처럼 컴퓨터를 사용할 수 있다!! 터미널 열기제일..
어떤 종류의 단백질의 DNA 시퀀스를 얻고 싶다고 하자. 예를들어 EC.3.2.1.21 인 단백질의 DNA 시퀀스를 얻고 싶다. EC.3.2.1.21 의 기능을 가지는 단백질이 아주 많을 것이다. 몇개는 검색으로 찾을 수 있지만 모두 얻고 싶다면? 단백질의 아미노산 시퀀스를 얻는 것은 쉬운데, DNA시퀀스를 얻으려면? 이러할때 아래 방법을 사용해 보자. 1 단계: 검색을 통해 EC.3.2.1.21 에 해당하는 단백질 시퀀스를 얻는다.NCBI 나 여러곳을 이용해 검색을 통해 얻을 수 있는 정보를 많이 얻는다. 이렇게 검색을 통해 찾으면 많은 경우에 아미노산 시퀀스를 얻을 수 있다. (바로 DNA 시퀀스를 얻을 수 있으면 물론 좋다). 2 단계: 위의 단계에서 아쉽게도 아미노산 시퀀스만 얻었다고 하자. 먼저..