비트코인(Bitcoin)은 어떻게 사야하는가? 만약 미국에 거주하고 있다면 초보자에게 가장 간단하고 쉬운 방법은 Coinbase를 이용하는 것이다. 작은 금액으로 사고 팔때 특히 유용하다. 그리고 미국에 은행 계좌가 있다면 계좌를 바로 연결하여 클릭 한번으로 비트코인을 사고 팔 수 있다. 웹사이트에 들어가 회원가입을 한다. 이메일과 전화번호로 이중 확인을 거쳐 회원가입 및 로그인을 한다. 로그인 후에 왼쪽 But/Sell 메뉴에 들어가면 아래와 같은 화면이 나온다. 아래 Amount 부분에 미국달러로 얼마치를 살건지 입력하면 오른쪽에 비트코인으로 얼마나 되는지 자동으로 계산되어 나온다. 그리고 "Buy Bitcoin"버튼을 누르면 완료!! 다만 실제 비트코인이 내 어카운트에 들어오기까지 일주일~열흘 정도..
리눅스/유닉스 시스템에서 많이 사용하는 압축 포멧은 gz 와 tar이 있다. gz는 한개의 파일을 압축할 때, tar은 여러개의 파일을 압축해 하나로 만들때 주로 사용한다. 한개 파일 (gz) 압축 풀기만약 sample01.fastq.gz 라는 파일의 압축을 풀고 싶으면 아래와 같이 실행한다. gunzip sample01.fastq.gz 이렇게 하면 sample01.fastq 라는 파일이 만들어 진다. gunzip은 와일드카드를 인식한다. 만약 여러개 파일을 한꺼번에 각각 압축하고 싶다면 아래와 같이 사용할 수 있다gunzip sample*.fastq.gz 한개 파일(gz) 압축하기 만약 sample01.fastq 라는 파일을 압축하고 싶으면 아래와 같이 실행한다. gzip sample01.fastq 그..
파이썬(python)을 이용해 파일을 복사하거나 옮기려면 파이썬에서 시스템 커맨드라인을 실행하게 하면 된다. 먼저, import os 를 불러주고, import osos.system("cp old_file.txt new_file.txt") 이런 식으로 커맨드를 따옴표안에 넣어 실행한다. 커맨드를 변수형태로 부를수도 있다. 예를들어 list.txt 안에 sample01sample02sample03 위와같이 있다고 하자, 그리고 폴더안에 sample01.R1.fastq.gzsample01.R2.fastq.gzsample02.R1.fastq.gzsample02.R2.fastq.gzsample03.R1.fastq.gzsample03.R2.fastq.gz 위와 같은 파일이 있다고 하자. 이 파일들을 new 라는 ..
Mothur SOP 를 따라하려면 Stability파일을 만들어야 하는데, 이게 생각보다 쉽지 않다. 아래는 이 파일을 쉽게 만들 수 있는 방법을 소개한다. 시퀀싱 파일이 각 샘플별로 이미 demultiplex 되어 있고, 파일 이름이 samplename_R1_001.fastq, samplename_R2_001.fastq 와 같은 식으로 되어 있다고 하자. 시퀀스 파일이 있는 폴더 안에서 아래와 같은 방법으로 stability파일을 만든다. ls *R1_001.fastq | cut -f1 -d "_" > groupnames.txt ls *R1_001.fastq > forward.txt ls *R2_001.fastq > reverse.txt paste groupnames.txt forward.txt > t..
바이오인포매틱스 일을 하면서 가장 귀찮은(?), 하지만 중요한 일중에 하나는 바로 NCBI 에 시퀀스를 등록하는 것이다. 그 이유는 생각보다 시간도 많이 들고 등록하다보면 '여기서는 뭐라고 써야하지?'하는 것들이 많기 때문이다. 하지만 시퀀스 등록은 필수이다!! 모든 분석이 시퀀스에서 시작하는데 시퀀스가 등록되어 있지 않다면 아무도 내 연구를 재현할 수 없을 것이다. 어디에 올려야 하는가?제일 첫번째 과정은 NCBI 웹사이트에 방문해 아이디를 만들고 Submission 페이지로 들어가는 것이다. https://submit.ncbi.nlm.nih.gov/subs/ 그런데, NCBI에 시퀀스를 올리기 위해 웹사이트에 들어가보면 종류가 너무 많아 도무지 어디에 올려야 하는지 알기 어렵다 (왼쪽 위 "Start..
리눅스 커맨드라인 (Command-line)에서 for문을 사용해서 반복 실행이 가능하다!!! 이걸 처음 알았을 때 내게 정말 대박! 이었다. 만약 커맨드라인 (Command-line), 터미널(Terminal), 배쉬(Bash)가 무엇인지 궁금하다면 여기를 클릭! 커맨드 라인을 사용해 프로그램을 돌려본 사람이라면 프로그램을 여러번 반복해서 돌려야 하는 일이 힘들다는 것을 알것이다. 바이오인포매틱스를 하면서 이런 어려움이 피부로 느껴진다. 예를들어 샘플이 60개 라고 하면 파일이 60개가 나오는데, 분석을 하려면 프로그램을 적게는 몇개에서 많게는 열개 넘게 돌려야 한다. 만약 10개의 프로그램을 돌려야 분석이 마쳐진다고 하면 60 X 10 총 600번의 커맨드 입력을 해야한다!!! 이 과정을 자동화 혹은..
한 분야의 대가가 누구인지는 말하기 아주 어렵다. 모든 연구자들이 모두 자신의 영역에서 최선을 다해 연구를 수행하므로 어떤 연구가 '좋은'연구인지 누가 '대가'인지 말하는 것은 사실 말이 되지 않는 일이다. 하지만 한분야에서 연구를 하다보면 그 분야를 이끄는 연구자들이 있는것을 발견하게 된다. 아래 리스트는 본인의 주관적인 판단에 따른 것으로 절대적인 것이 아님을 미리 알려두는 바이다. 1. James M. Tiedje미시간 주립대 교수 http://www.cme.msu.edu/tiedjelab/jtiedje.shtml 2. Titus BrownKhmer 개발자 http://ivory.idyll.org/lab/ 3. Rob KnightGut microbiomhttp://www.ted.com/talks/r..
지난번 포스트를 통해 자신의 컴퓨터에 터미널을 설치하고 실행하는 방법을 배웠다. 이번에는 터미널에서 사용되는 기본적인 명력어를 익혀 보기로 한다. 터미널에서 사용되는 명령어는 유닉스계열의 명령어를 사용한다. 리눅스와 같다. 맥과 리눅스 운영체제는 유닉스기반에서 만들어졌기 때문에 같은 명령어를 사용한다. 윈도우는 도스기반으로 만들어져서 다르다. 이번에 배울 명령어는 유닉스 계열의 명령어이다. 디렉토리(폴더) 안에 어떤 파일이 있는지 보고 싶을 때현재 내가 있는 폴더안에 어떤 파일이 있는지 보고 싶을 때 아래와 같이 입력하고 엔터를 누른다. List의 약자이다. ls 다른 폴더로 가고 싶을 때컴퓨터 파일 시스템은 트리 구조를 가지고 있다. 트리구조란 폴더안에 폴더.. 이런식으로 생각하면 된다. 현재 있는 폴..
Next-generation sequencing (NGS), Massive parallel seqeuncing, High-throughput sequencing 이라고 부르는 차세대 염기서열 분석법은 짧은 역사에 비해 생물학 발달에 지대한 공헌을 한 분석방법이다. 부르는 이름이 다양한 것은 그만큼 나온지 오래되지 않는 기술이고 사람마다 제각기 부르는 이름이 다랐기 때문이다. 최근에는 Next-generation sequencing (NGS)으로 수렴되는 분위기다. 이름이 다르지만 결국 '빠르게' '대량으로' '한꺼번에 많이' 시퀀싱을 하는 기술을 뜻한다. 생어 염기서열 분석1977년 개발되어 DNA 시퀀싱에 가장 고전적인 방법이며 오랜 기간동안 사용된 방법이다. NGS에는 속하지 않으며, 생어 시퀀싱이 ..
윈도우 환경에 익숙한 대부분의 사용자에게 커맨드라인(Command Line)은 바이오인포매틱스(Bioinformatics)로 들어가는데 가장 큰 허들일 것이다. 심지어 검색으로 나오는 대부분의 결과들이 이미 커맨드라인을 안다고 가정하고 있어서 "도대체 이걸 어떻게 실행하라는 거야!" 라는 생각이 들기도 한다. 본 블로그에서 소개하는 바이오인포매틱스, 파이썬 관련 포스트 들이 또한 커맨드라인을 사용하고 있다. 이 부분을 잘 모르는 사람들을 위해 '컴퓨터를 프로처럼 사용'하는 커맨드라인을 소개한다. 실제로 많은 프로그래머, 컴퓨터 전공자들이 아래와 같은 커맨드라인을 사용한다. 처음에는 조금 어려워 보일 수 있지만 조금만 시간을 들여 익숙해 진다면 컴퓨터 전공자처럼 컴퓨터를 사용할 수 있다!! 터미널 열기제일..