바이오인포매틱스 연구를 하다보면 많은 경우 파일이 gz파일로 압축되어 있다. gzip은 단일 파일을 압축하는 좋은 방법이지만 열어보려면 압축을 풀어야 하는 번거로움이 있다. 그런데 파이썬에서 gz 파일의 압축을 풀지 않고 바로 읽을 수 있는 방법이 있다! gzip이라는 라이브러리를 이용하면 된다. import gzipgb_file = gzip.open(sys.argv[1],'rb') 이렇게 하면 첫번째 argument 로 받은 파일을 압축 해제 없이 바로 열어볼 수 있다. 예외처리: 만약 읽은 파일이 압축 파일이 아니라면? 압축된 파일과 그렇지 않은 파일을 모두 핸들하기 위해 아래와 같이 사용할 수 있다. if sys.argv[1][-2:] == 'gz':gb_file = gzip.open(sys.arg..
R 을 이용해 앰플리콘 데이터를 분석하는 것은 여러모로 장점이 많다. 그중 가장 큰 장점은 '자동화'일 것이다. 한번 R 스크립트를 만들어 놓으면 이후에 그대로 혹은 최소한의 편집으로 다시 사용할 수 있기 때문이다. 또한 copy-paste 의 무한반복을 하지 않아도 된다!!! R에서 앰플리콘 시퀀스 데이터 분석을 도와주는 라이브러리 중 많이 사용하는 것이 phyloseq과 vegan 이다. 오늘은 그 중 phyloseq에 대해 알아보려고 한다. phyloseq은 R에서 앰플리콘 데이터를 읽어 다양한 형태의 결과물 (그래프)을 간편히 만들어 내는데 큰 도움이 된다. Phyloseq의 개발자가 좋은 튜토리얼을 많이 만들어 놓아 따라하기도 비교적 쉽다. 본인의 경험으로 phyloseq을 사용하는데 가장 어려..
Mothur 사용하기. 16s 앰플리콘 데이터를 분석하는 방법중 많이 사용하는 프로그램 중 하나인 Mothur를 사용려면 어떻게 해야 할까. Mothur 설치 Mothur의 가장 큰 장점이라면 '쉬운 설치'이다. 아래 웹사이트에 들어가서 자신의 컴퓨터의 운영체제에 맞는 파일을 다운로드 받아서 압축을 푼다. 설치가 끝났다!!!https://github.com/mothur/mothur/releases윈도우를 사용하는 경우라면 : Mothur.win_64.zip맥을 사용하는 경우라며: Mothur.linux_64.zip리눅스를 사용하는 경우라면: Mothur.linux_64.zip을 다운로드 하면 된다. 데이터베이스 다운로드Mothur에서는 두개의 reference database를 사용한다. 아래 링크에서 ..
회사에 공용으로 사용하는 주방이 있다. 전자렌지, 싱크대, 밥을 먹을 수 있는 탁자, 의자가 있는 공간이다. 그런데 오늘아침 싱크대 앞에 이런 글이 붙어 있었다. "Please, Do your own dishes" 사진을 보면 설거지가 쌓여 있는 것을 볼 수 있다. 누군가 설거지 하라고 붙여 놓은 모양이다. '설거지 해라'를 영어로 하려면? wash dish 라는 단어가 먼저 떠오른다. 맞는 표현이다. 실제로도 많이 사용한다. 여기에 한가지 표현을 추가해 보자! Do your dishes!
새해가 시작되면 새해 목표를 정한다. 새해 목표를 영어로 무엇이라고 할까? Goal? Target? 이라는 단어가 쉽게 생각하지만 '새해 목표'와 같은 뜻으로 쓸때는 Resolution 이라는 단어를 쓴다. 예를들어,, New Year's Resolution 과 같이 쓴다. Resolution 은 원래 '결의안' 이라는 뜻이 있는데, 한글로 '새해 목표'라고 쓸때는 어떤 뜻을 이루기 위해 도달하고 싶은 지점의 의미가 강하지만 영어로 Resolution 이라고 쓸 때는 '자신과의 약속'의 의미가 강하다고 할 수 있다. 개인적으로 나의 2017년 New Year's Resolution은 1년동안 조깅을 100번 하는 것이다. 일년이 지난 후에 지금 쓰고 있는 이 글을 보면서 스스로 부끄럽지 않기 위해 나와의..
리눅스 커맨드라인에서 FTP에 접속해 파일을 다운로드 받으려면 ncftp라는 프로그램을 이용하면 된다. 사용은 'ncftp 주소' 와 같은 형식으로 하면 된다. 예를들어 NCBI에 접속하려면 아래와 같이 한다. ncftp ftp.ncbi.nlm.nih.gov 그러면 NCBI FTP서버에 접속하게 되고 ls, cd 와 같은 명령어를 이용해 폴더를 이동하면 된다. 만약 FTP서버에 username이 필요하다면 -u 를 사용한다. ncftp -u your.username ftp.address 원하는 파일을 다운로드 받으려면 아래와 같이 한다. get filename 자동화를 위해서는 다운로드를 커맨드라인에서 하는 것이 좋다. 이럴때는 ncftpget을 이용한다. ncftp -R -u [username] -p ..
NGS 시퀀싱 관련한 데이터베이스가 어떤 것들이 있을까? 사실 너무 많은 데이터베이스들이 존재해서 어디서부터 봐야할지 막막하기도 하다. 아래 대표적으로 반드시 알아야할!! 데이터베이스를 소개한다. 1. NCBI (https://www.ncbi.nlm.nih.gov/)생물학을 하는 사람이라면 모를 수 없는 웹사이트다. 바이오인포매틱스(Bioinformatics)나 computational biology를 하지 않아도 이 웹사이트에서 제공하는 Blast는 써봤을 법하다. 이 웹사이트는 미국 NIH에서 운영하는 것으로 '모든 DNA 시퀀스는 모두에게 공개되어야 한다'는 모토로 지금까지 알려진 모든 DNA시퀀스 정보를 제공하는데 목적이 있다. 2. EMBL-EBI (http://www.ebi.ac.uk/)위에서..
비트코인(Bitcoin)은 어떻게 사야하는가? 만약 미국에 거주하고 있다면 초보자에게 가장 간단하고 쉬운 방법은 Coinbase를 이용하는 것이다. 작은 금액으로 사고 팔때 특히 유용하다. 그리고 미국에 은행 계좌가 있다면 계좌를 바로 연결하여 클릭 한번으로 비트코인을 사고 팔 수 있다. 웹사이트에 들어가 회원가입을 한다. 이메일과 전화번호로 이중 확인을 거쳐 회원가입 및 로그인을 한다. 로그인 후에 왼쪽 But/Sell 메뉴에 들어가면 아래와 같은 화면이 나온다. 아래 Amount 부분에 미국달러로 얼마치를 살건지 입력하면 오른쪽에 비트코인으로 얼마나 되는지 자동으로 계산되어 나온다. 그리고 "Buy Bitcoin"버튼을 누르면 완료!! 다만 실제 비트코인이 내 어카운트에 들어오기까지 일주일~열흘 정도..
리눅스/유닉스 시스템에서 많이 사용하는 압축 포멧은 gz 와 tar이 있다. gz는 한개의 파일을 압축할 때, tar은 여러개의 파일을 압축해 하나로 만들때 주로 사용한다. 한개 파일 (gz) 압축 풀기만약 sample01.fastq.gz 라는 파일의 압축을 풀고 싶으면 아래와 같이 실행한다. gunzip sample01.fastq.gz 이렇게 하면 sample01.fastq 라는 파일이 만들어 진다. gunzip은 와일드카드를 인식한다. 만약 여러개 파일을 한꺼번에 각각 압축하고 싶다면 아래와 같이 사용할 수 있다gunzip sample*.fastq.gz 한개 파일(gz) 압축하기 만약 sample01.fastq 라는 파일을 압축하고 싶으면 아래와 같이 실행한다. gzip sample01.fastq 그..