대부분 언어에 기본적인 문법은 비슷하다. 하지만 간혹 기본 문법에서 사소한 차이를 보이기도 한다. 파이선과 다른 대부분의 언어(C++, Java, R) 에서의 If 문을 비교해 보면 아래와 같다 Python, 파이선 if 조건1:statementelif 조건 2:statementelse:statement C++ , Java (자바), R if ( 조건 1) {Statement} else if (조건 2){statement} else {statement}
최근 도커 (Docker)에 대한 관심이 부쩍 늘고 있다. 처음에는 서버를 관리하기 위한 툴로 개발되었는데, 하나의 서버에 여러 프로그램을 설치하고 그것들이 사용하는 라이브러리가 충돌하는 상황을 해결하기 위해 나왔다고 한다. 도커를 접하면 컨테이너라는 말이 나오는데, 부두(Docker)에 컨테이너들이 쌓여있는 개념을 상상하면 이해하기 쉽다. 이 각각의 컨테이너 안에 원하는 물건들을 넣을 수 있는 것 처럼 하나의 서버 안에 여러개의 컨테이너를 만들어서 각각 독립된 환경의 컴퓨팅을 구현할 수 있는 것이다. 이제 컴퓨터를 좀 다뤄본 사람은 VMware나 VirtureBox같은 가상화 이군요! 라고 하겠지만 도커는 이와 좀 다른것이 전체 OS를 가상화 하는 것이 아니라 각각의 컨테이너만 가상화 한다는 것이 다르..
파이선(Python)을 사용하기 위해서는 먼저 파이선을 설치해야 한다. https://www.python.org 여기 공식 페이지에서 다운로드하고 설치하면 된다. 다운로드를 받으려고 하면 3.x 버전과 2.7.x버전 두가지가 나온다. 3.x 버전은 새로운 문법이 도입되었다. 따라서 두개의 버전이 호환되지 않는다. 많은 바이오 인포매틱스 관련 코드가 이미 2.7.x버전으로 쓰여졌기 때문에 다른 사람들이 쓴 코드를 이용하려면 2.7.x를 쓰는 것이 좋다. 파이선 코드를 작성하고 실행하는 방법은 여러가지가 있지만 가장 프로(?)답게 사용하는 방법을 커맨드 라인을 이용하는 것이다. 커맨드 라인을 사용하는 방법 새로운 언어로 코딩을 처음 시작할 때 가장 먼저 하는 것이 "hello world"이다. 이는 hell..
파이선을 설치하고 실행하는데 성공했다면 이제 본격적으로 파이선을 이용한 코딩을 배워보자. 파이선에는 기본으로 들어있는 괜찮은 함수가 많다. open(파일이름, 모드)파일을 열어주는 함수이다. 파일은 텍스트 파일을 말한다. 파일이름에는 열고싶은 파일 이름을, 모드는 읽기 'r' 또는 쓰기 'w'를 선택한다. 예를들어 아래와 같이 사용한다.open( 'file_name.txt', 'r') 파일을 열었다면 for 문을 사용해 한줄씩 읽어들일 수 있다. for line in open('file_name.txt','r'):print line 이렇게 하면 파일 내용을 한줄씩 line이라는 변수로 읽어서 출력해 준다. strip()위의 예시를 실행해 보면 파일안에 내용을 출력할 때 빈 줄이 하나씩 더 들어가는 것을 ..
NCBI에 시퀀스를 어디에 등록해야 하는지 포스팅 했었다. 이번에는 그중 SRA에 등록하는 방법을 자세히 소개하고자 한다. 1. 먼저 NCBI 웹사이트에 방문해 로그인을 한다. ID가 없을 경우에는 회원가입을 한다.https://submit.ncbi.nlm.nih.gov 2. 로그인을 하고 아래 주소로 들어가보면 시퀀스를 submit할 수 있는 페이지가 나온다. 여기서 Sequence Read Archive (SRA)를 선택한다. 아래에는 내가 예전에 submit했던 프로젝트 들이 나온다. https://submit.ncbi.nlm.nih.gov/subs/ 3. 이제 New submission 버튼을 눌러 시작한다. 이 버튼을 누를때마다 Submission ID가 자동으로 생성되는데, 여러번 연습으로 만..
NGS를 처음 접하면 생소한 단어들이 많이 등장한다. 플랫폼이 무엇인가? Flatform 이란 어떤 기계를 사용했는가와 같은 것이다. 일루미나에서는 HiSeq, MiSeq 등의 플랫폼이 있다.Flow Cell은 무엇인가? 샘플을 넣고 기계에 들어가는 일종의 카트리지이다. HiSeq과 MiSeq에 사용되는 Flow cell은 각각 아래처럼 생겼다.HiSeq 용 Flow cell MiSeq 용 Flow cell Hiseq에는 이런 Flow cell이 2개까지 들어갈 수 있다. 아래 그림처럼 놓는 곳이 2군데이다. Miseq은 1개만 들어간다. Lane은 무엇인가? NGS에서는 보통 여러개의 샘플을 섞어서 Load하는데, 한개의 Lane에 한개의 Load가 들어간다. 위에 Hiseq Flow cell 그림은 ..
RefSoil ( Soil reference database)를 다운로드 받으려면 아래 웹사이트를 방문하면 된다. https://figshare.com/articles/RefSoil_Database/4362812 만약 서버이용 등의 이유로 커맨드라인을 이용해야 한다면 아래와 같이 각 파일을 다운로드 할 수 있다. bacteria.protein.fa.gzwget -O bacteria.protein.fa.gz https://ndownloader.figshare.com/files/7088924 bacteria.nu.fa.gzwget -O bacteria.nu.fa.gz https://ndownloader.figshare.com/files/7088969 archaea.protein.fa.gzwget -O arc..
유닉스/리눅스에서 많이 사용하는 압축 방법은 gz와 tar 이 있다. gz는 한개의 파일을 압축할 때 사용하고 tar은 여러개의 파일은 한개로 묶어줄 때 사용한다. 여러개의 파일을 한개로 묶고 압축까지 하고 싶다면 tar.gz 로 사용할 수 있다. 사용방법은 아래와 같다 1. gz 압축풀기gz는 gzip의 확장자이다. gz로 압축되어 있는 파일을 풀기 위해서는 아래와 같이 한다.gunzip filename.gz 2. gz로 압축하기한개의 파일을 압축할때 gzip을 사용한다.gzip filename 3. tar.gz 압축풀기여러개의 파일/폴더의 경우 tar.gz로 제공되는 경우가 많다. 이 파일은 아래와 같이 압축을 해제한다.tar -zxvf filename.tar.gz 4. tar.gz로 압축하려면 아래..