바이오인포매틱스 연구를 하다보면 많은 경우 파일이 gz파일로 압축되어 있다. gzip은 단일 파일을 압축하는 좋은 방법이지만 열어보려면 압축을 풀어야 하는 번거로움이 있다. 그런데 파이썬에서 gz 파일의 압축을 풀지 않고 바로 읽을 수 있는 방법이 있다! gzip이라는 라이브러리를 이용하면 된다. import gzipgb_file = gzip.open(sys.argv[1],'rb') 이렇게 하면 첫번째 argument 로 받은 파일을 압축 해제 없이 바로 열어볼 수 있다. 예외처리: 만약 읽은 파일이 압축 파일이 아니라면? 압축된 파일과 그렇지 않은 파일을 모두 핸들하기 위해 아래와 같이 사용할 수 있다. if sys.argv[1][-2:] == 'gz':gb_file = gzip.open(sys.arg..
R 을 이용해 앰플리콘 데이터를 분석하는 것은 여러모로 장점이 많다. 그중 가장 큰 장점은 '자동화'일 것이다. 한번 R 스크립트를 만들어 놓으면 이후에 그대로 혹은 최소한의 편집으로 다시 사용할 수 있기 때문이다. 또한 copy-paste 의 무한반복을 하지 않아도 된다!!! R에서 앰플리콘 시퀀스 데이터 분석을 도와주는 라이브러리 중 많이 사용하는 것이 phyloseq과 vegan 이다. 오늘은 그 중 phyloseq에 대해 알아보려고 한다. phyloseq은 R에서 앰플리콘 데이터를 읽어 다양한 형태의 결과물 (그래프)을 간편히 만들어 내는데 큰 도움이 된다. Phyloseq의 개발자가 좋은 튜토리얼을 많이 만들어 놓아 따라하기도 비교적 쉽다. 본인의 경험으로 phyloseq을 사용하는데 가장 어려..