메뉴 바로가기 본문 바로가기 하단 바로가기

Korea Bioinformation Center

국내 생명연구자원정보의 총괄관리와 생명정보 분야의 전문연구를 위한 범부처 국가센터

공개 분석 파이프라인

Single-Cell-RNA-Sequencing-Pipeline

Whole-genome sequencing pipeline

The Whole-genome sequencing(WGS) pipeline is a modular toolkit for processing WGS data. This pipeline takes a FASTQ file as input and provides haplotype call results and annotations and visualizations based on GATK pipeline. First, raw read data with well-calibrated base error estimates in FASTQ format are mapped to the reference genome. The BWA mapping tool is used to align reads to the human genome reference, allowing for up to two mismatches in 30-base seeds, and generate a technology-independent SAM/BAM reference file format. Next, duplicate fragments are marked and removed using Picard(http://picard.sourceforge.net), mapping quality is assessed and low-quality mapped reads are filtered, and Paired-read information is also evaluated to ensure that all mate-pair information is in sync between each read. We then refine the initial alignments with local realignment and identify suspicious regions. Using this information as a covariate along with other technical covariates and known sites of variation, the GATK base quality score recalibration(BQSR) is performed. Germline SNPs and indels are called via local reassembly of haplotypes using the recalibrated and realigned BAM files. Finally, we provide Somalier, a tool to quickly assessing sample relevance from sequencing data in BAM, CRAM or VCF format.
#Whole Genome Sequencing
#WGS
#Genomics
#Next Generation Sequencing
#Precision Medicine
#Clinical Genomics
#noncoding genome
#GATK
#fastp
#Cutadapt
#BWA
#SortSam
#MarkDuplicates
#CountBase
#BaseRecalibrator
#ApplyBQSR
#HaplotypeCaller
#somalier

Single-Cell-RNA-Sequencing-Pipeline

Single-cell RNA sequencing pipeline

The Single-cell RNA sequencing pipeline is an extensible toolkit for analyzing single-cell gene expression data using the Scanpy framework. It includes methods for preprocessing, visualization, clustering, and differential expression testing. Its Python-based implementation efficiently handles datasets containing more than one million cells. We introduce ANNDATA, a generic class for managing annotated data matrices. The pipeline features: 1. Regression of confounding variables, normalization, and identification of highly variable genes. 2. t-SNE and graph-based (Fruchterman–Reingold) visualizations that show cell-type annotations derived from comparisons with bulk expression data. 3. Clustering of cells and visualization using the Louvain algorithm, with support for other clustering algorithms as well. 4. Ranking differentially expressed genes in clusters to identify marker genes corresponding to bulk expression labels.
#Single-cell RNA sequencing
#Next-generation sequencing
#Bioinformatics
#Single-cell genomics
#Human Cell Atlas
#Cell_Biology
#Genomics
#transcriptome
#Biotechnology
#heterogeneity
#Multiomics
#scRNA-seq
#scATAC-seq
#Epigenetics
KOBICian's Story
컴퓨터 분야에서 “클러스터(Cluster)”라는 개념은 1980년대 후반에 본격적으로 등장했습니다. 당시 슈퍼컴퓨터는 고가의 전용 시스템이어서 일부 국가 기관이나 대형 연구소만 사용이 가능했습니다. 하지만 과학 기술과 산업이 발전하면서 더욱 정밀하고 복잡한 계산을 감당할 수 있는 고성능 컴퓨터에 대한 수요가 점점 높아졌고, 과학자와 엔지니어들은 이러한 문제를 해결할 방법을 모색했습니다.고가의 슈퍼컴퓨터 대신 과학자와 엔지니어들이 고안한 해결책은 바로 범용 컴퓨터 여러 대를 네트워크로 연결하여 하나의 거대한 컴퓨터처럼 작동하게 만드는 것, 즉 클러스터 컴퓨팅이었습니다. 이 방식은 상대적으로 저렴한 서버나 워크스테이션을 여러 대 묶어 단일 고성능 시스템(슈퍼컴퓨터)을 대신하는 것입니다. 각 컴퓨터(노드)는 개별적으로 작동할 수 있지만, 클러스터 관리 소프트웨어를 통해 전체 자원이 통합 관리되면서 하나의 연산 시스템처럼 작동하게 됩니다. 클러스터 시스템은 하나의 큰 계산 작업을 여러 개의 작은 단위로 나누고, 이를 여러 노드에서 동시에 처리한 뒤 결과를 종합하는 병렬 처리와 분산 처리를 기반으로 작동합니다. 이 과정이 원활하게 이루어지려면 다음과 같은 구성 요소들이 유기적으로 연동되어야 합니다. - 작업 스케줄러(Scheduler): 어떤 작업을 어느 노드에서 언제 실행할지 결정하고 자원을 효율적으로 분배해 시스템 활용도를 높입니다. Slurm, PBS, SGE(Sun Grid Engine) 등이 대표적인 스케줄러입니다. - 고속 네트워크: 노드 간 빠른 통신은 필수적입니다. 특히 MPI(Message Passing Interface) 기반의 병렬 연산에서는 데이터 전송 속도와 지연 시간이 성능에 직접적인 영향을 미치므로, InfiniBand, Omni-Path, RoCE 같은 초고속 기술이 사용됩니다. - 병렬 파일 시스템: 수많은 노드가 동시에 데이터에 접근하고 입출력을 수행할 수 있도록 지원합니다. Lustre, BeeGFS, IBM Spectrum Scale(GPFS) 등이 있으며, I/O 병목 현상을 해소하는 데 필수적인 역할을 합니다. 참고로 작업을 분할하고 전송한 뒤 모든 노드의 계산 완료를 기다린 후 결과물을 모으는 데에는 시간과 자원이 소모되는 것은 사실입니다. 예를 들어 전체 프로그램 중 90%는 병렬 처리 가능하고 10%는 직렬로만 처리할 수 있다고 가정하면 10개의 노드 사용 시 이론상 최대 속도 향상은 약 5.27배에 그친다고 합니다(Amdahl의 법칙)Amdahl의 법칙은 전체 작업 중 병렬화가 불가능한 부분이 전체 성능 향상의 한계를 결정한다는 이론으로, 다음과 같은 식으로 표현됩니다. Speedup(N) = 1 / (S + (1 - S)/N) S는 직렬 처리 비율 (예: 0.1), N은 사용한 프로세서(또는 노드) 수입니다. 클러스터 컴퓨팅의 가장 큰 장점은 비용 대비 성능에 있습니다. 고가의 전용 하드웨어를 사용하지 않고, 범용 장비를 조합해 시스템을 구성하기 때문에 초기 구축 비용이 낮고, 유지 관리가 상대적으로 간단합니다. 또한, 필요에 따라 노드를 쉽게 추가하거나 제거할 수 있는 확장성과, 다양한 목적에 따라 자원을 유연하게 재 구성할 수 있는 유연성도 클러스터의 중요한 특징 중 하나입니다. 슈퍼컴퓨터와 클러스터는 모두 대규모 연산과 대용량 데이터 처리를 위해 설계된 시스템이라는 점에서는 공통점이 있지만, 구성 방식에는 차이가 있습니다.전통적인 슈퍼컴퓨터는 전용으로 설계된 고성능 하드웨어와 통합된 아키텍처를 기반으로 구축되며, 시스템 전반이 일체형으로 동작하도록 최적화되어 있습니다. 반면, 클러스터는 범용 서버나 워크스테이션을 네트워크로 연결하여 하나의 연산 시스템처럼 구성하는 방식으로, 부품이나 기술의 접근성이 높고 유연성이 뛰어난 것이 특징입니다. 하지만 최근 들어서는 슈퍼컴퓨터 역시 내부적으로는 수천~수만 개의 노드로 구성된 클러스터 형태로 설계되는 경우가 많아졌으며, 범용 컴포넌트와 오픈소스 소프트웨어를 적극 활용하는 추세입니다.그 결과, 두 시스템의 물리적 구조와 운영 방식은 점점 닮아가고 있으며, 오늘날에는 슈퍼컴퓨터와 클러스터의 경계가 사실상 흐려지고 있는 상황입니다. KOBIC에서는 클러스터 시스템을 기반으로 다양한 생명정보 데이터 분석 연구를 수행하고 있습니다. 각 클러스터 노드는 최신 CPU와 대용량 메모리를 탑재하고 있어, 대규모 유전체 분석, AI 기반 모델 학습, 복잡한 생물정보 시뮬레이션 등 다양한 작업도 안정적이고 효율적으로 처리할 수 있습니다.또한, 모든 노드와 스토리지는 이더넷(10/100 Mbps)이나 기가비트 이더넷(≥>1Gbps)보다 매우 빠른 최대 200 Gps의 InfiniBand와 같은 고속 네트워크로 연결되어 있어 지연 시간이 매우 짧으며, 대용량 I/O 작업 환경에서도 높은 성능과 안정성을 유지합니다. 이러한 인프라를 바탕으로 KOBIC은 방대한 생명정보 데이터를 빠르고 정밀하게 분석할 수 있는 고성능 컴퓨팅 환경을 갖추고 있으며, 국내 생명정보 연구의 발전에 기여하고자 지속적으로 노력하고 있습니다.

바이오익스프레스 서비스는 동적 컨테이너 기반 자동화된 워크플로우 분석 플랫폼과 고속 데이터 전송 서비스를 통해 과학 분야의 빅데이터 분석을 가능하게 하는 국내 유일의 클라우드 기반 통합 데이터 분석 서비스입니다.

다운로드

환경에 맞는 OS용 워크벤치 및 고속전송 서비스를
다운로드 해주세요.

6,352

사용자

1,120

워크스페이스

90,712

실행 태스크
국가바이오데이터스테이션 데이터 활용 바로가기

바이오 연구 데이터란 생명과학 분야의 국가 R&D 사업을 통해 생산된 모든 종류의 데이터를 의미하며, 이러한 데이터를 활용한 혁신 연구 방식이 각광받으면서 R&D 혁신을 견인하는 핵심요소로 부각되고 있습니다. 이를 위하여 부처·사업·연구자별 흩어져 있는 데이터를 통합 수집·제공하는 국가바이오데이터스테이션을 구축하여 데이터 기반 바이오 연구 환경을 조성하려 합니다.

데이터별 등록 현황

  • 2,158

    바이오프로젝트
  • 110,983

    바이오샘플
  • 2,371,418

    등록된 데이터

바이오 프로젝트 등록 현황

등록 누적 건수(건)
국가 바이오 빅데이터 사업 사업소개 바로가기

정밀의료의 근간이 되는 바이오 빅데이터는 사후적 치료 중심에서 개인 맞춤형 치료·예방의료로 전환됨에 따라 중요도가 커지고 있습니다. 특히 선점 효과가 큰 바이오 산업의 경우 선제적 투자가 필요하며, 주요국들은 대규모 바이오 빅데이터를 구축하고 있습니다. 이에 따라 국가적으로 미래 의료 선도를 위한 국가 바이오 빅데이터를 구축하기 위해 본 사업이 시행되었습니다. 정밀의료 시대의 중심인 '바이오 빅데이터'를 국가차원에서 수집-저장-활용 할 수 있는 기반을 조성하고, 신산업 촉진 및 건강한 삶의 증진에 기여하고자 합니다.

임상정보 수집

16개 희귀질환 협력기관을 지정 운영하여 희귀질환자 모집 후 임상정보 수집

데이터 분석

수집된 희귀질환자의 검체를 자원 제작 기관으로 운송 후 유전체 데이터 생산ㆍ분석

데이터 공유

수집된 임상정보 및 유전체 데이터는 3개의 기관에서 컨소시엄을 구성해 공유

데이터 활용

분석한 데이터는 희귀질환자 상담 및 진료 ㆍ연구 활동 등에 활용

유전체 데이터 25,000
변이분석 데이터 25,000
임상 정보 25,000
코호트 7
감염병 연구정보포털 소개 바로가기

감염병 연구정보포털(Infectious Disease Data Portal)은 전 세계 감염병 바이러스의 연구데이터를 통합 제공하는 포털 서비스 입니다. 빠르게 변화하는 상황에서 감염병을 이해하고 치료법과 백신을 개발하기 위해 데이터와 결과를 조화롭게 공유하기 위해 KOBIC은 전세계 감염병의 연구정보데이터를 통합하여 제공하고 있습니다.

시퀀스 대시보드

88,386 국내 유전체 서열
1,354 국내 단백질 서열
19,685,177 국외 유전체 서열
35,837,682 국외 단백질 서열
19,764,289 코로나 유전체 서열
35,333,179 코로나 단백질 서열
바이러스

감염병 개요, 입자 및 유전체 구조, 생활사, 역학, 변이 등 바이러스에 대한 통합 정보를 제공

데이터

전세계에서 수집한 염기서열 및 단백질 서열, 단백질 구조를 품질분석하여 제공

통계

바이러스 데이터의 발병 시기, 지역, 변이 등 다양한 통계 서비스

분석도구

간단한 웹 기반의 감염병 표준 염기서열 BLAST 서비스

연구지원

국내 생명과학 연구의 활성화를 위하여 생명정보학 전문지식 습득 및 전산자원이 필요한 연구자 여러분들께 다양한 생명정보학 관련 연구를 지원합니다.

  • 042-879-8544
  • swhwang@kribb.re.kr

KOBIC 온라인 교육

바로가기
  • 042-879-8582
  • bkbaik@kribb.re.kr
TOP