메뉴 바로가기 본문 바로가기 하단 바로가기

Korea Bioinformation Center

국내 생명연구자원정보의 총괄관리와 생명정보 분야의 전문연구를 위한 범부처 국가센터

공개 분석 파이프라인

Single-Cell-RNA-Sequencing-Pipeline

Whole-genome sequencing pipeline

The Whole-genome sequencing(WGS) pipeline is a modular toolkit for processing WGS data. This pipeline takes a FASTQ file as input and provides haplotype call results and annotations and visualizations based on GATK pipeline. First, raw read data with well-calibrated base error estimates in FASTQ format are mapped to the reference genome. The BWA mapping tool is used to align reads to the human genome reference, allowing for up to two mismatches in 30-base seeds, and generate a technology-independent SAM/BAM reference file format. Next, duplicate fragments are marked and removed using Picard(http://picard.sourceforge.net), mapping quality is assessed and low-quality mapped reads are filtered, and Paired-read information is also evaluated to ensure that all mate-pair information is in sync between each read. We then refine the initial alignments with local realignment and identify suspicious regions. Using this information as a covariate along with other technical covariates and known sites of variation, the GATK base quality score recalibration(BQSR) is performed. Germline SNPs and indels are called via local reassembly of haplotypes using the recalibrated and realigned BAM files. Finally, we provide Somalier, a tool to quickly assessing sample relevance from sequencing data in BAM, CRAM or VCF format.
#Whole Genome Sequencing
#WGS
#Genomics
#Next Generation Sequencing
#Precision Medicine
#Clinical Genomics
#noncoding genome
#GATK
#fastp
#Cutadapt
#BWA
#SortSam
#MarkDuplicates
#CountBase
#BaseRecalibrator
#ApplyBQSR
#HaplotypeCaller
#somalier

Single-Cell-RNA-Sequencing-Pipeline

Single-cell RNA sequencing pipeline

The Single-cell RNA sequencing pipeline is an extensible toolkit for analyzing single-cell gene expression data using the Scanpy framework. It includes methods for preprocessing, visualization, clustering, and differential expression testing. Its Python-based implementation efficiently handles datasets containing more than one million cells. We introduce ANNDATA, a generic class for managing annotated data matrices. The pipeline features: 1. Regression of confounding variables, normalization, and identification of highly variable genes. 2. t-SNE and graph-based (Fruchterman–Reingold) visualizations that show cell-type annotations derived from comparisons with bulk expression data. 3. Clustering of cells and visualization using the Louvain algorithm, with support for other clustering algorithms as well. 4. Ranking differentially expressed genes in clusters to identify marker genes corresponding to bulk expression labels.
#Single-cell RNA sequencing
#Next-generation sequencing
#Bioinformatics
#Single-cell genomics
#Human Cell Atlas
#Cell_Biology
#Genomics
#transcriptome
#Biotechnology
#heterogeneity
#Multiomics
#scRNA-seq
#scATAC-seq
#Epigenetics
KOBICian's Story
디지털 기술의 발달과 바이오·의료 빅데이터의 폭발적 성장은 우리 사회에 새로운 가능성을 열어주었다. 방대한 임상 기록, 유전체 데이터, 건강행태 정보는 질병 예측, 맞춤형 치료, 공중보건 정책 개선을 위한 핵심 자원으로 부상하고 있다. 이제 바이오데이터는 연구의 부수적 산물이 아니라, 과학 혁신의 씨앗이자 공익을 향한 사회적 자산으로 간주된다. 병원에 쌓여 있는 건강검진 기록, 유전자 분석결과, 임상 데이터가 한데 모이면 어떤 일이 가능할까? 데이터는 질병을 조기에 발견하고, 맞춤형 치료법을 찾고, 더 건강한 사회를 만드는 데 큰 힘이 된다. 그러나 이러한 데이터의 잠재적 가치만큼 활용에 대한 민감성 이슈나 유출에 대한 우려가 크다. 개인의 건강·생활 정보는 가장 사적인 영역에 속하며, 이를 다루는 과정에서 개인의 권리와 사회적 신뢰가 흔들릴 경우, 아무리 선의의 목적이라도 연구는 정당성을 잃게 된다. 데이터 활용과 개인정보 보호 사이의 균형을 찾는 일은 21세기 연구윤리의 중심 과제가 되었다. 데이터가 ‘공익’이라는 이름으로 활용되는 것과 ‘나의 자산이자 권리’라는 인식 사이의 줄다리기가 계속되고 있으며, 오늘날 과학 연구는 이 딜레마 위에서 균형을 찾아야 하는 과제를 안고 있다. 인간대상 연구 또는 인체유래물 연구에서 개인정보를 활용하려면 반드시 충분한 설명에 기반한 자율적인 동의가 필요하다. 동의 방식은 두 가지로 나눠 볼 수 있다. 첫째, 참여자가 사전에 연구목적 참여를 동의해야만 하는 옵트인(Opt-in) 방식이 있다. 권리와 자율성을 가장 확실하게 보장하는 방식이지만, 연구자 입장에서는 연구의 주제가 바뀔 때마다 매번 동의를 받아야 하므로 대규모 통합 연구나 비교연구 등에는 다소 과정과 절차가 복잡해질 수 있다. 둘째, 별다른 의사 표시가 없으면 참여에 동의한 것으로 간주되며, 원하지 않을 경우 동의 철회를 할 수 있는 옵트아웃(Opt-out) 방식이 있다. 효율성은 높지만, 설명을 충분히 이해하지 못하는 경우에도 자동으로 포함될 위험이 있다. 유럽연합의 개인정보보호법(GDPR)은 원칙적으로 옵트인을 요구한다. 그러나 공익적 목적이고 개인을 식별할 수 없게 처리된 경우에는 예외적으로 옵트아웃을 허용한다. 이 경우에도 반드시 연구 목적, 거부 방법, 거부 시 불이익이 없다는 점을 충분히 알리고, 철회 권리를 보장해야 한다 영국의 UK Biobank는 50만 명 이상이 참여한 세계 최대 규모의 건강 데이터 연구다. 처음에는 옵트인으로 참여 동의를 받고, 이후 병원 기록이나 건강 데이터 연계는 옵트아웃으로 운영한다. 참여자는 언제든 클릭 한 번으로 동의를 철회할 수 있고, 철회 즉시 데이터는 연구에서 빠진다. “처음에 확실히 물어보고, 이후에는 원하면 빠질 수 있게 하자”는 절충형 모델이다. 해외 주요국의 관련 사례를 살펴보면 같은 대상과 정보를 활용함에 있어 어떠한 제도적 설계와 신뢰 기반을 조성하는가에 따라 실패 사례와 성공 사례가 동시에 존재하고 있어 우리에게 많은 교훈을 주고 있다. 영국 국민보건서비스(NHS)는 2013년 진료 데이터를 추출해 중앙 데이터베이스에 통합하고, 이를 익명화하여 보건 정책 및 연구목적으로 활용하기 위해 Care.data 사업을 추진하였으나, 국민들은 건강기록이 어디에 쓰이는지, 어떻게 거부할 수 있는지 제대로 알지 못했고 결국 이 사업은 개인정보 보호 및 환자의 선택권 문제로 인해 2016년 중단됐다. 2021년 새롭게 GPDPR(General Practice Data for Planning and Research) 제도를 도입하여 동의 거부 방법을 훨씬 간단하게 하고 안내를 강화했으나 안전 장치 및 신뢰 기반이 확보될 때 까지 무기한 유보 중인 상태이다. 덴마크, 스웨덴, 노르웨이와 같은 북유럽 국가들은 전 국민의 의료기록을 국가 시스템에 자동으로 모으고, 연구에 기본적으로 활용한다. 물론 온라인으로 간단히 신청만 하면 원하는 시점에 언제든 빠질 수 있다. 이 방식이 가능했던 이유는 공공 의료 시스템에 대한 높은 신뢰 때문이다. 우리나라는 『생명윤리 및 안전에 관한 법률』을 통해 연구 참여자의 동의권을 보호하고 있으며, 옵트인 방식의 동의만을 인정하고 있다. 최근에 대규모 공익 연구를 위해 위험이 낮고 개인을 식별할 수 없는 정보에 한해서 거부권을 전제로 한 옵트아웃 방식을 일부 도입할지 여부가 논의 중이다. 데이터 시대의 연구는 ‘공익성’과 ‘자율성’의 두 바퀴로 조화롭게 움직여야 한다. 공익을 위해 데이터 활용을 확대하되, 개인의 선택권을 실질적으로 보장하는 제도적 장치가 뒷받침되어야 한다.이를 위해서는 참여자에게 연구 목적과 데이터 사용 범위를 설명하는 투명한 커뮤니케이션, 동의 철회가 쉬운 디지털 기반의 거부·철회 시스템, 독립적인 감독과 사후 책임을 강화하는 신뢰 거버넌스가 필수적이다. 바이오 데이터는 공익을 위한 공공재이자 필수재이지만, 개인의 권리를 경시하거나 희생을 강요해서는 안 된다. 연구와 개인정보 보호의 균형을 향한 노력은 과학의 신뢰성을 지키는 최소한의 약속이다. 앞으로 우리는 “데이터의 힘”과 “개인의 권리”를 함께 지키는 ‘제3의 길’을 선택해야 한다.

바이오익스프레스 서비스는 동적 컨테이너 기반 자동화된 워크플로우 분석 플랫폼과 고속 데이터 전송 서비스를 통해 과학 분야의 빅데이터 분석을 가능하게 하는 국내 유일의 클라우드 기반 통합 데이터 분석 서비스입니다.

다운로드

환경에 맞는 OS용 워크벤치 및 고속전송 서비스를
다운로드 해주세요.

6,443

사용자

1,129

워크스페이스

91,339

실행 태스크
국가바이오데이터스테이션 데이터 활용 바로가기

바이오 연구 데이터란 생명과학 분야의 국가 R&D 사업을 통해 생산된 모든 종류의 데이터를 의미하며, 이러한 데이터를 활용한 혁신 연구 방식이 각광받으면서 R&D 혁신을 견인하는 핵심요소로 부각되고 있습니다. 이를 위하여 부처·사업·연구자별 흩어져 있는 데이터를 통합 수집·제공하는 국가바이오데이터스테이션을 구축하여 데이터 기반 바이오 연구 환경을 조성하려 합니다.

데이터별 등록 현황

  • 2,194

    바이오프로젝트
  • 112,216

    바이오샘플
  • 2,374,918

    등록된 데이터

바이오 프로젝트 등록 현황

등록 누적 건수(건)
국가 바이오 빅데이터 사업 사업소개 바로가기

정밀의료의 근간이 되는 바이오 빅데이터는 사후적 치료 중심에서 개인 맞춤형 치료·예방의료로 전환됨에 따라 중요도가 커지고 있습니다. 특히 선점 효과가 큰 바이오 산업의 경우 선제적 투자가 필요하며, 주요국들은 대규모 바이오 빅데이터를 구축하고 있습니다. 이에 따라 국가적으로 미래 의료 선도를 위한 국가 바이오 빅데이터를 구축하기 위해 본 사업이 시행되었습니다. 정밀의료 시대의 중심인 '바이오 빅데이터'를 국가차원에서 수집-저장-활용 할 수 있는 기반을 조성하고, 신산업 촉진 및 건강한 삶의 증진에 기여하고자 합니다.

임상정보 수집

16개 희귀질환 협력기관을 지정 운영하여 희귀질환자 모집 후 임상정보 수집

데이터 분석

수집된 희귀질환자의 검체를 자원 제작 기관으로 운송 후 유전체 데이터 생산ㆍ분석

데이터 공유

수집된 임상정보 및 유전체 데이터는 3개의 기관에서 컨소시엄을 구성해 공유

데이터 활용

분석한 데이터는 희귀질환자 상담 및 진료 ㆍ연구 활동 등에 활용

유전체 데이터 25,000
변이분석 데이터 25,000
임상 정보 25,000
코호트 7
감염병 연구정보포털 소개 바로가기

감염병 연구정보포털(Infectious Disease Data Portal)은 전 세계 감염병 바이러스의 연구데이터를 통합 제공하는 포털 서비스 입니다. 빠르게 변화하는 상황에서 감염병을 이해하고 치료법과 백신을 개발하기 위해 데이터와 결과를 조화롭게 공유하기 위해 KOBIC은 전세계 감염병의 연구정보데이터를 통합하여 제공하고 있습니다.

시퀀스 대시보드

88,386 국내 유전체 서열
1,354 국내 단백질 서열
19,685,177 국외 유전체 서열
35,837,682 국외 단백질 서열
19,764,289 코로나 유전체 서열
35,333,179 코로나 단백질 서열
바이러스

감염병 개요, 입자 및 유전체 구조, 생활사, 역학, 변이 등 바이러스에 대한 통합 정보를 제공

데이터

전세계에서 수집한 염기서열 및 단백질 서열, 단백질 구조를 품질분석하여 제공

통계

바이러스 데이터의 발병 시기, 지역, 변이 등 다양한 통계 서비스

분석도구

간단한 웹 기반의 감염병 표준 염기서열 BLAST 서비스

연구지원

국내 생명과학 연구의 활성화를 위하여 생명정보학 전문지식 습득 및 전산자원이 필요한 연구자 여러분들께 다양한 생명정보학 관련 연구를 지원합니다.

  • 042-879-8544
  • swhwang@kribb.re.kr

KOBIC 온라인 교육

바로가기
  • 042-879-8582
  • bkbaik@kribb.re.kr
TOP