Augustus[optimize_augustus]
특정 종의 예측 정확도를 높이기 위해 파라미터를 반복적으로 조정하는 최적화 스크립트임. 여러 차례 설정을 변경하고 성능을 평가하면서 점진적으로 모델 품질을 개선하며, 이를 통해 해당 종의 유전체에 특화된 더 정확한 예측 결과를 제공함
Augustus[new_species]
새로운 종에 대해 학습을 시작할 수 있도록 디렉터리와 파라미터 템플릿을 생성하는 스크립트임. 이를 통해 연구자는 해당 종의 유전체 특성에 맞는 맞춤형 모델을 구축할 수 있으며, 이후 보다 정확한 유전자 예측을 수행하는 기반을 마련함
Augustus[randomSplit]
학습 데이터를 무작위로 분할하여 교차 검증에 사용하는 스크립트임. 학습용과 테스트용 데이터를 분리해 모델의 성능을 객관적으로 평가할 수 있으며, 과적합을 방지하고 파라미터 최적화 과정에서 활용됨
Augustus[join_aug_pred]
여러 개의 AUGUSTUS 예측 결과 파일을 하나의 통합 파일로 병합하는 스크립트임. 유전체를 분할하여 별도로 분석한 결과를 합쳐 최종적으로 일관된 annotation 세트를 구성하는 데 사용되며, 전체 유전체 수준의 분석에 유용함
Augustus[filterGenesIn]
예측된 유전자 모델을 길이, 구조적 완전성, 다른 feature와의 겹침 여부에 따라 필터링하는 스크립트임. 이 과정을 통해 낮은 품질의 예측을 제거하고, 생물학적으로 의미 있는 모델만 남겨 downstream 분석의 정확성과 신뢰성을 높일 수 있음
Augustus[getAnnoFasta]
AUGUSTUS의 GFF 출력에서 CDS, 단백질, DNA 서열을 추출하는 스크립트임. 추출된 결과는 FASTA 형식으로 변환되어 downstream 분석, 기능 연구, 종 간 비교 유전체학 등 다양한 후속 연구에 활용 가능함
Augustus[prepareAlign]
alignment 데이터를 전처리하여 AUGUSTUS 파이프라인에서 활용할 수 있도록 포맷을 정리함
Augustus[pp_simScore]
단백질 프로파일 또는 정렬 간의 유사도를 계산하여 비교 annotation에 활용함
Augustus[load2sqlitedb]
예측 결과를 SQLite 데이터베이스에 로드하여 간단한 환경에서 활용 가능함
Augustus[load2db]
예측 결과를 MySQL이나 Postgres 데이터베이스에 로드하여 저장과 검색을 지원함
Augustus[joingenes]
여러 스캐폴드 또는 증거 소스의 예측 결과를 통합하여 종합적인 유전자 모델을 생성함
Augustus[homGeneMapping]
상동성을 기반으로 예측된 유전자를 다른 종이나 어셈블리에 매핑함
Augustus[getSeq]
데이터베이스 또는 레퍼런스에서 유전체 서열을 추출하여 FASTA 형식으로 제공함
Augustus[filterBam]
BAM 정렬을 매핑 퀄리티나 스플라이스 리드 조건에 따라 필터링함
Augustus[fastBlockSearch]
유전체 간 synteny 블록을 검색하여 상동성 기반 예측에 활용함
Augustus[etraining]
알려진 유전자 모델을 이용해 파라미터를 학습하는 프로그램으로 새로운 species 설정 시 필수임
Augustus[compileSpliceCands]
증거 데이터에서 스플라이스 후보 지점을 추출하여 힌트 기반 예측을 보조함
Augustus[bam2wig]
BAM 파일을 WIG 포맷으로 변환하여 read depth와 coverage 확인에 활용함
Augustus[bam2hints]
RNA-Seq BAM 정렬에서 인트론과 엑손 경계 힌트를 생성하여 예측 정확도를 높이는 데 사용함
Augustus[augustus]
- 메인 유전자 예측 프로그램 - 엑손, 인트론, UTR 등 구조 예측 - species 모델 및 힌트 파일 사용 가능
ANNOVAR[variants_reduction]
사용자 정의 기준이나 표준 파이프라인에 따라 변이를 필터링하고 우선순위를 매기는 데 사용
ANNOVAR[coding_change]
엑손 영역 변이를 분석하여 아미노산 치환, 종결 코돈 발생, 프레임시프트 여부 등을 확인
ANNOVAR[retrieve_seq_from_fasta]
지정된 유전체 좌표에 따라 FASTA 파일에서 DNA 서열을 추출
ANNOVAR[table_annovar]
가장 많이 사용되는 스크립트로, 여러 annotation 데이터베이스를 동시에 활용하여 표 형식의 종합 결과를 생성
ANNOVAR[annotate_variation]
RefSeq, Ensembl, dbSNP, ClinVar, COSMIC 등의 데이터베이스를 활용하여 유전자 기반, 영역 기반, 필터 기반 annotation을 수행