NGS
Transcriptome analysis using RNA-Seq(1)
binford
2022. 8. 27. 22:57
실습 전체 과정
실습 환경
실습 데이터 샘플
Arabidopsis thaliana(아기장대): 아기장대는 식물 생물학에서 모델 생물로 널리 사용되는 작은 꽃 식물이다. 아기장대는 유전학과 분자생물학에서의 기초 연구에 중요한 이점을 제공하며 genome(게놈; 유전체) 크기는 ~135 Mbp이다.
6일된 아기장대 묘목의 뿌리에 Pseudomonas aeruginosa(P.aeruginosa; strain PA01; 녹농균)을 처리한 환자군(case)과 처리하지 않은 대조군(control)을 샘플로 사용한다.
실습 데이터 구조
conda 가상 환경 설정
- 환경 활성화
- source ~/miniconda3/bin/activate : conda의 base(기본 가상 환경)으로 이동
- conda activate edurnaseq : base 환경에서 edurnaseq(가상 환경 이름) 활성화
- cf.) 환경 비활성화
- conda deactivate : 환경 비활성화, 이전 단계로 이동
- cf.) 환경 조회
- 현재 활성화된 환경에 * 표시
Reference Data 가공하기
Data copy
- FASTA 파일 copy
(edurnaseq) [user@localhost BioPeople]$ mkdir -p BioResource/Reference/ (edurnaseq) [user@localhost BioPeople]$ cp ../BioResource/Reference/Arabidopsis_thaliana.TAIR10 .dna.toplevel.fa BioResource/Reference/
- GFT 파일 copy
(edurnaseq) [user@localhost BioPeople]$ mkdir -p BioResource/GeneModel/ (edurnaseq) [user@localhost BioPeople]$ cp ../BioResource/GeneModel/Arabidopsis_thaliana. TAIR10.44.gtf BioResource/GeneModel/
- cf. mkdir -p 옵션
bowtie2
- bowtie2 : bowtie2는 빠르고 효율적인 short read aligning하는 alignment program이다. 이들은 large genome(e.g. reference genome)에 short DNA sequence(reads)의 많은 set들을 빠르게 aligning하는 것을 목표로 설계되었다.
- cf. Alignment : read를 기준 서열(reference)과 비교하여 유사도가 높은 지점에 read를 붙이는 과정이다.
- cf. Mapping vs Alignment
- Mapping: Find the approximate origin of a sequence.
- Alignment: Find the exact difference between two sequences.
(edurnaseq) [user@localhost BioPeople]$ bowtie2-build BioResource/Reference/Arabidopsis_thaliana
.TAIR10.dna.toplevel.fa BioResource/Reference/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa
- usage example : bowtie2-build INPUT OUTPUT
- result :
samtools
- samtools faix : indexs or queries regions from a fasta file
fasta 파일로부터 index 파일인 fai 파일을 생성한다. fai 파일로부터 추후 mapping을 위한 connecting region을 찾는다.
(edurnaseq) [user@localhost BioPeople]$ samtools faidx BioResource/Reference/Arabidopsis_
thaliana.TAIR10.dna.toplevel.fa
- result :
- 첫번째 열 : 1~5번 염색체, 미토콘드리아(Mt), 색소체(Pt; plastid)
- 두번째 열 : read length