Transcriptome analysis using RNA-Seq(1)

NGS

Transcriptome analysis using RNA-Seq(1)

binford 2022. 8. 27. 22:57

실습 전체 과정

실습 환경

실습 데이터 샘플

Arabidopsis thaliana(아기장대): 아기장대는 식물 생물학에서 모델 생물로 널리 사용되는 작은 꽃 식물이다. 아기장대는 유전학과 분자생물학에서의 기초 연구에 중요한 이점을 제공하며 genome(게놈; 유전체) 크기는 ~135 Mbp이다.

6일된 아기장대 묘목의 뿌리에 Pseudomonas aeruginosa(P.aeruginosa; strain PA01; 녹농균)을 처리한 환자군(case)과 처리하지 않은 대조군(control)을 샘플로 사용한다.

실습 데이터 구조

모든 실습 과정은 home/Handson/BioPeople 에서 진행한다.

conda 가상 환경 설정

환경 활성화
- source ~/miniconda3/bin/activate : conda의 base(기본 가상 환경)으로 이동
- conda activate edurnaseq : base 환경에서 edurnaseq(가상 환경 이름) 활성화
cf.) 환경 비활성화
- conda deactivate : 환경 비활성화, 이전 단계로 이동
cf.) 환경 조회
- 현재 활성화된 환경에 * 표시

Reference Data 가공하기

Data copy

FASTA 파일 copy

(edurnaseq) [user@localhost BioPeople]$ mkdir -p BioResource/Reference/
(edurnaseq) [user@localhost BioPeople]$ cp ../BioResource/Reference/Arabidopsis_thaliana.TAIR10
.dna.toplevel.fa BioResource/Reference/

GFT 파일 copy

(edurnaseq) [user@localhost BioPeople]$ mkdir -p BioResource/GeneModel/
(edurnaseq) [user@localhost BioPeople]$ cp ../BioResource/GeneModel/Arabidopsis_thaliana.
TAIR10.44.gtf BioResource/GeneModel/

cf. mkdir -p 옵션

-p,   --parents  : 상위 경로도 함께 생성한다. 상위 디렉토리가 없을 경우 자동으로 생성한다.

bowtie2

bowtie2 : bowtie2는 빠르고 효율적인 short read aligning하는 alignment program이다. 이들은 large genome(e.g. reference genome)에 short DNA sequence(reads)의 많은 set들을 빠르게 aligning하는 것을 목표로 설계되었다.
cf. Alignment : read를 기준 서열(reference)과 비교하여 유사도가 높은 지점에 read를 붙이는 과정이다.
cf. Mapping vs Alignment
- Mapping: Find the approximate origin of a sequence.
- Alignment: Find the exact difference between two sequences.

(edurnaseq) [user@localhost BioPeople]$ bowtie2-build BioResource/Reference/Arabidopsis_thaliana
.TAIR10.dna.toplevel.fa BioResource/Reference/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa

usage example : bowtie2-build INPUT OUTPUT
result :

bowtie2로 indexing 결과 bt2 파일이 생성된다. rev는 reverse genome을 의미한다.

samtools

samtools faix : indexs or queries regions from a fasta file
fasta 파일로부터 index 파일인 fai 파일을 생성한다. fai 파일로부터 추후 mapping을 위한 connecting region을 찾는다.

(edurnaseq) [user@localhost BioPeople]$ samtools faidx BioResource/Reference/Arabidopsis_
thaliana.TAIR10.dna.toplevel.fa

result :
- 첫번째 열 : 1~5번 염색체, 미토콘드리아(Mt), 색소체(Pt; plastid)
- 두번째 열 : read length

저작자표시 (새창열림)