NGS

Transcriptome analysis using RNA-Seq(1)

binford 2022. 8. 27. 22:57

실습 전체 과정

실습 환경

실습 데이터 샘플

Arabidopsis thaliana(아기장대): 아기장대는 식물 생물학에서 모델 생물로 널리 사용되는 작은 꽃 식물이다. 아기장대는 유전학과 분자생물학에서의 기초 연구에 중요한 이점을 제공하며 genome(게놈; 유전체) 크기는 ~135 Mbp이다.

6일된 아기장대 묘목의 뿌리에 Pseudomonas aeruginosa(P.aeruginosa; strain PA01; 녹농균)을 처리한 환자군(case)과 처리하지 않은 대조군(control)을 샘플로 사용한다.

 

실습 데이터 구조

모든 실습 과정은 home/Handson/BioPeople 에서 진행한다.

 


 

conda 가상 환경 설정

  1. 환경 활성화
    • source ~/miniconda3/bin/activate : conda의 base(기본 가상 환경)으로 이동
    • conda activate edurnaseq : base 환경에서 edurnaseq(가상 환경 이름) 활성화
  2. cf.) 환경 비활성화
    • conda deactivate : 환경 비활성화, 이전 단계로 이동
  3. cf.) 환경 조회
    • 현재 활성화된 환경에 * 표시

 

Reference Data 가공하기

Data copy

  1. FASTA 파일 copy
    (edurnaseq) [user@localhost BioPeople]$ mkdir -p BioResource/Reference/
    (edurnaseq) [user@localhost BioPeople]$ cp ../BioResource/Reference/Arabidopsis_thaliana.TAIR10
    .dna.toplevel.fa BioResource/Reference/
  2. GFT 파일 copy
    (edurnaseq) [user@localhost BioPeople]$ mkdir -p BioResource/GeneModel/
    (edurnaseq) [user@localhost BioPeople]$ cp ../BioResource/GeneModel/Arabidopsis_thaliana.
    TAIR10.44.gtf BioResource/GeneModel/
  3. cf. mkdir -p 옵션

-p,   --parents  : 상위 경로도 함께 생성한다. 상위 디렉토리가 없을 경우 자동으로 생성한다.

bowtie2

  • bowtie2 : bowtie2는 빠르고 효율적인 short read aligning하는 alignment program이다. 이들은 large genome(e.g. reference genome)에 short DNA sequence(reads)의 많은 set들을 빠르게 aligning하는 것을 목표로 설계되었다. 
  • cf. Alignment : read를 기준 서열(reference)과 비교하여 유사도가 높은 지점에 read를 붙이는 과정이다.
  • cf. Mapping vs Alignment
    • Mapping: Find the approximate origin of a sequence.
    • Alignment: Find the exact difference between two sequences.
(edurnaseq) [user@localhost BioPeople]$ bowtie2-build BioResource/Reference/Arabidopsis_thaliana
.TAIR10.dna.toplevel.fa BioResource/Reference/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa
  • usage example : bowtie2-build INPUT OUTPUT
  • result :

bowtie2로 indexing 결과 bt2 파일이 생성된다. rev는 reverse genome을 의미한다.

samtools

  • samtools faix : indexs or queries regions from a fasta file
    fasta 파일로부터 index 파일인 fai 파일을 생성한다. fai 파일로부터 추후 mapping을 위한 connecting region을 찾는다.
(edurnaseq) [user@localhost BioPeople]$ samtools faidx BioResource/Reference/Arabidopsis_
thaliana.TAIR10.dna.toplevel.fa
  • result :
    • 첫번째 열 : 1~5번 염색체, 미토콘드리아(Mt), 색소체(Pt; plastid)
    • 두번째 열 : read length