임산부의 플라즈마에서 태아의 cell-free DNA의 존재가 밝혀지면서 NIPT (Noninvasive prenatal test)가 만들어졌고 태아의 비이상성을 검출하기 위한 방법으로 널리 사용되고 있다.
하지만 임산부의 플라즈마에서 태아의 DNA 비율이 어느정도인지에 따라 검사의 정확도가 좌우되기때문에 정확한 비율을 알아내는 것이 필요해졌고 여러 종류의 생물정보학 분석 방법이 사용되었다.
1. Y 염색체 기반
예전에는 SRY, DYS14, ZFY 같은 유전자에 마커를 사용하여 측정하였으나 최근에는 Y 염색체 전체의 비율을 계산한 것으로 FF로 계산한다. 간단하고 정확한 편이나 남아에게만 적용할 수 있는 한계가 있다.
2. 부계 Genotype 정보를 이용
SNP 중에 부계에서 A/A, 모계에 C/C 처럼 homo로 가지고 있는 경우 태아는 A/C hetero를 가질 수 밖에 없다. 전체 서열 중에 A가 가지는 비율을 계산하면 FF를 추정 할 수 있다. 이 방법도 정확도가 높은 편이지만 부계의 SNP정보를 필요로 하다는 점에서 추가 비용이 필요하다.
3. high-depth 시퀀싱 데이터
부계 genotype 정보가 없어도 충분한 depth가 확보된다면 나오는 결과를 기반으로 모계 genotype과 태아의 genotype을 추정 할 수 있다. 대략 ~120x 정도의 depth일 때 신뢰할 만하다는 연구 결과가 있다.
4. 모계 genotype 정보를 이용한 shallow-depth 시퀀싱
모계 SNP 정보를 정확히 알고 있다면 depth가 많지 않아도 FF 예측이 가능하다. 모계에서 homozygous site를 추려낸 후 이 중에 hetero 서열을 가지는 곳의 비율을 계산하면 된다. 2번과 비슷하게 SNP 정보를 microarray 등을 통해 미리 확보해야 하는 단점이 있다.
5. 시퀀싱 데이터를 기반으로한 shallow-depth 시퀀싱
50KB 단위로 염색체의 영역을 나눈 뒤 read count를 계산하여 FF값을 추정하는 SeqFF 라고 불리우는 방법이 있다. Enet과 reduced-rank regression 모델과 coefficient를 계산했을 때 각각 0.932와 0.938의 r값을 가진다. 이 방법은 실제 FF가 5% 미만일 때는 정확도를 보장할 수 없으며 대용량 데이터로 예측 모델을 만들어야하는 단점이 있다.
6. 메틸화 마커
포유류는 CpG 염기에서 C가 ~70% 정도 메틸화 되어 있다. 메틸화가 되는 위치에 따라 세포의 역할이 바뀌는데 태반 특이적 메틸화 마커인 RASSF1A 프로모터 서열 등에서 태아에서만 메틸화 되는 영역을 찾아, 모계 DNA 서열에서의 메틸화 되지 않는 영역과 비교하여 FF를 계산한다. Y 염색체 기반 FF 예측과 0.85의 correlation을 가지는 것을 확인하였으며 대규모 데이터셋에서 깊이있는 연구가 필요하다.
7. Cell-free DNA 사이즈 기반
태아의 DNA는 엄마의 DNA보다 짧은 편이다. 따라서 FF 값이 높다면 짧은 DNA의 비율이 늘어날 것이다. paired-end 데이터에서 100-150bp와 163-169bp의 DNA 사이즈 구분을 통해 Y염색체 기반과 0.827의 r값을 가지는 결과를 만들었다.
8. Cell-free DNA 뉴클레오좀 기반
Reference -