Genome-wide characterization of centromeric satellites from multiple mammalian genomes
Centromere 영역은 complex repeat 구조 때문에 해결하기 힘든 과제로 남아있음. RepeatNet이라는 computational method를 개발하여 WGS sequence data 상에서 higher-order repeat structure를 밝히고 그 기능을 밝히고자 함. 6종의 포유동물 (말, 개, 코끼리, 아르마딜로, 주머니쥐, 오리너구리) genome을 사용하여 테스트 해봄. Centromere에 존재하는 sequence는 진화 하는 동안 매우 빠르게 변하기 때문에 종 특이적 sequence를 가지고 있음. 따라서 이미 정해진 서열을 찾는게 아니라 higher-order repeating 구조에 기반하여 서열을 찾아야 함.
Method
- Read의 insert size가 centromere 영역보다 작을 때 left read와 right read 모두 repeat 되는 경향을 보일 것임. 이러한 read를 k-mer로 쪼개서 그래프로 만들면 특정 패턴이 반복되는 경향을 보일 것임. 이러한 read 중에 satellite 영역에 걸치는 영역들까지 계산하면 satellite sequence의 길이를 예측 가능함. 길이 분포는 대략 140-930nt까지 종에 따라서 다양하게 나타나는 것을 확인함. (figure 1., table1.)
Result
- 실제 관측 결과 종 별로 서열이 조금씩 달라지는 것을 확인할 수 있었고 MSA를 했을 때 종 간 거리에 따라 variation이 늘어나는 것을 확인할 수 있었음. (figure 3.) 또한 특이적이게도 오리너구리에서는 centromere에서 satellite DNA를 찾을 수 없었는데 enrich 되어 있지 않는 것으로 보임.
resource -
Can Alkan et al., Genome-wide characterization of centromeric satellites from multiple mammalian genomes, Genome research, 2010
'Research > paper review' 카테고리의 다른 글
LoFreq (0) | 2018.07.04 |
---|---|
NextSV (0) | 2017.10.11 |
Fast and accurate de novo genome assembly from long uncorrected reads (0) | 2017.09.20 |
De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scaffolds (0) | 2017.09.06 |