KimbgAI

[medical] 유전역학-개론 3주차, 연구설계방법 본문

medical

[medical] 유전역학-개론 3주차, 연구설계방법

KimbgAI 2023. 3. 22. 17:59
반응형

이번주 수업은 Study design in genetic epidemiology, 즉 유전역학 연구 설계 방법이다.

3주차밖에 되지 않았지만, 뭔가 상당한 양의 정보가 머릿속을 헤집어놓는 기분이네요.

 

 

유전역학 연구의 프로세스는 보통 위 그림과 같다.

질환의 성격이 무엇인지, 가족력이 있는지, 유전적인 영향의 증거가 있는지 등등..

그 아래에 있는 내용은 해당 프로세스에서 사용했던 방법들이다.

회색박스는 과거에는 많이 사용했던 방법론들 이지만 현재는 거의 사용하지 않는다.

사용하는 것은 아니지만, 개념이 사라진것은 아니고 지금도 사용하기 때문에 알아둘 필요가 있다.

 

오늘 3주차에는 이런 배경지식을 바탕으로 연구설계에 대한 내용을 정리할 것이다.

 

 

한국에서의 가족관계는 촌수로 나타내고, 유전학에서도 비슷한 개념이 있다.

degree of relationship 이라는 개념인데, 촌수와는 다르다.

나랑 형제자매는 부모를 거쳐 내려와 2촌이지만, 유적학에서는 바로 연결되어 1 degree이다.

삼촌이랑은 3촌이지만, 유전학에서는 2 degree.

1 degree는 공유되는 유전자가 1/2정도 되고, 2 degree는 (1/2)^2가 되는 그런식이다.

즉 degree가 가까울수록 유전적으로 공유되는 것이 더 많다.

 

proband라는 것은 기준점을 의미한다.

 

위 표를 보면 자신의 frist degree에 좌측 병의 병력이 있는 사람과 없는 사람의 OR을 구한것인데,

대부분의 경우에서 1 degree에 질병이 있는 사람의 OR이 더 높다.

또한 해당 병력을 가진 first degree 가 여러명일 경우에도 OR이 더 높게 나왔다.

 

하지만 familial aggregation의 특성이 모두 genetic etiology를 의미하는 것은 아니다.

가족끼리는 환경적인 요인도 공유하기 때문에, genetic factor의 증거를 제시하는 것은 family study에서 중요하다.

 

 

그 다음 연구의 프로세스는 twin study이다.

monozygotic (MZ) twin (일란성 쌍둥이)이 diztgotic (DZ) twin (이란성 쌍둥이) 보다 correlation이 더 높다.

때문에 유전적 영향이 있다면, MZ와 DZ가 다른 concordance를 보일것이다.

위 표를 본다면 알츠하이머 같은 경우는 MZ에서 concordance value가 더 높게 나온다.

이는 알츠하이머가 보다 유전적인 특성을 가진 질병이라는 것을 암시한다.

 

 

 

앞서 1주차에서 phenotype에 영향을 미치는 genotype을 분석하는 것이 연관분석이라고 언급한 적이 있다.

하지만 Phenotype에는 genotype 뿐만 아니라 environmental factor도 있다.

Phenotype의 전체 변동성은 genotype 변동성 + 환경적 변동성 이다.

이는 위의 식과 같다.

 

Heritability (유전가능성)은 큰 범주로는 Broad sense heritability이 있고 작게는 Narrow sense heritability가 있다.

Broad sense heritability는 H^2로 전체 phenotype 변동성에서 inherited genetic variants 변동성의 비율을 나타낸다.

Narrow sense heritability는 h^2로 inherited genetic variants 중 additive effect만 고려한 것이다.

 

twin based 추정에서의 h^2는 mz의 correlation과 dz의 correlation의 차이의 2를 곱한 값으로 구할 수 있다.

또한 최근에는 GWAS 어레이 데이터에서부터 heritability를 계산하기 위해 SNP-heritability라는 h^2(g)의 공식을 위와 같이 만들어냈다.

GWAS는 twin study와 다르기 때문에 SNP를 활용하여 구하는 것이다.

 

 

지금까지는 genetic으로 나타나는 trait을 평가하는 방법에 대해서 이야기한것이다.

 

 

그렇다면 어떤 유전자에 의한 것이지는 어떻게 분석할까??

먼저 Linkage 분석이라는 것이 있다.

 

그 전에 Genetic marker라는 개념을 알아야한다.

Genetic marker는 지도상의 랜드마크라고 생각하면 편하다.

예를 들어, 경복궁이 질병을 일으키는 유전자 변이(causal variant)라고 했을때, 강남역에서 경복궁을 찾아갈때 걸어가는 방법과 지하철을 타고 가는 방법이 있다.

 

걸어가는 방법은 whole genome 을 모두 분석하는 방법과 비슷하다. 이는 시간도 오래걸리고 어디로 가야하는지도 어렵고 비용도 많이 들지만, 걸어가는 도중에 남산타워라는 몰랐던 랜드마크도 볼수도 있고 한강도 보고 하는 장점도 있다.

 

지하철 타고 가는 방법은 causal variant와 위치상 매우 가깝고 긴밀한 유전자 마커로서, 경복궁에서 내려서 조금만 둘러보면 경복궁을 찾을 수 있는 것과 같다.

 

 

Linkage mapping과 association mapping은 지엽적이냐 글로벌하냐 이렇게 생각할 수 있다.

Linkage mapping은 famailier하고 monogenic한 질병을 찾는데 특화되어 있는 반면,

association mapping은 집단 연구로, polygenic한 질병을 찾는데 특화되어 있다.

 

 

 

한편, 멘델의 법칙 중 하나의 유전자는 하나의 특성에 관여한다는 독립의 법칙이 있다.

하지만 이것은 틀렸다. 왜 그럴까?

 

 

먼저 recombination 개념을 알아야한다.

 

recombination은 2주차에 배운 meiosis 2단계 과정에서 일어난다. (감수분열)

recombination은 상동염색체끼리 부분적인 유전자 교체를 의미한다.

이는 자연스럽게 일어나는게 정상이다.

이때는 부모와 같은 haplotype이 2가지가 생기고 다른게 2개가 생긴다.

그래서 recombination fraction 또는 recombination rate는 50퍼센트가 최대이다.

 

하지만 recombination이 발생하지 않으면, 부모와 똑같은 형태의 haplotype이 생겨난다.

보통 이 경우는 두 locus가 매우 가까이있으면 물리적으로 교차가 어렵다.

(나무젓가락을 짧게 잡고 뿌러트리려고 하면 잘 안 뿌러지는 것과 비슷한 맥락)

이를 co-segregation이라고 한다.

 

 

이게 Linkage 개념이다. 카드섞을때 같이 붙어있는 카드는 잘 안 섞이기 마련이다.

그래서 하나의 카드만 알면 그 붙어있는 카드를 알 수 있음.

그래서 멘델의 법칙은 각각의 locus는 각각 독립적으로 segregation 되는 것으로 생각했지만, 두 locus가 물리적으로 너무 가까운 경우 segregation이 안되는 것이다.

 

이 개념을 통해 유전자 거리를 측정할 수 있다.

recombination rate가 높다는 것은 그만큼 두 loci 사이의 거리가 멀다는 것이고,

recombination의 확률이 1%라면 거리는 1 centiMorgan(cM)으로 정의한다.

이를 이용해서 genetic map을 만든다.

실제 거리와는 차이가 있을수있지만, 비율적으로는 거의 맞다.

cM는 실제로 1.15Mbp[메가베이스페어]에 해당한다.

 

그럼 Mbp를 쓰면 되지 cM은 왜 쓰는가?

-> GWAS 연구할때 기본적으로 인풋파일에 phygical distance와 genetic distance 쓰는 란이 있다.

(베이스페어가 어느정도 길이..?)

 

 

결국,Linkage ananlysis에서 그 질환 원인 유전자 하나를 찾기 위해서 genetic marker를 쓰는데,

그 genetic marker가 질병 locus와 매우 가까이 있어서 그 질환과 cosegregation 되는 marker라면, 그 마커 근처에 찾고자하는 원인 유전자가 있다는 뜻이다.

 

위 그림에서 부모가 안 가진 하플로타입이 자식에게 있으면 recombination이 일어난 것이고, 그림에서는 2/7가 리콤비네이션 레이트다.

 

 

위 그림에서 phase-known은 A1가 원인 유전자인 것을 아는 것.

phase-unkown은 원인 유전자를 모르는 상태. 이때는 recombinant 에 가설을 세움. 어디서 기원했는지 모르기 때문에.

A1가 recombinant 일때랑 A2가 recombinant 일때 경우를 따져서 연구함.

(한편, 제네틱 마커는 시대에 따라 다양한 종류가 쓰였음.)

 

 

결국 likage의 여부는 통계적으로 판단한다.

recombination rate의 계산을 왜 하냐면, linkage 분석을 해서 어떤 마커 로커스를 찾았으면, 실제로 질병 로커스랑 긴밀히 연관됐는지 통계적으로 보기 위해서고, LOD score로 판단한다.

위 공식으로 계산할수있고 통계프로그램이 알아서 해준다. 

대충 살펴보면 log likelihood ratio로 Z score를 구한다.

 

링키지 분석의 특징은 한두개 정도의 loci의 상대적인 위치를 분석하기 위해 한다는 것이다.

 

 

반면 sequencing은 직접적으로 병인 유전자를 탐지하는데 사용한다.

 

사족으로, likage 분석은 최근에는 사장길에 들어섰는데, 그 이유는 시퀀싱 때문.

common variant가 알려진 Database가 있는데, rare disease의 원인은 보통 이런 common variant가 아니다.

그럼 일단 common variant를 쳐내고, 가족 데이터가 있으면 질환에 안 걸린 가족의 candidate는 쳐내고, 걸린 가족 것은 남기고 등등 하면서 sequencing을 하면서 하면 찾을 수 있기 때문이다.

그래서 희귀질환연구는 시퀀싱 데이터로 해결이 된다.

 

또한, 가족연구의 장점은 phenocopy를 알 수 있다는 것. phenocopy는 유전질환은 아닌데 가족내에서 유전질환처럼 보이는 것이다. 이는 환경요인으로 파악할 수 있다.

 

Linkage 분석은 분석방법으로는 안 써도 그 개념은 계속 쓰인다.

질환 원인 유전자가 complex disease 인 경우, 그에 관여하는 원인 유전자들을 그래도 marker로 근처까지 가보겠다는데 연관연구이기 때문이다.

 

 

 

연관연구, Association study는 무엇일까?

좌측 그림처럼 T 얼릴이 많을수록 phenotype의 경향성이 보일수록 T 얼릴이 해당 피노타입과 연관이 있다는 것이다.

 

 

 

 

 

 

 

 

 

연관연구는 population 연구다. 여기에 가족이 들어가면 안되는 것은 아니지만 좀 그렇다고 한다.

Linkage 분석에서의 genetic language 가족과 개인 수준의 DNA 시퀀스임. 염기서열 하나하나.

한편, population genetics의 genetic language는 하나하나의 염기서열이 아니라, 그 population에 얼마나 많이 관찰되는지 allele frequency에 대한 내용이다.

한편, 이 연구에서는 집단별 특이성이 나타나는 경우, (예를 들면 인종간의 유전적 차이) 특정 유전자에 대한 프리퀀시가 나타나는 경우가 있다. 이를 고려해야한다.

 

 

 

분석에서는 여기가 핵심이다.

 

haplotype은 한 부모로부터온 염색체(paternal or maternal)이고, 이는 이중나선구조로 상보서열이기 때문에 한쪽면만 알아도 반대서열을 알 수 있어서 한쪽면만 사용하고, 

genotype은 diplotype(엄마것, 아빠것 모두) 두개(paternal and maternal)를 같이 읽어야한다.

항상 모든 유전체 데이터는 이 genotype형태로 존재한다.

 

 

allele frequency는 위와 같이 계산한다.

우측 상단 그림에서 SNP4의 G 얼릴의 frequency는 87.5%이다.

한 명당 하나의 SNP은 2개의 얼릴을 가지고, 프리퀀시는 모든 얼릴을 다 센다.

아래를 보면 보다 정확히 이해할 수 있다.

 

 

variant는 allele이다. allele로 접근해서 테이블을 만들어야한다.

그걸 바탕으로 frequency를 계산하여 카이제곱검정하여 유의성을 확인한다.

상관성이 없다는 것이 귀무가설.

아래와 같이 피어슨 카이제곱 검정을 수행한다.

 

그 유의하다고 나오면, 아래와 같이 하나의 allele에 대한 OR를 계산한다.

 

 

 

HWE는 allele frequency가 세대를 거듭해도 항상 일정하다는 이론이다.

이는 키 큰 사람의 집단이 세대를 거듭할수록 무한정 키가 커지는 것이 아님을 말한다.

이 이론에는 일정한 가정이 있다.

큰 인구집단이어야하고, 무작위성이 있어야하며, 돌연변이가 없다는 등의 가정이다.

 

우측 표를 보면 세대가 지나도 일정한 allele frequency가 나타남을 볼 수 있다.

 

QC(quality control) 단계에서 HWE를 만족하는지 확인을 해야한다.

아래와 같이 체크할 수 있다.

유의수준이 굉장히 보수적이다. p-value < 0.000001

 

 

carrier frequency란 특성을 도미넌트하게 일으키는 유전자의 빈도이다.

HWE를 활용하여 이를 계산할 수 있다.

 

 

 

 

Confounder의 정의는 exposure와 outcome 모두에게 영향을 미치는 무언가를 의미한다.

outcome에 영향을 미치는 것은 많지만, exposure에는 거의 없다. 하지만 인종같은 경우는 그런 요인이 될 수 있다.

이런 식으로 bias가 들어가는게 genetic 연관분석에서 population stratificaiton이라고 한다.

이런걸 보정하는 문제가 아주 중요하다.

 

 

Linkage 분석와 연관분석을 한표로 비교하면 위와 같다.

 

 

 

유전자 후보군 연구를 하고 싶으면 위와 같은 것들을 생각해봐야 한다.

GWAS 카타로그를 보면 좋은 캔디데이트 유전자를 확인할 수 있다.

 

 

제네틱 마커는 주로 지노타이핑을 하는 것이다.

genotyping은 SNP 2개를 들고 있고, 답지(내 샘플)를 넣고 정답을 맞추는 것.

한두개만 할수있고, 패널을 짜서 100만개정도를 할 수 도 있다

 

이런 칩은 다양한 회사에서 시판되는데 회사마다 제네틱 맵이 다르다.

그 맵에는 GWAS에서 알려진 중요한 변이가 들어있다.

예전에는 기능 상관없이 전체 지놈을 커버하는 랜덤하게 100만개를 뽑아냈는데,

요즘에는 functional한 마커들이 많이 들어있다.

 

그래서 시퀀싱을 하지 않고, 이걸로 타이핑을 해도 우리가 알고싶은 질환의 후보군을 뽑아낼 수도 있다.

 

시퀀싱은 정답지 없이 단순히 읽는것이다.

이는 스크리닝을 가능하게한다.

 

 

유전체 연구는 양이 질을 좌우하고, 돈이 양을 좌우한다.

본인의 상황에 맞춰 어떤 연구를 할 것인지 정하면 된다.

 

 

예전에는 effect size와 allele frequency에 따라 연구설계가 명확히 나뉘었지만, 최근에는 서로의 장단점을 보완해주는 방향으로 상호보완적으로 사용되고 있다.

 

 

끝!

 

 

반응형
Comments