일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- MICCAI
- words encoding
- tabular
- precision #정밀도 #민감도 #sensitivity #특이도 #specifisity #F1 score #dice score #confusion matrix #recall #PR-AUC #ROC-AUC #PR curve #ROC curve #NPV #PPV
- non-parametric model
- Surgical video analysis
- Phase recognition
- deep learning #segmentation #sementic #pytorch #UNETR #transformer #UNET #3D #3D medical image
- monai
- 비모수적 모델
- 유전역학
- 확산텐서영상
- 확산강조영상
- nibabel
- parrec
- 파이썬
- decorater
- nlp
- parametric model
- paper review
- genetic epidemiology
- PYTHON
- 데코레이터
- 코드오류
- TeCNO
- parer review
- nfiti
- 모수적 모델
- MRI
- TabNet
- Today
- Total
목록전체 글 (54)
KimbgAI
참 오랜만에 하는 논문 리뷰네요ㅎㅎ TabNet은 Google Cloud AI팀에서 2021년 AAAI에 발표한 모델로 고성능, 고해석성을 가지고 있는 딥러닝 모델. 표 형식 데이터(tabular data)에 강점을 가지고 있는 모델임. 관련 논문은 아래 링크 참고!https://arxiv.org/pdf/1908.07442 TabNet은 tabular data를 학습하기 위한 새로운 딥러닝 아키텍처 (오른쪽 그림)순차적인 어텐션 구조를 바탕으로 해석력과 효율적인 학습을 가능하게 하고, 더불어 자기지도학습 방법을 적용해서 성능을 향상시킬 수 도있음. 텝넷은 Feature Transformer 블럭과 Attention Transformer 블럭으로 구성되어있고, 이러한 구조가 여러 개의 스텝을 통해 반..
본 리뷰는 아래 유투브 링크에 실린 이진원 님의 페이퍼 리뷰를 바탕으로 개인적으로 공부하기 위해 제작되었습니다.https://www.youtube.com/watch?v=mtUa3AAxPNQ&t=1463s 레즈넷의 저자인 카이밍허가 1저자로 참여한 논문FAIR에서 2021년 11월에 발표함. 논문에서 말하고자하는 것은 아래 이미지가 전부임이미지에 마스크를 씌워놓고 이를 복원하는 과정에서 모델을 사전학습하겠다는 것. 인트로던션딥러닝 모델의 capablility와 capacity가 커짐으로써 백만장 정도의 이미지는 쉽게 오버피팅이 되기 때문에 더 많은 데이터가 필요로 하게 됨. NLP 쪽에서는 이를 self-supervised pretraining 방법을 통해 다루었음.그래서 GPT나 BERT같은 모델들이..
생존분석을 공부하다가 '파라메트릭' 모형, '비파라메트릭' 모형과 같은 개념이 등장했다.단순하게 parameter가 있는 모델이겠니~, 학습이 되는 모델이구나~ 생각하고 넘겼으나, 그것과는 다른 개념이었다. 결론부터 말하자면,'데이터가 특정 분포를 따른다는 가정의 유무'로 나뉜다.즉, 어떤 모델이 데이터가 특정 분포를 따른다는 가정이 있다면 parametric model, 아니면 non-parametric model이다. 예를들면,선형 회귀 모델에서 우리는 데이터가 '선형 관계'를 가진다고 가정하고, 기울기와 절편이라는 두개의 파라미터를 추정한다.이는 모형의 구조가 고정되어 있고, 소수의 파라미터로 그 분포를 정의하는 것이다.이는 정규분포, 포아송분포, 이항분포 등의 형태를 가정할 수 있음!다른 모델..
이 논문은 수술 영상의 phase를 recognition을 하기 위한 연구로 2020년에 MICCAI에 기재됐다. https://link.springer.com/chapter/10.1007/978-3-030-59716-0_33 개인적으로 surgical video analysis 중 phase recognition 연구의 milestone으로 생각한다. 비교적 적용하기 간단하고 이해도 어렵지 않기 때문이다. Introduction 본 연구는 복강경 수술 비디오를 분석하여, 해당 프레임이 전체 수술 phase 중 어느 phase에 해당하는지 분류하는 연구를 진행함. Surgical workflow analysis는 환자의 안전을 증진하고, 수술 에러를 줄이고, 수술실에서 의사소통을 최적화하는데 도움을 줄 ..
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018). 2018년에 구글에서 발표된 너무나도 유명하고 NLP 공부할때 milestone이 되는 모델이다. 시작해보자. 개요 언어모델을 개발할때 양질의 pre-trained word representation을 사용하는 것은 매우 중요함. 왜? 좋은 word representation은 down-stream tas..
이 내용은 유투브 허민석님의 자료를 공부하며 정리하기 위해 작성된 내용임을 밝힙니다. https://www.youtube.com/@TheEasyoung bag of words 란? 단어는 머신러닝 모델에 입력으로 사용하기 위해 숫자로 변환되어야함. 이를 위한 다양한 방법들이 있는데, 그 중 가장 기초적인 것이 바로 bag of words 라는 것으로 굉장히 심플하다. 전체 데이터셋에서 나타나는 모든 단어 기반으로 임의의 문장을 원핫인코딩(one-hot encoding)하여 나타낸 것. 가령, 아래와 같이 나타내는 것이다. 전체 데이터셋에서 나타나는 각각의 유니크한 문자들을 나열하고, 어떤 문장을 이루는 단어들이 해당 문장에 몇번 나타났는지 표기하는 것이다. 이로써 다른 문장들과의 유사성도 계산할 수 있다..
도무지 이해가 안가는 경우였다. monia의 DiceMetric를 사용하던 중 y에 label을 넣고 y_pred에 model의 output을 넣는데 계산이 이상하게 나왔던 것. 더 이상했던 것은 y에 model의 output을 넣고, y_pred에 label을 넣으니 제대로 작동하더라는 것이다. 두 눈을 의심하고 코드를 뜯어봐도 결과는 마찬가지였다. 기존에는 동일한 코드로 잘만 사용했었는데 말이다. 해결한 결과부터 말하면, 1. output을 argmax 해야했음 2. 이제서야 문제가 밝혀는 까닭은 기존에 사용했던 monai 버전과 달라서 그랬던 것. (기존에는 1.0.0 사용, 현재는 1.3.0 사용) 현상을 살펴보면.. 각각 target, output, scratch 을 시각화면 아래와 같다. im..
파이썬으로 ParRec 파일을 nifti 파일로 변환하는 코드 import nibabel as nib par_path = '/data/2030/BrainMRI/Dataset/Sample/DTI_sample.PAR' nifti_path = '/data/2030/BrainMRI/Dataset/Sample/DTI_sample.nii.gz' img = nib.load(par_path) nifti = nib.Nifti1Image(img.dataobj, img.affine, header=img.header) nifti.set_data_dtype('
오랜만에 포스팅이네요. 그간 하루하루 일에 치이다보니 글을 쓸 여력없었는데, 다시 열심히 포스팅을 할까 합니다. 작년 5월이 마지막 포스팅이었는데, 그동안 경험하고 저를 성장시킨 내용들을 하나하나씩 정리해야겠습니다. 포스팅은 하지 않았지만, 제가 작성했던 내용을 보기 위해 종종 들어오긴 했거든요. 과거의 저에게 도움을 받을 일이 생각보다 많더랍니다. 그럴때마다 다시 포스팅을 시작해야겠다고 다짐하고서는, 이제야 글을 쓰게 되네요. 별볼일 없는 내용임에도, 생각보다 많은 분들이 찾아주셔서 감사하고 신기하더라구요. 2024년 올해 목표는 애드센스로 수익 창출! (작년에도 같은 목표였다는..) 그러면 좋겠지만, 달성하지 못하더라도 공부하고 익힌 내용들을 꾸준히 정리해나가는 것을 진정한 목표로 삼습니다. 그럼 올..
2년 전인가.. 개인용 딥러닝 서버를 구축했을때 4TB 정도면 넉넉히 잘 쓸줄 알았는데, 1년 정도 쓰니 중간중간 관리를 안해주면 금방 찰 것 같았다.. 근데 최근에 데이터를 무진장 많이 받을 일이 있어서 도저히 4테라로는 감당이 안돼서 8테라를 추가로 구입했음! 아무튼 연결하는 방법은 아래 순서와 같다. 1. 당연하겠지만 먼저 물리적으로 HDD를 컴퓨터에 연결 - 전원을 끄고 연결하기를 추천.. 2. 컴퓨터를 켜고 디스크가 감지되었는지 확인해야함. - 아래 명령어를 통해 확인할 수 있고, sudo fdisk -l'/dev/sdX' 와 같은 형식으로 표시된다. 3. (옵션사항) 파티셔닝 단계파티셔닝은 안해도 된다. ChatGPT의 파티셔닝 설명 " 파티셔닝은 하드 디스크를 논리적인 섹션으로 나누는 작업입..
이번 내용은 지난 8주차까지 배운 내용을 기반으로 해서, 질병 위험률을 예측해서 예방에 활용하고자 하는 내용이다. 질환과 관련된 변이들이 이렇게나 많이 보고가 되고 있는데, 무얼 더 찾기보다는 실제로 이런 것들을 활용해서 질병 예측을 해보자 하는 것이 본 주제이다. 이런 근거를 가지고 실제로 에측을 해보았을때 어느정도 예측할 수 있더라 하는 것이 결론이다. precision medicine 이라는 용어는 기존에 질병이라는 것에 대한 접근을 환자 또는 인구집단의 유전적 정보를 이용해서 질환을 다시 정의하고, 치료하고, 예측하고, 예방하는데 활용하겠다 하는 것이다. 암과 같은 경우에는 유전자 변이에 역할이 분명하고, 그것을 어떻게 처리하느냐에 따라 나오는 아웃컴이 명확하다. 하지만 complex diseas..
암은 원칙적으로 유전학에서 정의하는 inheritance trait이 아니기 때문에 일반적인 유전학 범위에는 들어가진 않는다. 오늘 배울 것은 위와 같다. 종양이란 무엇이고, 셀 사이클이라는 개념이 나오는데 이건 무엇이고, 암은 inherited하지 않은데 어째서 genetic하다는 것인지?, driver & passenger mutation이 무엇인지 등등.. cancer에 정의에 앞서 먼저 tumor에 대한 정의가 필요하다. 모든 cell은 stem cell에서 시작하고 각각의 기능에 맞는 specialized cell이 되도록 분화된다. tumor라고 하는것은 이런 specialized cell이 되는 일련의 과정 속에 어떤 문제가 생겨서 그 단계에 도달하지 못하는 상태, 또는 그 상태에서 비정상적..
유전자 변이 명명법을 영어로 하면 variants nomenclature이다. 유전자 연구의 목적은 이 변이를 찾는 것인데, 이 변이에 대한 명명법이 논문마다 제각각이었기 때문에 이를 표준화할 필요가 있었다. 같은 변이인데 다른 이름으로 불러 다른 것인줄 알았다던지.. 위 그림은 성경에 나오는 바벨탑 그림이다. 인간이 신에게 가깝게 가기 위하여 탑을 쌓는데, 신이 노하여 함께 일하는 사람들의 언어를 다르게 만들었다는 이야기가 있다. 이처럼 부르는 언어가 다르면 바벨탑이라는 유전자 공동 연구에 한계가 있는 것과 같은 맥락이다. 특히나 의료현장에 사용되는 언어는 '생명의 비가역성'이라는 개념 때문에 더 중요하다. 어떤 변이로 인해 어떤 테라피를 진행했는데, 그게 잘못되어 생명에 지장을 줄 수 있다면 그건 되..
지난 시간에 NGS에 대해 배웠다. NGS는 단지 시퀀싱하는 기술 그 자체이고, 이번에 알아야할 것은 시퀀싱한 그 정보를 어떻게 분석을 할것이냐 하는 것이다. chip array를 가지고 하던지, 생어시퀀서로 하던지, NGS로 하던지 간에 우리가 받는 데이터는 diplotype의 genotype data이다. 무엇을 하던간에 질환과의 연관분석을 하기 위해서는 이 genotype data를 가지고 살펴보면 된다. 그럼 NGS 분석이라는 것은 무엇이냐? 연관분석을 하기 전의 '데이터 전처리' 단계라고 생각하면 된다. DNA조각들을 가지고 시퀀싱을 하게 되면, 우리가 알고있는건 단지 그 DNA 조각들(read)의 정보 뿐이다. 이것들을 통합하고 분석하는 과정이 필요하다. chip array 데이터는 이렇게 복..
5주차로써 전반적인 유전역학개론의 수업 절반이 지났다. 벌써? ㅎㄷㄷ 유전체 시퀀싱 기술은 말 그대로 ATGC라는 염기서열을 읽는 기술이다. 시간에 따라 기술발전이 엄청나게 이루워졌고, 유전역학의 발달은 기술의 발달과 늘 맥락을 같이한다. 저번 시간에 배운 genotyping은 genetic marker를 쓰기때문에 염기서열의 연속성이 없다. 하지만 시퀀싱은 하나하나 염기서열의 연속성을 가지고 읽을 수 있다. 하지만 현재 기술로는 통째로 30억개의 염기서열을 다 읽을 수가 없기 때문에 조각조각 정보만 잘라서 시퀀싱을 할 수 있다. 이걸 read 라고 한다. 보통 100bp에서 20kp(100개에서 2만개)를 읽고, 이를 다시 통합하여 하나의 DNA 정보 구성한다. 순차적 시퀀싱을 하는게 기본인데 high..
GWAS를 설명하기 위해 지난 3주차까지 개념을 익힌거라고 봐도 될만큼 이번 학기 중 어떤 한 축이되는 강의이다. 이번주는 실제 논문을 읽고 할때 도움이 되는 개념들을 많이 익힐 것이다. 계속 보여지는 슬라이드인데, Phenotype에 대한 genotype의 연관성을 보는 것이 연관 분석이고, SNP 하나만 보는 것이 아니라 매우 많은 SNP을 가지고 연관분석하는 것이 GWAS의 개념이다. Outcome에는 Phenotype 뿐만 아니라 RNA expressure 과 같은 다양한 것들이 들어갈 수 있다. 그렇다면, Genotype에 들어갈수있는 데이터는 무엇이 있느냐? 대게 위의 4가지 정도이다. 가장 많이 사용되는 것이 GWAS Microarray이다. SNP 마커, 약 100만개의 genetic ma..
git으로 코드를 공유하기 위해, 누군가 private repository를 만들어 나를 초대했다. 나의 local에 저 repository를 연결하여 사용하는 법을 알아보자 그냥 $git clone [해당 repository 주소] 를 하면 될줄알았지만,, 당연히 안된다. 왜냐하면 git서버에서 내가 누군지 모르는데 private repository에 접근이 가능할리가! 이를 해결하기 위한 순서는 대충 아래와 같다. 1. git 접속을 위한 SSH key 만들기 2. clone 1. git 접속을 위한 SSH key 만들기 깃허브에 가서 setting에 들어가고, SSH and GPG keys에 들어가면, SSH keys를 등록하는 곳이 나온다. 앞서 SSH key를 생성해야하는데, https://it..
이번주 수업은 Study design in genetic epidemiology, 즉 유전역학 연구 설계 방법이다. 3주차밖에 되지 않았지만, 뭔가 상당한 양의 정보가 머릿속을 헤집어놓는 기분이네요. 유전역학 연구의 프로세스는 보통 위 그림과 같다. 질환의 성격이 무엇인지, 가족력이 있는지, 유전적인 영향의 증거가 있는지 등등.. 그 아래에 있는 내용은 해당 프로세스에서 사용했던 방법들이다. 회색박스는 과거에는 많이 사용했던 방법론들 이지만 현재는 거의 사용하지 않는다. 사용하는 것은 아니지만, 개념이 사라진것은 아니고 지금도 사용하기 때문에 알아둘 필요가 있다. 오늘 3주차에는 이런 배경지식을 바탕으로 연구설계에 대한 내용을 정리할 것이다. 한국에서의 가족관계는 촌수로 나타내고, 유전학에서도 비슷한 개..
지난 수업은 유전체 역학 연구의 개요에 대한 내용이었고, 이번 수업은 기초유전학에 대한 내용이다. 지난 시간에 다뤘던 내용처럼, Traits은 Phenotype + Genotype으로 결정된다.유전학 연구의 history를 보면, 1990~2003년 사이에 폭발적인 연구 성장이 이루어졌음을 알 수 있다. 이는 genome project 연구가 완성된 2003년과 맥락을 같이한다. 사람의 몸은 약 50조개의 세포가 있다고 한다. 모든 세포는 genome 카피본을 2개씩 가지고 있고, 각각 세포는 그들이 보유한 유전자 중 오직 몇개의 것에 의해 그 형태와 활동이 달라진다. 위 그림을 보면, 세포 안에는 미토콘드리아, 핵 등이 있고, 핵 안에는 염색체(chromosomes)이 있다. (염색체가 왜 염색체냐하면..
* 주의: 이 글은 수업 내용을 제 나름대로 정리하기 위해 작성한 글입니다. 따라서, 저의 이해를 바탕으로 작성되었기 때문에 부정확한 내용이 있을 수 있습니다. 또한, 정리가 엉망진창일 수 있습니다.. 하하;; 디지털헬스학 이라는 학문을 대학원에서 공부하면서, 대학원의 강의는 일반적으로 수업의 난이도를 스스로 조정할 수 있다는 점에서 함정이 있는 것 같습니다. 디지털헬스학을 대학원에서 전공하시는 동문들을 보면, 그 출신이 굉장히 각양각색인데, 학사 전공이 석사 전공과는 아무 상관이 없는 '경제학'을 전공한 괴짜인 저부터해서 보건, 의료, 의학을 전공하신 진골(?)분들도 있습니다. 아무래도 융합학문의 특성인지라.. 그래서 전공 수업들도 자신이 잘 알고 자신있는 수업을 선택해서 고른다면, 그 학기의 시간적 ..