KimbgAI

[PR] TabNet(2021, AAAI) 논문 리뷰 (파헤치기)

KimbgAI — Thu, 24 Oct 2024 12:31:28 +0900

참 오랜만에 하는 논문 리뷰네요ㅎㅎ

TabNet은 Google Cloud AI팀에서 2021년 AAAI에 발표한 모델로 고성능, 고해석성을 가지고 있는 딥러닝 모델.

표 형식 데이터(tabular data)에 강점을 가지고 있는 모델임.

Introduction

논문의 저자들은,

DNN은 이미지, 텍스트, 오디오와 같은 데이터에서는 좋은 성능을 보여주었지만, tabular 데이터 분야에서는 그만큼의 성능을 보여주지 못했고, 여전히 decision tree 계열의 모델들이 주로 사용되고 있다고 함.

그러한 이유로 여러가지를 들고 있는데,

첫번째로,

decision tree는 복잡한 데이터를 여러 개의 단순한 기준으로 나눠서 처리하는 데 효율적이라는 것임.

트리 모델은 데이터 공간을 반복적으로 이분법적으로 분할하여 각 노드에서 특정 feature를 특정 cutoff로 데이터를 나눔. 이 과정에서 각 분할은 매우 명확한 경계, hyperplane를 생성하며, 결과적으로 트리 모델은 계층적이고 명확한 결정 경계를 형성하게 됨.

그렇기 때문에 트리 모델은 상대적으로 간단한 구조를 가지며, 각 분할은 특정 feature의 특정 cutoff에 기반하므로 해석이 용이함.

hyperplane의 단순성과 해석 가능성은 트리 모델이 명확한 decison manifold 형성하는 데 도움이 됨.

(데이터를 나누는 기준이 되는 선을 hyperplane, 데이터가 분포해있는 공간을 decision manifold라고 함)

반면에, 딥러닝 모델은 고차원 공간에서 매우 복잡하게 학습하기 때문에 해석하기도 어렵고 쉽게 오버피팅됨.

두번째로는, (아까랑 좀 겹치는데)

decision tree는 해석 가능하다는 장점임.

decision node를 통해 어떤 식으로 결정을 내렸는지를 쉽게 이해할 수 있고, 사후 설명 가능한 방법들도 많이 개발되어 있음.

세번째로는 학습 속도가 빠르다는 점.

마지막으로,

DNN은 과도한 파라미터화와 적절한 inductive bias 의 부족으로 인해 tabular 데이터에 적합하지 않다고 함.

(inductive bias란, 머신러닝이나 딥러닝 모델이 데이터의 특징을 잘 일반화할 수 있도록 해주는 모델이 사전에 가진 가정이나 편향을 의미함. 예를 들면, CNN은 이미지의 작은 부분(패치) 단위로 특징을 추출하기 위해 설계되었고, RNN은 시간에 따라 순차적으로 입력되는 데이터의 특징을 학습할 수 있도록 만들어졌다는 것.)

그럼에도 불구하고 Tabular 데이터에 딥러닝이 필요한 이유는 다음과 같음.

첫번째로, 대규모 데이터셋에서 성능 향상이 기대되기 때문임.

딥러닝 모델은 데이터가 많을수록 더 많은 패턴과 데이터들간의 관계를 학습하기에 용이함.

두번째로, 딥러닝 모델은 이미지, 텍스트, 시계열 데이터와 같은 다양한 데이터 타입을 tabular 데이터와 함께 효율적으로 학습할 수 있다는 장점이 있음.

(즉, 멀티모달리티 기반 모델링에 아주 용이하다는 것)

세번째로는, 실시간으로 들어오는 데이터로부터 지속적으로 학습이 가능한 것.

이는 실시간 분석과 예측이 중요한 분야에서 매우 유용하게 사용될 수 있음..

마지막으로, end-to-end 모델은 representation learning이 가능함.

data-efficient domain adaptation, generative modeling, semi-supervised learning 과 같은..

(representation learning이란 모델이 데이터의 중요한 패턴과 구조를 스스로 찾아내는 것)

이 논문에서는 TabNet이라는 tabular data를 위한 새로운 딥러닝 아키텍처를 제안함.

특징으로는,

Sequential Attention 메커니즘 사용

instance wise feature selection : 데이터 개별적인 특징 선택

Interpretable decision making: 해석성

다양한 도메인의 tabular 데이터셋에서 뛰어난 성능

self supervised learning 으로 성능 향상

Method

TabNet의 아키텍처에 대해 좀 더 자세하게 살펴보자면,

TabNet 아키텍처는 feature transformer 블럭과 attentive transformer 블럭이 여러번의 step으로 반복되며 특징을 추출하는 구조임.

하나하나 살펴보면,

입력된 데이터(Features)는 BN(Batch Normalization, 초록색 박스)을 거쳐서 Feature Transformer 블록에서 특징을 추출함.

이후 Attention Transformer 블록을 통해 mask를 생성하는데, 이 마스크는 해당 step에서 사용할 변수들의 중요도를 산출하고, 마스크는 입력과 곱해져서 해당 스텝의 feature transformer 블록으로 입력됨.

이러한 과정이 sequential 하게 반복되면서 학습이 진행됨.

한편, split 블럭에서는,

현재 스텝에서 바로 예측에 사용되는 부분과, Attentive transformer 블럭으로 전달돼서 중요한 특징을 결정하게 됨.

이 split 블럭도 역시 학습되는 영역임.

우선, 핵심인 Feature transformer 블럭과 Attentive transformer 블럭을 자세하게 살펴 보겠음.

먼저, Feature Transformer 블럭은 다시 크게 두가지 section으로 나뉘는데,

shared across decision step 블럭은 모든 decision step에서 공유되는 블럭이고,

decision step dependent 블럭은 해당 decision step에만 적용되는 블록임.

그래서 Shared 블럭에서는 모든 스텝에서 파라미터를 공유하여 전체 네트워크의 global한 특징을 학습하고,

dependent 블럭에서는 각각의 스텝에서만 사용되며 local한 특징을 학습할 수 있는 블럭임.

각 섹션은 FC layer, BN, GLU(Gated Linear Unit)이 결합된 네트워크 블럭을 두개씩 가지고 있음.

여기서 사용된 BN은 ghost Batch Normalization으로,

large batch를 사용할때 흔히 발생되는 local minima 문제를 해결하기 위해 사용됨.

(GLU는 gated linear unit으로 input이 들어오면 두 개의 1d convolution branch로 나눠지고 하나는 그대로 전달되지만 다른 하나의 branch는 sigmoid 함수를 통해 확률값으로 나타내어 일종의 feature importance scoring 역할을 하고 이 feature score의 연산을 통해 최종 output을 출력함)

이제 Attentive transformer 블럭을 살펴보겠음.

Attentive transformer는 feature의 중요도 mask를 생성하기 위한 블럭이라고 보면 되고, 비교적 간단하게 구성되어있음.

Attentive transformer 블럭은 Feature transformer의 output 중 split된 일부분을 입력으로 받고,

FC와 BN을 거친 후 prior scales라는 값을 곱해줌. (이 prior scales는 뒤에 다시 설명하겠음.)

그 후 sparsemax 거쳐서 해당 스텝에서의 마스크를 생성함.

(sparsemax는 softmax와 유사하지만, 출력값 중 일부를 0으로 만들어서, 해당 스텝에서 중요하지 않은 feature는 0으로 연산되게끔 함)

prior scales 라는 것은

특정 feature가 이전 단계에서 얼마나 사용되었는지에 대한 정보를 담고 있어서,

이전 단계에서 과도하게 중복되어 사용된 변수들을 조정하는 역할을 함.

이를 통해, 이전 단계에서 많이 사용된 특성의 중요도를 낮추어, 새로운 특성들이 선택될 수 있도록 조정함,

이는 다양한 feature를 학습할 수 있게 하며,

특정 feature에 지나치게 의존하게 하지 않도록 하게 해서 overfitting을 방지하고,

각 단계에서 새로운 특성을 학습하게 하여 학습 효율성을 향상시킴.

이는 텝넷의 sequential attention 매커니즘에서 중요한 역할을 하게 됨.

Attentive transformer를 통해 마스크가 생성되는 과정을 수식을 통해 살펴보면,

M[i] = i번째 스텝의 마스크.

첫번째 빨간 박스 p[i-1] = 직전 스텝의 prior scale.

hi는 attentive transformer의 FC & BN 레이어

a[i−1]는 직전 스텝의 feature transformer 및 split 이후의 output

즉, 현재 스텝의 마스크는 직전 스텝의 prior scale이 고려되어 생성됨.

prior scale은 현재까지 생성된 마스크들의 곱으로 계산되는데,

여기서 감마는 하이퍼파라미터로써 증가할수록 해당 변수가 여러 스텝에 결쳐 사용될 수 있음을 의미함.

즉, 감마는 여러 단계에서 특정 변수가 너무 많이 사용 되지 않도록 조절하는 역할을 함.

아래 그림은 이 sequential attention 메커니즘이 어떻게 동작하는지를 보여주는 예시인데,

만약 빨간 박스와 같이 mask가 되어있다면,

첫번째 스텝에서는 x1 첫번째 변수만 사용하고

두번째 변수에서는 x2 두번째 변수만 사용하게 된다는 것을 의미함.

이는 step별로 중요한 feature들을 선택해 집중하는 sequential attention의 특징을 나타냄.

이러한 과정은 decision tree와 유사한 decision manifold를 형성함.

(decision manifold : 데이터를 분류하거나 예측하기 위해 특정 기준에 따라 데이터를 나누는 경계선)

우측 상단의 그림은 TabNet의 decision manifold이고,

우측 하단의 다이어그램은 Decision Tree의 decision node인데,

각 변수에 대해 독립적으로 경계를 설정하여 데이터 공간을 분할하여 decision manifold를 구성하고 있음.

죽, TabNet이 Decision Tree와 비슷한 decision boundary가 형성되는 것을 볼 수 있음.

아래 그림은 TabNet의 전체적인 학습 과정에서의 각 단계별 feature selection을 시각적으로 보여주는 예시임.

마스크가 semantic한 정보를 담을 수 있다는 것을 보여줌.

예를 들어 그림에서,

첫번째 스텝에서는 직업 관련 feature가 같이 묶여서 선택되고, (feature들간의 거리가 있더라도)

두번째 스텝에서는 투자 관련 feature가 같이 묶여서 선택됨.

그 아래에 있는 그림은 학습된 TabNet의 mask를 시각화한 것임.

세로는 각 데이터 instance를 의미하고 가로는 column을 의미하는데,

밝으면 밝을 수록 높은값 즉, 중요한 feature라는 것을 의미함.

각 마스크마다 중요한 변수들이 서로 다르게 나타나는 것을 볼 수 있고,

맨 왼쪽의 Mask aggregation은 전체 단계에서의 마스크를 합산한 결과로, 모델이 어떤 특징에 주로 집중했는지를 나타냄.

첫번째 데이터셋의 결과는 중요하지 않은 특성에 대해 거의 모두 0을 할당되어, 중요한 특성에만 집중하는 tabnet의 특징을 보여주고,

두번째 데이셋의 결과는 instance 별로 서로 다른 feature를 selection을 하는 tabnet의 특징을 확인할 수 있음.

다음은 TabNet의 또 다른 특징인 self supervised learning의 적용임.

Tabnet은 self supervised learning 을 통한 성능 향상을 시도했음.

원본 데이터를 마스킹하고 이를 복원하는 masked auto encoder 기반 방법을 적용함.

인코더와 디코더 구조는 아래 그림과 같음.

이 self supervised learning은 모델의 성능을 향상시키고, tabular data 특성상 누락된 데이터가 많은데,

이러한 문제를 해결하는데 중요한 역할을 할 수 있음.

Results & Experiments

실험 결과를 보면,

합성 데이터셋(synthetic datasets)으로 평가함.

(합성 데이터셋은 모델의 성능을 평가하기 위해 임의로 만들어진 데이터셋임.)

synthetic dataset은 각각 다른 특성을 가지도록 생성되었는데,

예를 들어 Syn1 ~ Syn3은 모든 인스턴스에서 같은 feature(column)들이 중요하도록 만들어짐.

반면, Syn4 ~ Syn6은 인스턴스별로 중요한 특징들이 다르도록 설계됨.

따라서 Syn1 ~ Syn3은 모델이 중요한 특성을 잘 포착하는지 확인하기 위한 데이터셋이고,

Syn4 ~ Syn6은 모델이 instance-wise feature selection을 잘 수행하는지 확인하기 위한 데이터셋임.

그치만 TabNet의 성능이 항상 다 높게 나오지는 않음.

(INVASE와 비슷한듯..
다만, INVASE는 3개의 네트워크가 결합된 형태로 존재하는데, 각각의 네트워크는
1) 각 샘플에서 중요한 특징을 선택하는 Selector 네트워크,
2) 선택된 특징을 활용해 최종 예측을 수행하는 prediction 네트워크,
3) 선택된 특징이 예측 성능에 얼마나 기여하는지를 계산하고 비교할 수 있도록 하는 baseline 네트워크로 구성되어 있음.)

다음은 real world dataset에 대한 실험결과.

Table 2(multi-class)에서 사용된 데이터셋은 미국 콜로라도주의 루즈벨트 숲에서 수집된 데이터로, 토양, 고도, 경사도 등 다양한 환경적 특성을 기반으로 각 지역의 나무 종류를 분류하는 문제임.

결과: TabNet은 96.99%의 테스트 정확도를 기록하며, 다른 모델들보다 높은 성능을 보여줌

Table 3(multi-class)에서 사용된 데이터셋은 포커 핸드 게임의 카드 조합을 기반으로 각 핸드의 가치를 분류하는 문제임.

결과: TabNet은 99.2%의 테스트 정확도를 기록하며, 다른 모델들보다 월등히 높은 성능을 보여줌

Table 4(Regression)에서 사용된 데이터셋은 Sarcos 로봇팔의 관절 움직임을 예측하는 문제로, 로봇팔의 관절 위치, 속도, 가속도를 기반으로 각 관절의 힘을 예측해야함.

결과: TabNet-L은 0.14의 테스트 MSE로 가장 낮은 오류율을 보여주고 있음

Table 5 (binary)에서 사용된 데이터셋은 입자 물리학 실험에서 힉스 입자를 검출하는 문제로, 입자의 특성(에너지, 운동량 등)을 기반으로 입자의 존재 여부를 예측해야함.

결과: TabNet-M은 78.84%의 테스트 정확도로 가장 높은 성능.

Table 6 (Regression)에서 사용된 데이터셋은 로즈만이라는 독일 소매업체의 매출 데이터를 기반으로, 매장의 일별 매출을 예측하는 문제.

결과: TabNet은 485.12의 테스트 MSE로 가장 낮은 오류율을 보임.

다양한 real-world dataset에서 우수한 성능을 보여줌

(근데 왜 아까 합성데이터셋 평가에서 사용한 INVASE와 같은 모델은 사용하지 않았는지는 의문..)

마지막으로 self supervised learning을 적용 여부에 따른 성능 차이.

Self-supervised learing을 적용했을때, 당연하겠지만 학습 속도도 빠르고 성능도 향상됨을 볼 수 있음.

끝!!

[PR] Masked Autoencoders Are Scalable Vision Learners

KimbgAI — Thu, 12 Sep 2024 17:03:37 +0900

본 리뷰는 아래 유투브 링크에 실린 이진원 님의 페이퍼 리뷰를 바탕으로 개인적으로 공부하기 위해 제작되었습니다.

https://www.youtube.com/watch?v=mtUa3AAxPNQ&t=1463s

레즈넷의 저자인 카이밍허가 1저자로 참여한 논문

FAIR에서 2021년 11월에 발표함.

논문에서 말하고자하는 것은 아래 이미지가 전부임

이미지에 마스크를 씌워놓고 이를 복원하는 과정에서 모델을 사전학습하겠다는 것.

인트로던션

딥러닝 모델의 capablility와 capacity가 커짐으로써 백만장 정도의 이미지는 쉽게 오버피팅이 되기 때문에 더 많은 데이터가 필요로 하게 됨. NLP 쪽에서는 이를 self-supervised pretraining 방법을 통해 다루었음.

그래서 GPT나 BERT같은 모델들이 나왔고, GPT는 다음 단어를 예측하는 형태로, BERT는 중간에 단어를 가려놓고 맞추는 방식으로 문제를 풀었음. 그래서 모델 사이즈를 엄청나게 키우면서 엄청나게 많은 데이터로 self-supervised learning으로 학습을 할 수 있었음.

computer vision분야에서도 그런 접근방법이 많이 있었지만, 지도학습에 비해 성능이 잘 나오지 않아서 NLP에 비해 이러한 연구가 뒤쳐져있다는 것을 시사하면서 시작함.

왜 그럴까?

첫번째로 아키텍쳐가 다름.

비전 분야는 CNN을 사용하기 때문에 mask token이나 positional embedding 같은 것을 통합시키기 어려웠음. 하지만 ViT의 등장으로 이제 가능하게 됨.

둘째로, information density를 언급함.

language는 사람이 만든것이고 이는 단어 하나하나의 정보량이 이미지에 비해 굉장히 큼. 그렇기 때문에 단어를 가려놓고 맞추는 방식으로 학습해도 높은 수준의 언어 이해를 하는 것처럼 보이지만, 이미지는 픽셀 하나하나가 어떤 특별한 의미가 있는 것이 아니고, 공간적인 redundancy가 있음. 그렇기 때문에 missing patch를 복원시키는게 그렇게 어려운 일은 아님.

셋째로, 디코더의 역할이 다름.

BERT의 디코더는 간단한 MLP로도 해결할수있지만, 이미지에서의 디코더의 디자인은 중요한 역할을 담당하고 있음. latent representation으로부터 semantic level을 결정해야하기 때문.

Discussion & Conclusion

어쨋든 이렇게 간단한 알고리즘으로 굉장히 스케일 업 잘 된다!

NLP에서는 SSL이 잘 되지만, 여전히 Cv에서는 SL이 도미넌트함. 그래서 CV 에서도 SSL을 통해 더 잘 나올수있음!

[통계] Parametric models & Non-parametric models

KimbgAI — Mon, 1 Jul 2024 16:12:38 +0900

생존분석을 공부하다가 '파라메트릭' 모형, '비파라메트릭' 모형과 같은 개념이 등장했다.
단순하게 parameter가 있는 모델이겠니~, 학습이 되는 모델이구나~ 생각하고 넘겼으나, 그것과는 다른 개념이었다.

결론부터 말하자면,
'데이터가 특정 분포를 따른다는 가정의 유무'로 나뉜다.
즉, 어떤 모델이 데이터가 특정 분포를 따른다는 가정이 있다면 parametric model, 아니면 non-parametric model이다.

예를들면,
선형 회귀 모델에서 우리는 데이터가 '선형 관계'를 가진다고 가정하고, 기울기와 절편이라는 두개의 파라미터를 추정한다.
이는 모형의 구조가 고정되어 있고, 소수의 파라미터로 그 분포를 정의하는 것이다.
이는 정규분포, 포아송분포, 이항분포 등의 형태를 가정할 수 있음!
다른 모델로는 로지스틱 회귀, t-test, ANOVA 등과 같은 통계 모델도 해당된다.

반면 non-parametric model은,
데이터가 특정 분포를 따른다고 가정하지 않고, 대신 데이터 자체로부터 모형을 직접 추정한다.
따라서 parameter의 수는 고정되어 있지 않고, 데이터의 크기에 따라 달라질 수 있다.
예를들면,
SVM, kNN, 의사결정나무, 딥러닝 기반의 모델들이 이에 해당한다.

이런 개념은 생존분석에서
카플란-마이어 추정은 non-parametric model(비모수적 모델)로써, 특정 분포를 가정하지 않고 생존함수를 추정한다.

반면, 콕스 비례위험 모형은 semi-parametric model(반모수적 방법)으로, 생존 시간에 영향을 미치는 변수들을 분석한다.
이 모형은 비례 위험 가정('기준 위험 함수가 전 구간에 대해 일정하다'라는 가정)을 바탕으로 변수들의 상대적 위험 비를 추정하기 때문에 parametric 하지만,
설명 변수와 회귀 계수 β의 선형 결합 형태를 가정하기 때문에, 설명 변수와 관련된 부분은 non-parametric으로 모델링된다.

끝!!

[paper review] (MICCAI, 2020) TeCNO: Surgical Phase Recognition with Multi-stage Temporal Convolutional Networks

KimbgAI — Mon, 8 Apr 2024 14:54:11 +0900

이 논문은 수술 영상의 phase를 recognition을 하기 위한 연구로 2020년에 MICCAI에 기재됐다.

https://link.springer.com/chapter/10.1007/978-3-030-59716-0_33

개인적으로 surgical video analysis 중 phase recognition 연구의 milestone으로 생각한다.

비교적 적용하기 간단하고 이해도 어렵지 않기 때문이다.

Introduction

본 연구는 복강경 수술 비디오를 분석하여, 해당 프레임이 전체 수술 phase 중 어느 phase에 해당하는지 분류하는 연구를 진행함.

Surgical workflow analysis는 환자의 안전을 증진하고, 수술 에러를 줄이고, 수술실에서 의사소통을 최적화하는데 도움을 줄 수 있음. 특히, Surgical phase recognition task는 수술과정에서 이상현상을 감지하여 의사결정을 지원을 할 수 있고, 더 나아가 임상의 교육 목적으로 활용될 수도 있음.

Surgical phase recognition task의 특징
1. 비디오 특성이 환자에 따라, surgeon에 따라 다름. (환자마다 해부학적 특성이 다르고, surgeon마다 수술 스타일이 다르기 때문에)
2. 다른 phase라고 할지라도 프레임이 굉장히 비슷한 경우도 있고, phase의 전환점을 정의하기가 애매한 경우가 있어서 일반화 성능을 제한하는 어려움이 있음.

이게 어떤 phase일까요~?

비디오 분석은 프레임의 시간적 순서가 중요하기 때문에,
본 연구에서는 Temporal Convolutional Networks (TCN)을 활용하여 시간적 특징을 고려한다.

TCN의 특징
Dilated convolution을 활용하여 higher temporal resolution에 대해 보다 넓은 receptive field를 가지고 있고,
Phase recognition task의 계층적인 특성으로 인해 미래 시점은 현재 시점에서는 고려되지 않아야 하는데 이를 잘 반영한다. (Unidirection)

본 연구에서는 두가지 contribution을 제시함
(1) 최초로 dilated MS(Multi-stage)-TCNs 울 사용함.

(2) 두 복강경 비디오 데이터셋에 대한 평가를 진행함.

TCN 예시

Materials

Datasets : CHOLEC80, CHOLEC51
담낭 절제술(resection of the gallbladder) procedure를 담고 있는 복강경 영상이며,

각 프레임별로 어떤 phase인지 labeling이 되어있음.

class는 총 7개

(1) The publicly available Cholec80
includes 80 videos with resolutions 1920×1080 or 854×480 pixels recorded at 25 frames-per- second (fps).
Additionally, seven different tool annotation labels sampled at 1 fps are provided.
The dataset to 40 videos for training, 8 for validation, and 32 for testing.

(2) Cholec51
51 videos with resolution 1920 × 1080 pixels
There is no additional tool information provided.
25 videos were utilized for training, 8 for validation and 18 for test.

Methodology
The pipeline of TeCNO consisting of the following steps:
1) visual feature extractor로 ResNet50을 사용함.
2) ResNet50을 통해 추출된 feature을 TCN에 넘겨 temporal context을 고려한다.

TCN은 총 2번 사용됨.

사용된 loss function은 그냥 weighted cross entorpy 임

학습은 2-stage로 이루어진다.

1) ResNet50 as a visual feature extractor:

시간적 맥락을 고려하지 않고 단지 프레임 별로 어떤 phase인지 학습함.

더불어 데이터셋에 tool에 대한 정보도 있기때문에,

이를 활용하여 어떤 tool이 나오는지에 대한 identification을 학습하기도 함.

(이때는 linear layer을 별도로 추가함)

2) Multi-stage TCN:

여러개의 TCN을 사용하는 이유는 이전 TCN으로부터 나온 output을 refine하기 위함임.

여기서는 tool information없이 학습됨.

Results

1. Effect of Feature Extractor Architecture

AlexNet 보다 ResNet50의 feature extractor로써의 성능이 우수함 (당연하게도)

더불어 TCN을 3개까지 붙혀봤는데 2개까지 붙히는게 성능이 제일 좋았음 (실험적 검증)

2. Comparative Methods

LSTM을 사용한 다른 연구와 비교했을때, TeCNO가 ~8% 까지 좋았음

이유는 다른 연구는 feature extractor로 AlexNet을 사용한것도 있고,

one step training process로 학습한 연구도 있기도 함 (MTRCNet)

또한 이러한 성능차이는 the higher temporal resolution, large receptive field 덕분이라고 설명함

3. Phase Recognition Consistency
In Fig.2는 두 데이터셋에 대해 각 phase 구간별로 시각화를 한 것.
ResNetLSTM에 비해 TeCNO가 consistent and smooth predictions를 나타냄. (Accuracy는 2%p 밖에 차이나지 않지만서도..)
even for the phases with shorter duration, such as P5 and P7.
Finally, TeCNO showcases robustness, since Video 3 and 4 are both missing P1.

한편, 모델 훈련과 관련해서는

- Adam optimizer with an initial learning rate of 5e−4 for 25 epochs.
- The batch size is identical to the length of each video.
- PyTorch, NVIDIA Titan V 12 GB GPU using Polyaxon1.

- The source code for TeCNO is publicly Github (https://github.com/tobiascz/TeCNO/)

끝!!

[NLP] BERT에 대한 간단 설명 (paper review)

KimbgAI — Mon, 8 Apr 2024 14:13:16 +0900

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).

2018년에 구글에서 발표된 너무나도 유명하고 NLP 공부할때 milestone이 되는 모델이다.

시작해보자.

개요

언어모델을 개발할때 양질의 pre-trained word representation을 사용하는 것은 매우 중요함.

왜? 좋은 word representation은 down-stream task를 해결할때 모델의 성능을 좌우하기 때문.

하지만 좋은 word representation을 얻는 것은 굉장히 어려운일

예를들어, bag of word나 N-gram과 같은 전통적인 방법은 동음이의어를 처리하기 어려움.

조금더 발전된 Word2Vec, Glove와 같은 기존의 word representation도 마찬가지로 ‘단어’를 기준으로 하나의 벡터로 표현됨.

가령, 아래와 같이 1개에 단어에는 1개의 벡터가 매핑됨.

하지만 이는 문맥을 반영하지 않기 때문에, ‘사과를 건네다‘ 와 같은 문장에서 ‘사과’가 무엇을 의미하는지 불분명함.

-> context-independent word representation

따라서 최근의 많은 NLP들은 context-dependent word representation을 잘 구축하고자 함.

한편 BERT(Bidirectional Encoder Representations from Transformer) 는 요약하면 아래와 같다.

- Transformer를 Encoder로 활용하여 양방향의 특징을 활용하는 Language model

- ELMo, GPT-1과 비슷한 시기 발표됨

- Objective는 1) 양질의 pre-trained language representation를 얻는 것, 2) down-stream task로의 간단한 fine-tuning

- BERT base: 110M params like GPT-1

- BERT large: 340M params

관련 연구인 ELMo와 GPT-1과 비교하자면, 아래와 같음.

좀더 자세히 보면 먼저 ELMo는 ,

ELMo (Embeddings from Language Models)

feature based approach를 사용함
- input으로 기존의 context-independent word representation에 pretrained representation을 추가(concat)하여 사용하는 방법임.
Bidirection과 LSTM 구조를 사용함.
- LSTM 특성상 깊고 양방향 특징 학습에 한계가 있음

Bidirection

GPT-1는

fine-tuning based approach 사용
- pretrained parameter를 down-stream task에서 fine-tuning 하는 방법
Unidirection과 Transformer 구조 사용

Unidirection

그래서 BERT는 두 모델의 장점을 차용하기로 함.

Bidirection한 transformer 구조로 되어있고,

down-stream task를 위한 fine-tuning based approcah를 사용한다.

앞서 말했듯이, BERT는 context-dependent word representation를 잘 구축하고자 했다.

이를 위한 사전학습은 크게 두 가지를 사용했는데,

먼저 MLM (Masked language model)이다.

GPT와 같이 문장 일부분을 masking하고 이를 맞추게끔 학습이 된다.

전체 문장의 15%정도를 masked token으로 가린다.

다음으로는 NSP (Next sentence prediction) 이다.

NSP는 주어진 문장의 다음 문장이 [IsNext]인지 [NotNext]인지 예측하는 문제를 푸는 것이다.

Down-stream task에는 QA (Question & Anwsering)이나 NLI (Natural language inference)와 같은 고수준의 task가 존재한다.

기존 pretrained LM 같은 경우에는 문장 관계를 고려하는 task에서 좋은 성능을 내지 못했다.

그래서 BERT는 NSP를 통해 사전학습된다.

이 그림에서 C token이 NSP task에서 사용된다.

한편, BERT는 pretraing을 위해 BooksCorpus (약 8억개 단어) 와 Englich Wikipedia (약 25억개 단어) 를 사용했다.

Pretraining이 완료되었다면, 각 down-stream task에 맞게 fine tuning을 해야한다.

Fine tuning 단계는 task마다 사용되는 BERT의 output이 다르다.

Classification task 같은 경우, 예를들어 RTE (Recognizing Textual Entailment) 나 감정분석같은 경우에는 [c] token 을 사용한다. (아래 그림에서 (a)와 (b) 그림에 해당)

반면, Token 단위의 task인 경우, 예를들어 QA나 Seqeunce tagging 같은 경우에는 BERT의 output token representation을 새로운 layer에 넘겨주는 형태로 학습한다. (아래 그림에서 (c)와 (c) 그림에 해당)

fine tuning의 예시

BERT의 input은 아래와 같이 3개의 embeddings들이 summation되어 만들어진다.

Token embedding은 WordPiece embedding을 사용.

Segment embedding은 각각의 문장을 구분해주기 위한 것으로, 이는 학습 가능한 parameter로 설정한다고 한다. (어떤 메커니즘인지는 모르겠음)

Position embedding은 흔히 사용되는 Sinusoidal Positional Embedding을 사용한다.

Results

1. GLUE benchmark dataset에서 평가한 결과
GLUE는 General Language Understanding Evaluation의 약자로 다양한 general language understanding task를 포함함.실험 결과: BERT Base, Large 모두 기존의 방법보다 좋은 성능을 보임
특히 BERT-Large는 다른 어떤 모델보다 특히 우수한 성능을 보임

2. QA dataset인 SQuAD에서 실험한 결과

답을 포함하는 Wikipedia의 context 지문을 통해 QA 작업을 학습하는 데이터셋

BERT 모델들이 기존의 모델보다 우수한 성능

가장 좋은 성능을 보인 모델은 BERT-Large 모델을 앙상블하고 TriviaQA dataset을 통해 먼저 fine-tuning한 모델. 인간보다도 좋은 판단 능력을 보여줌.

3. SQuAD 2.0 dataset: (QA)

SQuAD 2.0은 답이 지문에 없는 경우를 포함함.

인간의 능력에는 미치지 못하였지만, 기존의 baseline에 비해서는 매우 우수한 성능

4. SWAG (Situations With Adversarial Generation)

SWAG는 이어지는 문장을 고르는 sentence pair inference task.

BERT 모델이 기존의 모델보다 우수한 성능을 보였으며, BERT_Large는 전문가에 필적하는 결과

Ablation study

제안한 방법의 유무(Ablation)를 통해 효과를 검증.

1) BERT-Base는 MLM과 NSP를 모두 사용한 일반적인 BERT 모델

2) No NSP는 MLM만을 사용하여 학습한 모델

3) LTR & No NSP는 Left-To-Right 의 단방향 모델을 학습한 결과.

2,3의 비교를 통해 MLM의 효과를 확인할 수 있으며, 1,2의 비교를 통해 NSP의 효과 또한 확인할 수 있음

Model size에 따른 성능 비교

모델 크기에 따라 성능이 증가함

Down-stream task approach method 비교

기존의 방법대로 Fine-tuning Approach로 사용했을때와 ELMo와 같은 Feature-based approach로 사용하였을 때의 결과를 비교함.

Feature-based approach는 아래의 경우를 고려하여 실험 진행.

1) Embedding만 사용

2) 두번째 부터 마지막 Hidden을 사용

3) 마지막 Hidden 만을 사용

4) 마지막 4개의 Hidden을 가중합

5) 마지막 4개의 Hidden을 concat

6) 모든 12개의 층의 값을 가중합

Feature based approach로 실험을 진행한 결과,

전체 layer를 가중합 하는 것 보다 마지막 4개 layer를 concatenate하는 방법이 가장 좋은 성능으로 나타남

Conclusion

BERT는 Transformer의 Encoder를 사용하여 양질의 pre-trained language representation를 얻을 수 있는 것과 동시에 down-stream task로의 손쉬운 fine-tuning이 가능한 bidirectional language model.
이 과정에서 기존의 pretrained language model과는 다르게 MLM과 NSP같은 방법이 효과적으로 적용됨.
그 결과 BERT는 11개의 NLP Task에서 약간의 fine-tuning만을 가지고 매우 우수한 성능을 달성할 수 있었음.
또한 일부 task에 있어서는 인간에 필적하는 결과를 냄.

각 Task에 따른 evalutation metric에 대한 이해가 아직 없어서, 결과가 얼마나 좋은것인지 체감이 되지 않아서 공부가 필요함을 느끼며... 일단.. 끝!!

[NLP] 다양한 word encoding 방법 (bag of words, N-gram, TF-IDF)

KimbgAI — Thu, 4 Apr 2024 15:27:56 +0900

이 내용은 유투브 허민석님의 자료를 공부하며 정리하기 위해 작성된 내용임을 밝힙니다.

https://www.youtube.com/@TheEasyoung

bag of words 란?

단어는 머신러닝 모델에 입력으로 사용하기 위해 숫자로 변환되어야함.

이를 위한 다양한 방법들이 있는데, 그 중 가장 기초적인 것이 바로 bag of words 라는 것으로 굉장히 심플하다.

전체 데이터셋에서 나타나는 모든 단어 기반으로 임의의 문장을 원핫인코딩(one-hot encoding)하여 나타낸 것.

가령, 아래와 같이 나타내는 것이다.

전체 데이터셋에서 나타나는 각각의 유니크한 문자들을 나열하고,

어떤 문장을 이루는 단어들이 해당 문장에 몇번 나타났는지 표기하는 것이다.

이로써 다른 문장들과의 유사성도 계산할 수 있다.

요즘과 같이 엄청난 양의 문자를 처리해야하는 시대에 이 방법의 단점은 매우 치명적이다.

1. Sparsity

- 단어가 백만개, 천만개가 있다면 원핫인코딩된 문장은 굉장히 sparse한 vector으로 표현됨.

- 이는 학습에 치명적임. 공간에 비해 정보량이 너무 적어 효율적으로 학습하기 어렵기 때문.

2. 문장간의 유사성이 단지 단어출현 빈도에 의해 결정되기 때문에 엉뚱한 결과로 이어질 수 있음.

1번째 문장과 2번째 문장이 3번째 문장보다 의미적으로 더 유사하지만, 계산상에서는 단지 '단어의 출현빈도'로 인해 3번째 문장이 더 유사하게 나타남.

3. 의미, 맥락이 무시됨.

home run과 run home은 아예 다른 뜻임에도 같은 문장으로 계산될 것임.

4. Out of vocabulary

오타가 있거나 신조어 등 학습하지 못한 단어에서는 굉장히 무기력해짐.

Real world 에서는 위와같은 상황이 빈번하게 발생하기 마련인데, 이를 반영하지 못함.

N-gram이란?

N-gram은 연속적인 N개의 토큰으로 구성된 일련의 시퀀스를 말한다.

여기서 토큰은 알파벳이나 단어 등이 될 수 있다.

예를 들어, 1-gram (unigram) 인 경우에는 아래와 같이 계산됨.

2-gram (bigram)인 경우에는

3-gram (trigram)인 경우에는

뭐 이런식이다.

N-gram은 bag of words의 단점을 일부 보완할 수 있다.

예를들면, bag of words로 나타내면 아래와 같이 나타낼 수 있다.

여기서는 'not'이라는 단어의 위치에 따라 문장 해석이 완전히 달라지지만, bag of words는 이를 고려하지 못한다.

반면 word level에서 bi-gram으로 나타내면,

으로 나타나기 때문에 not boring이 붙어있게 되어, 보다 문장의 의미를 파악하는데 도움이 됨.

또한 다음 단어를 추천해주는데 도움도 준다.

아래와 같이 3문장이 있을때 tri-gram으로 나타내면 how are you의 빈도가 가장 높다.

그래서 'how are' 까지만 작성했을때 'you'라는 단어를 추천해줄 수 있다.

spelling 체크할때도 마찬가지로,

q는 u와 거의 붙어서 나오기 때문에, qwality라는 단어는 나타났을때 qw가 아닌 qu를 추천해줄 수 있음.

TF-IDF 이란?

임의의 문장에서 특정 단어의 중요도, 연관성 등을 측정해주는 방법 중의 하나이다. (Full name: Term Frequency Inverse Document Frequency)

TF는 (특정 단어의 출현빈도 / 사용된 단어 갯수) 를 나타내며, bag of words와 비슷하다.

그리고 앞서 설명한 bag of words의 단점을 IDF을 통해 보정한다.

수식은 Log(총 문장의 갯수 / 특정 단어 출현 빈도) 임.

즉, 특정 단어의 출현빈도가 많아지면 값이 작아짐.

아래와 같이 계산됨.

이 TF-IDF를 가지고 문장 혹은 문서의 유사도를 측정할 수 있다.

일반적인 bag of words로 나타낸 유사도와 TF-IDF로 계산된 bag of words의 유사도와 비교해보자.

아래와 같이 4개의 문장이 있다고 해보자

bag of words로 나타내면 아래와 같고,

d4와 나머지 문장의 코사인 유사도를 계산하면, d1이 0.82로 가장 높다.

하지만, d4는 '최고의 아메리카 레스토랑'를 의미하고 있는데 단지 d1과 'the best'라는 단어가 비슷하게 출현되어 이탈리안 레스토랑, 파스타가 포함된 문장과의 유사도가 가장 높게 나타난 것을 볼 수 있다.

하지만 TF-IDF로 계산하면,

로 나타나고, 코사인 유사도는 아래 그림과 같이,

실제 의미적으로 가장 유사한 d2가 가장 높은 유사도를 보인다.

단점도 분명하다.

마찬가지로 '단어'의 출현빈도를 통해 계산되기 때문에 서로 다른 단어들과의 유사도는 고려하지 않는다.

또한 동의어(synonym)에 약하다.

예를들어,

위와같이 거의 같은 내용임에도 겹치는 단어가 하나도 없기 때문에 유사도는 0으로 계산된다.

이러한 한계를 극복하기 위해

LSA (Latent semantic analysis) (잠재의미분석) 이나

Word2Vec, Glove와 같은 word embvedding 기법 등이 단어를 인코딩하는데에 좀더 최신 방법이라고 할 수 있다.

끝!

[오류해결] monai metrics 중 DiceMetric의 y, y_pred 인식 오류

KimbgAI — Wed, 27 Mar 2024 13:09:01 +0900

도무지 이해가 안가는 경우였다.

monia의 DiceMetric를 사용하던 중 y에 label을 넣고 y_pred에 model의 output을 넣는데 계산이 이상하게 나왔던 것.

더 이상했던 것은 y에 model의 output을 넣고, y_pred에 label을 넣으니 제대로 작동하더라는 것이다.

두 눈을 의심하고 코드를 뜯어봐도 결과는 마찬가지였다.

기존에는 동일한 코드로 잘만 사용했었는데 말이다.

해결한 결과부터 말하면,

1. output을 argmax 해야했음

2. 이제서야 문제가 밝혀는 까닭은 기존에 사용했던 monai 버전과 달라서 그랬던 것. (기존에는 1.0.0 사용, 현재는 1.3.0 사용)

현상을 살펴보면..

각각 target, output, scratch 을 시각화면 아래와 같다.

import pickle
import matplotlib.pyplot as plt

with open(r'target.pkl', 'rb') as f:
    target = pickle.load(f)
print('target')
plt.imshow(target[:,:,0])
plt.show()

with open(r'output.pkl', 'rb') as f:
    output = pickle.load(f)
print('output')
plt.imshow(output[:,:,0])
plt.show()

with open(r'init_feature.pkl', 'rb') as f:
    init_feature = pickle.load(f)
print('scratch')
plt.imshow(init_feature[:,:,0])
plt.show()

당연히 target과 ooutput의 dice score가 높게 나오고 scratch와는 낮게 나와야하는 것이 올바른 상황임.

하지만 monai의 dice score 값은 동일하게 나옴..

import torch

## dice score를 계산하기 전에 pytorch style로 변환해야함
target = torch.unsqueeze(torch.tensor(target).permute(2,0,1), 0)
output = torch.unsqueeze(torch.tensor(output).permute(2,0,1), 0)
init_feature = torch.unsqueeze(torch.tensor(init_feature).permute(2,0,1), 0)
print(target.shape) # B, C, W, H


from monai.metrics import DiceMetric
Dice = DiceMetric()

score = Dice(y_pred=output, y=target)
print(score)

score = Dice(y_pred=init_feature, y=target)
print(score)

아까 말했든이 y에 output을 넣고 y_pred에 target을 넣으면 오히려 정상적으로 나오는 모습..

score = Dice(y_pred=target, y=output)
print(score)

score = Dice(y_pred=target, y=init_feature)
print(score)

해결 방법은 아래와 같이 명시적으로 argmax를 해주면 되긴 한다.

def OutputPostProcess(output, num_classes):
    output_arg = torch.argmax(output, axis=1)
    output_arg = torch.nn.functional.one_hot(output_arg, num_classes=num_classes)
    output_arg = output_arg.permute(0,3,1,2)
    return output_arg

score = Dice(y_pred=OutputPostProcess(output, num_classes=2), y=target)
print(score)

score = Dice(y_pred=OutputPostProcess(init_feature, num_classes=2), y=target)
print(score)

monai 1.0.0 버전에서는 굳이 argmax를 해주지 않아도 알아서 잘 나옴. (UserWarning이 뜨긴 하지만)

오늘의 교훈!

기존 코드와 뭔가 잘 안 맞는다 싶으면 버전을 먼저 확인해볼것!

끝!

[python] ParRec 파일을 nifti 파일로 변환

KimbgAI — Tue, 9 Jan 2024 19:19:08 +0900

파이썬으로 ParRec 파일을 nifti 파일로 변환하는 코드

import nibabel as nib

par_path = '/data/2030/BrainMRI/Dataset/Sample/DTI_sample.PAR'
nifti_path = '/data/2030/BrainMRI/Dataset/Sample/DTI_sample.nii.gz'

img = nib.load(par_path)
nifti = nib.Nifti1Image(img.dataobj, img.affine, header=img.header)
nifti.set_data_dtype('<f4')
nifti.to_filename(nifti_path)

위 코드가 전부다.

nibabel 라이브러리를 이용해서 par 파일을 읽어와서 몇가지 처리만 해주면 된다.

알고계시겠지만, ParRec는 Par파일과 Rec파일 두 개를 묶어서 칭하는 표현이다.

따라서 주의할 점은 par 파일과 rec 파일이 반드시 같은 이름으로 되어있어야한다.

해더 파일인 par 파일을 읽어서, 실제 이미지 픽셀값이 들어있는 rec 파일과 매칭하기 때문이다.

위 코드 8번째 라인에서 '<f4' 는 NumPy에서 사용되는 dtype 문자열로, 데이터 타입과 바이트 순서에 대한 정보를 담고 있다. '<'는 리틀 엔디안(little-endian) 이라는 바이트 순서를 나타내며, 'f4'는 부동 소수점 숫자를 나타낸다.

f4는 4bytes(32bit) float, 즉 float32를 의미한다.

종종 ParRec 데이터에 문제가 있어 읽어들이지 못하는 경우가 있으니 대용량 데이터를 처리할때는 예외처리 반드시 하시길!!

아래는 ParRec 관련 내용에 대한 내용입니다.

Chat GPT가 아주 자세히 잘 알려주었지만, 종종 잘못된 내용도 있어 정리했습니다.

ParRec란?

ParRec은 Philips사의 자기 공명 이미징(MRI) 시스템에서 생성되는 데이터 형식으로, MRI 시퀀스에서 획득한 데이터를 저장하는 데 사용됨.

ParRec 파일은 주로 두 부분으로 구성됨.

1. 헤더 파일 (.PAR): 헤더 파일에는 데이터 획득에 대한 메타데이터와 설정이 포함되어 있습니다. 시퀀스 파라미터, 획득 매개변수, 이미지 크기, 슬라이스 두께 등이 헤더에 기록되어 있습니다. 이 메타데이터는 MRI 데이터를 제대로 해석하고 재구성하는 데 필요합니다.

2. 이미지 데이터 파일 (.REC): 이미지 데이터 파일에는 실제 MRI 이미지의 픽셀 값이 포함되어 있습니다. 각 이미지 슬라이스의 픽셀 값이 이 파일에 저장되어 있으며, 이를 통해 이미지가 재구성됩니다.

따라서,

ParRec 형식은 일반적으로 다른 MRI 제조업체에서 사용하는 형식과 달라서, DICOM 과 같은 형식으로 변환해서 사용해야 처리가 편하답니다~

끝!

다시 힘차게 출발!

KimbgAI — Tue, 9 Jan 2024 18:32:03 +0900

오랜만에 포스팅이네요.

그간 하루하루 일에 치이다보니 글을 쓸 여력없었는데, 다시 열심히 포스팅을 할까 합니다.

작년 5월이 마지막 포스팅이었는데, 그동안 경험하고 저를 성장시킨 내용들을 하나하나씩 정리해야겠습니다.

포스팅은 하지 않았지만, 제가 작성했던 내용을 보기 위해 종종 들어오긴 했거든요.

과거의 저에게 도움을 받을 일이 생각보다 많더랍니다.

그럴때마다 다시 포스팅을 시작해야겠다고 다짐하고서는, 이제야 글을 쓰게 되네요.

별볼일 없는 내용임에도, 생각보다 많은 분들이 찾아주셔서 감사하고 신기하더라구요.

2024년 올해 목표는 애드센스로 수익 창출! ~~(작년에도 같은 목표였다는..)~~

그러면 좋겠지만, 달성하지 못하더라도 공부하고 익힌 내용들을 꾸준히 정리해나가는 것을 진정한 목표로 삼습니다.

그럼 올해도 화이팅!

리눅스에 저장장치(SSD, HDD) 연결하는 방법

KimbgAI — Sun, 28 May 2023 18:18:25 +0900

2년 전인가.. 개인용 딥러닝 서버를 구축했을때 4TB 정도면 넉넉히 잘 쓸줄 알았는데, 1년 정도 쓰니 중간중간 관리를 안해주면 금방 찰 것 같았다..
근데 최근에 데이터를 무진장 많이 받을 일이 있어서 도저히 4테라로는 감당이 안돼서 8테라를 추가로 구입했음!

이걸로 샀음

아무튼 연결하는 방법은 아래 순서와 같다.

1. 당연하겠지만 먼저 물리적으로 HDD를 컴퓨터에 연결

- 전원을 끄고 연결하기를 추천..

2. 컴퓨터를 켜고 디스크가 감지되었는지 확인해야함.

- 아래 명령어를 통해 확인할 수 있고,

sudo fdisk -l

'/dev/sdX' 와 같은 형식으로 표시된다.

잘 잡힌걸 볼 수 있음

3. (옵션사항) 파티셔닝 단계

파티셔닝은 안해도 된다.
ChatGPT의 파티셔닝 설명
"
파티셔닝은 하드 디스크를 논리적인 섹션으로 나누는 작업입니다. 이렇게 나뉜 섹션은 각각 독립적인 저장 공간으로 사용될 수 있습니다.

일반적으로 하드 디스크는 하나의 파티션으로 구성되어 있지만, 파티셔닝을 통해 디스크를 여러 파티션으로 나눌 수 있습니다. 각 파티션은 개별적인 파일 시스템을 가질 수 있고, 독립적으로 포맷되고 마운트될 수 있습니다.
"

4. 파일 시스템 생성

2번 또는 3번 단계가 끝나면, 파일 시스템을 생성해야한다.
파일 시스템을 생성하는 이유는 HDD 잡혔는데 이걸 어떤 시스템을 기반으로 사용할 것인지를 정하는 것이다.
윈도우, 맥, 리눅스에서 사용하는 파일시스템이 따로 있는 것도 있고 굉장히 다양하다.

아래 명령어를 통해 실행한다.

sudo mkfs.ext4 /dev/sda

ext4는 ext 파일 시스템 시리즈의 최신 버전으로, 매우 큰 파일 시스템과 파일을 지원한다. 최대 파일 시스템 크기는 1 EB (1 exabyte)이며, 개별 파일 크기는 16 TB까지 지원함.

5. 마운트 단계

마운트는 컴퓨터 시스템에서 파일 시스템을 사용할 수 있도록 하는 작업이다.
특정 디렉토리를 만들어 마운트 해준다.

sudo mkdir /data1

이후 그 디렉토리에 HDD를 마운트 한다.

sudo mount /dev/sda /data1

df -h

를 통해서 마운트가 잘 되었는지 확인해볼 수 있다.

6. 자동 마운트 설정

5번 까지만 하면 컴퓨터를 재부팅하면 언마운트되어 다시 마운트를 하는 귀찮은 작업을 해줘야하는데,
여기서는 부팅하면서 자동 마운트 되는 설정을 할 것이다.
/etc/fstab 이라는 파일이 있는데 이걸 편집해서 설정을 추가해주면 된다.

sudo nano /etc/fstab

여기서 어떻게 편집할지 두가지 방법이 있는데,
첫번째는 아래와 같이 작성해주면 된다.

/dev/sda /data1 ext4 defaults 0 2

근데 이 /dev/sda 같은 경우는 새로운 디스크를 추가하거나 어떤 작업에 의해 변경되는 경우가 있다. 그러면 마운트를 다시 해줘야하는 복잡한 상황 생김..

그래서 UUID 라는 절대적인 바뀌지 않는 방법을 통해서 설정하는 것을 권장한다.

sudo blkid

라는 명령을 통해서 확인할 수 있다.

/dev/sda의 UUID

이걸 복사해서 아래와 같이 /etc/fstab 파일에 추가해주면 된다.

재부팅해보고 자동으로 잘 마운트 되는지 확인하면 된다!

끝!!

KimbgAI

[PR] TabNet(2021, AAAI) 논문 리뷰 (파헤치기)

Introduction

Method

Results & Experiments

[PR] Masked Autoencoders Are Scalable Vision Learners

인트로던션

관련 연구

복원 결과

디테일

실험

Reconstruction Target

Data augmentation

Masking sampling strategy

Training schedule

다른 SSL과의 비교

다른 SL 모델들과의 비교

Partial fine-truning

Transfer learning Experiments

Discussion & Conclusion

[통계] Parametric models & Non-parametric models

[paper review] (MICCAI, 2020) TeCNO: Surgical Phase Recognition with Multi-stage Temporal Convolutional Networks

Introduction

Materials

Results

[NLP] BERT에 대한 간단 설명 (paper review)

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

[NLP] 다양한 word encoding 방법 (bag of words, N-gram, TF-IDF)

bag of words 란?

N-gram이란?

TF-IDF 이란?

[오류해결] monai metrics 중 DiceMetric의 y, y_pred 인식 오류

[python] ParRec 파일을 nifti 파일로 변환

ParRec란?

다시 힘차게 출발!

리눅스에 저장장치(SSD, HDD) 연결하는 방법

1. 당연하겠지만 먼저 물리적으로 HDD를 컴퓨터에 연결

2. 컴퓨터를 켜고 디스크가 감지되었는지 확인해야함.

3. (옵션사항) 파티셔닝 단계

4. 파일 시스템 생성

5. 마운트 단계

6. 자동 마운트 설정