KimbgAI

[paper review] (MICCAI, 2020) TeCNO: Surgical Phase Recognition with Multi-stage Temporal Convolutional Networks 본문

카테고리 없음

[paper review] (MICCAI, 2020) TeCNO: Surgical Phase Recognition with Multi-stage Temporal Convolutional Networks

KimbgAI 2024. 4. 8. 14:54
반응형

이 논문은 수술 영상의 phase를 recognition을 하기 위한 연구로 2020년에 MICCAI에 기재됐다.

https://link.springer.com/chapter/10.1007/978-3-030-59716-0_33

 

개인적으로 surgical video analysis 중 phase recognition 연구의 milestone으로 생각한다.

비교적 적용하기 간단하고 이해도 어렵지 않기 때문이다.

 

 

 

Introduction


본 연구는 복강경 수술 비디오를 분석하여, 해당 프레임이 전체 수술 phase 중 어느 phase에 해당하는지 분류하는 연구를 진행함.

 

Surgical workflow analysis는 환자의 안전을 증진하고, 수술 에러를 줄이고, 수술실에서 의사소통을 최적화하는데 도움을 줄 수 있음. 특히, Surgical phase recognition task는 수술과정에서 이상현상을 감지하여 의사결정을 지원을 할 수 있고, 더 나아가 임상의 교육 목적으로 활용될 수도 있음.


Surgical phase recognition task의 특징
1. 비디오 특성이 환자에 따라, surgeon에 따라 다름. (환자마다 해부학적 특성이 다르고, surgeon마다 수술 스타일이 다르기 때문에)
2. 다른 phase라고 할지라도 프레임이 굉장히 비슷한 경우도 있고, phase의 전환점을 정의하기가 애매한 경우가 있어서 일반화 성능을 제한하는 어려움이 있음.

이게 어떤 phase일까요~?

 

 

비디오 분석은 프레임의 시간적 순서가 중요하기 때문에, 
본 연구에서는 Temporal Convolutional Networks (TCN)을 활용하여 시간적 특징을 고려한다.

TCN의 특징
Dilated convolution을 활용하여 higher temporal resolution에 대해 보다 넓은 receptive field를 가지고 있고,
Phase recognition task의 계층적인 특성으로 인해 미래 시점은 현재 시점에서는 고려되지 않아야 하는데 이를 잘 반영한다. (Unidirection)

 


본 연구에서는 두가지 contribution을 제시함
(1) 최초로 dilated MS(Multi-stage)-TCNs 울 사용함.

(2) 두 복강경 비디오 데이터셋에 대한 평가를 진행함.

TCN 예시

 

 

Materials

Datasets : CHOLEC80, CHOLEC51
담낭 절제술(resection of the gallbladder) procedure를 담고 있는 복강경 영상이며,

각 프레임별로 어떤 phase인지 labeling이 되어있음.

class는 총 7개



(1) The publicly available Cholec80
includes 80 videos with resolutions 1920×1080 or 854×480 pixels recorded at 25 frames-per- second (fps).
Additionally, seven different tool annotation labels sampled at 1 fps are provided. 
The dataset to 40 videos for training, 8 for validation, and 32 for testing.

(2) Cholec51 
51 videos with resolution 1920 × 1080 pixels 
There is no additional tool information provided. 
25 videos were utilized for training, 8 for validation and 18 for test. 

 

 

 

 

Methodology
The pipeline of TeCNO consisting of the following steps: 
1) visual feature extractor로 ResNet50을 사용함.
2) ResNet50을 통해 추출된 feature을 TCN에 넘겨 temporal context을 고려한다.

TCN은 총 2번 사용됨.

 

사용된 loss function은 그냥 weighted cross entorpy 임

 

 

 

학습은 2-stage로 이루어진다.

 

1) ResNet50 as a visual feature extractor:

시간적 맥락을 고려하지 않고 단지 프레임 별로 어떤 phase인지 학습함.

더불어 데이터셋에 tool에 대한 정보도 있기때문에,

이를 활용하여 어떤 tool이 나오는지에 대한 identification을 학습하기도 함.

(이때는 linear layer을 별도로 추가함)

 

 

2) Multi-stage TCN:

여러개의 TCN을 사용하는 이유는 이전 TCN으로부터 나온 output을 refine하기 위함임.

여기서는 tool information없이 학습됨.

 

 

 

 

Results

1. Effect of Feature Extractor Architecture

AlexNet 보다 ResNet50의 feature extractor로써의 성능이 우수함 (당연하게도)

더불어 TCN을 3개까지 붙혀봤는데 2개까지 붙히는게 성능이 제일 좋았음 (실험적 검증)

 

 

 

2. Comparative Methods

LSTM을 사용한 다른 연구와 비교했을때, TeCNO가 ~8% 까지 좋았음

이유는 다른 연구는 feature extractor로 AlexNet을 사용한것도 있고, 

one step training process로 학습한 연구도 있기도 함 (MTRCNet)


또한 이러한 성능차이는 the higher temporal resolution, large receptive field 덕분이라고 설명함

 

 

3. Phase Recognition Consistency
In Fig.2는 두 데이터셋에 대해 각 phase 구간별로 시각화를 한 것.
ResNetLSTM에 비해 TeCNO가 consistent and smooth predictions를 나타냄. (Accuracy는 2%p 밖에 차이나지 않지만서도..)
even for the phases with shorter duration, such as P5 and P7.
Finally, TeCNO showcases robustness, since Video 3 and 4 are both missing P1.

 

 

 

한편, 모델 훈련과 관련해서는

 - Adam optimizer with an initial learning rate of 5e−4 for 25 epochs. 
 - The batch size is identical to the length of each video. 
 - PyTorch, NVIDIA Titan V 12 GB GPU using Polyaxon1. 

 - The source code for TeCNO is publicly Github (https://github.com/tobiascz/TeCNO/)

 

 

끝!!

반응형
Comments