심층 학습을 이용한 삼출성 나이관련황반변성 환자의 치료 12개월 후 시력 악화 예측

Post-treatment Visual Acuity Prediction Using Deep Learning in Age-related Macular Degeneration

Article information

J Korean Ophthalmol Soc. 2023;64(7):582-590
Publication date (electronic) : 2023 July 15
doi : https://doi.org/10.3341/jkos.2023.64.7.582
Department of Ophthalmology, Konkuk University Medical Center, Konkuk University School of Medicine, Seoul, Korea
김나정, 김형찬, 정혜원, 이형우
건국대학교 의학전문대학원 건국대학교병원 안과학교실
Department of Ophthalmology, Konkuk University Medical Center, #120-1 Neungdong-ro, Gwangjin-gu, Seoul 05030, Korea Tel: 82-2-2030-8198, Fax: 82-2-2030-5273 E-mail: hwlee@kuh.ac.kr
*This study was supported by the National Research Foundation of Korea and funded by the Ministry of Science and ICT (NRF-2022R1F1A107620211).
Received 2022 October 12; Revised 2022 December 19; Accepted 2023 June 20.

Abstract

목적

삼출성 나이관련황반변성 환자의 치료 초기 임상 정보를 바탕으로 12개월 후 시력 악화 여부를 예측하는 심층 학습 모형을 구현하고자 한다.

대상과 방법

2007년 1월부터 2020년 12월까지 삼출성 나이관련황반변성으로 진단되어 유리체 내 항혈관내피성장인자 주입술을 시행받은 환자 330안의 정보를 후향적으로 확보하였다. 수치 정보는 다층 퍼셉트론으로, 영상 정보는 합성곱신경망으로 처리하여 12개월 후 시력이 초기 시력에 비해 logarithm of the minimum angle of resolution 0.3 이상 저하하였는지를 예측하였다. 환자의 치료 전 및 3회 치료 후 시력, 치료 계획, 치료 전 및 3회 치료 후 빛간섭단층촬영 영상을 입력 정보로 순차적으로 하나씩 추가하며 5가지 심층 학습 모형을 구현하였다. 각 모형의 성능을 비교하여 추가된 정보들의 시력 예후 예측에 대한 기여도를 분석하였다.

결과

치료 전 및 3회 치료 후 시력, 치료 전 및 3회 치료 후 빛간섭단층촬영 영상을 순차적으로 심층 학습 모형에 투입할수록 예측력의 향상을 보였다. 또한 치료 전 및 3회 치료 후 시력, 치료 계획, 치료 전 및 3회 치료 후 빛간섭단층촬영 영상 정보 모두를 포함하여 학습한 모형의 시력 예후 예측 성능이 area under the curve (AUC) 0.79로 가장 우수하였다.

결론

삼출성 나이관련황반변성 환자의 치료 초기 임상 정보를 통해 12개월 후 시력 예후를 예측하는 심층 학습 모형은 우수한 성능을 보였다. 또한 수치 정보에 빛간섭단층촬영 영상 정보를 추가한 경우 시력 예후 예측 결과가 더 좋았다.

Trans Abstract

Purpose

To develop a deep learning model to predict visual acuity (VA) outcomes after 12 months of anti-vascular endothelial growth factor (anti-VEGF) treatment.

Methods

A total of 330 treatment-naive eyes of neovascular age-related macular degeneration patients, who underwent anti-VEGF therapy between 2007 and 2020 at Konkuk University medical center, were included. The network was trained using VA at baseline, VA after three loading doses of anti-VEGF, and treatment regimen data. It was also trained using 12,300 augmented optical coherence tomography (OCT) B-scan images at baseline and after three loading doses of anti-VEGF. We generated five deep learning models using sequentially input data (VA and OCT B-scan images at baseline and after three loading doses, and treatment regimen). Prediction of VA at 12 months was performed using deep learning algorithms, such as convolutional neural network and multilayer perceptron. The outcomes were dichotomized based on whether the decremental change in VA during the 12 months of treatment was more or less than logarithm of the minimum angle of resolution 0.3. Predictive efficiency was assessed by comparing the performance of deep learning models.

Results

The best performing model was trained using input data, including VA at baseline and after three loading doses, treatment regimen, and OCT B-scan images at baseline and after three loading doses. The decremental outcome in VA after 12 months of anti-VEGF treatment was predicted as an area under the curve (AUC) of 0.79. The addition of OCT images at baseline and after three loading doses as input data improved the AUC, sensitivity, and negative predictive value (AUC 0.74-0.79, 0.58-0.86, and 0.90-0.95, respectively).

Conclusions

Our deep learning model showed relatively good performance in classifying good or poor post-treatment VA based on combined clinical information including numerical and image data.

나이관련황반변성(age-related macular degeneration, AMD)은 선진국에서 성인 실명을 유발하는 가장 중요한 원인이며,1,2 우리나라에서도 노령 인구의 증가와 함께 유병률이 증가하고 있다.3 삼출성 나이관련황반변성의 주 치료는 유리체강내 항혈관내피세포성장인자(anti-vascular endothelial growth factor, anti-VEGF) 주입술인데, 해부학적, 기능적으로 삼출성 변화를 호전시킨다.4,5 가장 많이 알려져 있는 치료 방식은 경과 관찰 중 재발하면 주사를 시행하는 방법(pro re nata, PRN)과 치료 및 연장 방법(treat and extend regimen, TER)이다.6 이러한 치료 방법의 장점은 이미 대단위 전향적 연구에서 증명되었지만, 실제 임상에서는 환자마다 이질적이고 다양한 반응을 보여 시력 예후가 예상과는 다른 경우가 많다.7,8 이에 환자의 시력 예후에 영향을 미치는 임상 정보, 시행한 검사 결과들에 대한 연구들이 진행되었는데9 특히, 빛간섭단층촬영(optical coherence tomography, OCT)에서 질병 활성도와 관련하여 망막내액(intraretinal fluid), 망막하 고반사 물질(subretinal hyperreflective material)은 시력 악화와 나쁜 해부학적 예후에, 망막하액(subretinal fluid)은 시력 호전과 좋은 해부학적 예후에 관련 있다고 보고되었다.10-14 이외에도 형광안저촬영 영상, 치료 전 및 3회 치료 후 시력, 주사 종류 등 시력의 예후에 영향을 미치는 인자는 많으나,15 임상 현장에서 이러한 방대하고 다양한 정보들을 동시에 파악하기 어려울 뿐만 아니라, 환자 개개인의 특성을 고려하여 최종 시력을 예측하고 치료 계획을 세우는 것은 제한된 시간 내에 수행하기 어렵다. 이러한 이유로 치료가 충분치 않거나 과한 경우도 발생한다.16-18 이를 해결하기 위해 최근 인공지능(explainable artificial intelligence)을 활용하여 환자의 다양한 정보들을 종합하고 개인 맞춤형 치료 계획의 정확성과 효율성을 높이기 위한 연구들이 주목받고 있다.19,20

최근에는 인공지능을 통해 AMD 환자 치료 전 OCT 영상과 임상 정보를 투입하여 일정 기간 이후의 삼출성 나이 관련황반변성과 관련된 OCT 망막 구조, 실제 OCT 영상, 주사 횟수 등을 예측하는 연구들이 진행되었다.21-25 2018년 Rohm et al9의 연구에서는 삼출성 나이관련황반변성에서 초기 시력, 안압, 주사 횟수 등의 임상 정보와 OCT에서의 망막중심두께를 수치화하여 기계 학습(machine learning)을 시켜 3개월 후 및 1년 후 시력을 예측하였다. 예후에 가장 크게 기여한 정보는 초기 시력이었고, 수치화한 OCT 정보는 기여도가 적었는데 이는 OCT에서 구체적인 병변 정보 대신 전체 망막두께만을 사용하였기 때문이 아닐까 추측한다. 2021년 Fu et al21의 연구에서는 삼출성 나이관련황반변성에서 초기 시력, 1-3회 주사 후 시력, 주사 횟수 등의 임상 정보와 OCT 영상에서의 질병 활성도와 관련된 망막 구조들 즉, 망막내액, 망막하 고반사 물질, 망막하액 등을 인공지능으로 자동 구획화하고 정량화하여 시력과의 연관성을 조사한 바 있다. 그러나 OCT에서 정량화된 병변들을 초기 시력에 추가하였을 때 시력 예후와의 연관성은(R2=0.378) 초기 시력만으로 예측한 것(R2=0.352)에 비해 다소 미미한 상승을 보였다(1.1%).

상기 연구들을 통해 OCT에서 병변을 정량화하는 등의 제한된 정보를 취득하는 전략은 시력 예후 예측에 큰 도움이 되지 않음을 알 수 있고, OCT 원본에 기반한 예후 예측의 필요성을 제시하였다. OCT 영상에서 병변을 정량화하는 대신 영상 원본을 투입하여 삼출성 나이관련황반변성 환자 치료 후 시력을 예측한 연구는 보고된 바가 없어, 본 연구자들은 OCT 영상 원본과 초기 임상 정보(초기 시력, 3회 주사 후 시력, 치료 계획)를 통해 시력 예측 시 정확도가 향상될 것이라는 가설을 세웠다. 또한, OCT 영상 자체와 수치화된 임상 자료를 조합하여 시력 예후를 추정하여야 하기에, 영상 처리에 유리한 심층 학습(deep learning) 구조를 활용하면 예측 정확도가 높아질 것이라고 가정하였다.

본 연구에서는 심층 학습망(deep learning network)에 치료 전 및 3회 치료 후 시력, 치료 계획(TER, PRN), 치료 전 및 3회 치료 후의 OCT 영상 정보를 순차적으로 투입하여 5종의 심층 학습 모형을 구현하고, 삼출성 나이관련황반변성 환자의 치료 12개월 후 시력저하 여부를 예측한 결과를 분석하고자 한다.

대상과 방법

본 연구는 헬싱키선언(Declaration of Helsinki)을 준수하여 건국대학교병원의 임상연구윤리심의위원회(Institutional Review Board, IRB)의 승인을 받았다(승인번호: 2022-06-037). 또한, 본 연구의 모든 연구자는 논문에 제시되어 있는 모든 제품, 제조사와 관계된 이해상충 관계가 없다. 건국대학교 병원에서 2007년 1월부터 2020년 12월까지 삼출성 나이관련황반변성으로 처음 진단되어 유리체강 내 애플리버셉트(aflibercept; Eylea®, Regeneration Pharmaceuticals, Inc., Tarrytown, NY, USA), 라니비주맙(ranibizumab; Lucentis®, Novartis AG, Basel, Switzerland), 베바시주맙(bevacizumab; Avastin®, Genentech, Inc., San Francisco, CA, USA) 치료 첫 3개월 동안 1개월 간격으로 3회의 anti-VEGF 주입술을 시행받았고, 10개월 이상 경과 관찰이 가능하였던 환자의 의무기록을 후향적으로 확보하였다. 연구는 삼출성 나이관련황반변성으로 진단되고 진단 당시 anti-VEGF 주사를 한 번도 받지 않은 환자들의 기록을 대상으로 하였다. 모든 환자는 진단 시 최대교정시력검사, 안저검사 및 안저사진촬영, 안압측정, 스펙트럼영역 빛간섭단층촬영장비(spectral-domain optical coherence tomography [SD-OCT] + Heidelberg retina angiograph; Spectralis, Heidelberg Engineering, Heidelberg, Germany)를 이용한 형광안저혈관조영(fluorescein angiography, FA) 및 인도시아닌그린혈관조영(indocyanine green angiography, ICGA)을 시행하였다. 최대교정시력검사, 빛간섭단층촬영(SD-OCT; Spectralis, Heidelberg Engineering)은 경과 관찰 때마다 시행하였다. 최대교정시력은 logarithm of the minimum angle of resolution (logMAR)으로 변환하여 분석하였다. 유리체강 내 주입술 약제 종류는 임상의의 재량으로 결정되었고, 영상의 화질이 분석에 어려울 정도인 경우 제외하였다.

치료받지 않은 삼출성 나이관련황반변성 환자 330안의 치료 전 및 3회 치료 후 시력, 치료 계획(TER 또는 PRN) 정보와 치료 전 및 3회 치료 후 OCT에서 황반부를 포함하는 단층 부분을 1장씩 확보하였다. 가로 768, 세로 496 화소의 Portable Network Graphics 방식 영상을 96×96 화소 영상으로 변환하여 연산 용량 초과를 예방하였다. 330안으로부터 확보한 OCT 영상 330장 전체 영상 자료를 약 4:1:1.4 비율로 나누어 훈련 조(train set) 205안, 검증 조(validation set) 52안, 시험 조(test set) 73안으로 서로 중복되지 않도록 무작위 분할(random split)하였다. 훈련 조 영상의 수가 제한적이므로, 강건한 신경망 학습을 위하여 수평 뒤집기(horizontal flip), 무작위 밝기/대비 변경(random brightness contrast adjustment), 무작위 크기로 잘라내기(random sized crop)를 각 영상에 무작위로 적용하여 본래 훈련 조 영상보다 60배 많은 12,300장의 치료 전 및 3회 치료 후 영상을 생성하여 훈련 조로 사용하였다. 모형의 예측 결과는 12개월 후 logMAR 시력이 치료 전 시력에 비해 0.3 이상 악화된 경우와 그렇지 않은 경우로 이분화하였다.

12개월 후 시력 악화 여부를 예측하는 심층 학습망(deep learning network)에 정보를 순차적으로 투입하여 입력 자료의 조합이 다른 5종의 심층 학습 모형을 학습하였고, 모형 1부터 5까지의 입력 자료는 다음과 같다; 모형 1: 초기 시력, 모형 2: 초기 및 3개월 후 시력, 모형 3: 초기 및 3개월 후 시력, 치료 계획, 모형 4: 초기 및 3개월 후 시력, 치료 계획, 초기 OCT 영상, 모형 5: 초기 및 3개월 후 시력, 치료 계획, 초기 및 3개월 후 OCT 영상. 비영상 정보들(초기 및 3개월 후 시력, 치료 계획)에 추가적으로 OCT 영상 전체를 추가하였을 때 예측력의 상승에 미치는 영향을 보고자 한 것이 본 연구의 목적이기에 이러한 조합의 순서로 학습을 진행하였다. 다만, 이는 임상적인 관점에서 인위적으로 순서를 선택한 것이기에 각 자료 단독으로 투입한 모형의 area under curve (AUC)가 높은 순서대로 구성한 조합으로 학습한 모형의 성능도 추가로 비교하였다.

마이크로소프트사의 윈도우 10 운영 체계(Windows 10, Microsoft Co., Redmond, WA, USA) 기반의 컴퓨터를 이용하였고, 주 연산 장치는 Core i7-6700 (Intel Co., Santa Clara, CA, USA), 주 연산 메모리 용량 12 GB, 그래픽스 처리 장치(graphics processor unit)는 GeForce GTX 2080 Ti (Nvidia Co., Santa Clara, CA, USA)를 사용하였다. 심층 학습 모형을 구현하기 위한 언어로 파이썬(Python, version 3.7.3, Python Software Foundation, Wilmington, DE, USA)을 이용하였다. 본 연구에서 12개월 치료 후 시력 예후를 예측하는 심층 학습 모형에 합성곱신경망(convolutional neural network, CNN)과 다층 퍼셉트론(multilayer perceptron, MLP)을 적용하였다. 합성곱신경망은 2차원 영상 형태의 입력 자료에 대해 특징 추출을 통한 분류에 우수한 성능을 보여 OCT 영상 자료를 다루는데 이용하였으며, 다층 퍼셉트론은 문서 자료에 내재된 정보를 기반으로 분류 값을 예측할 수 있어 시력, 치료 계획과 같은 수치적 임상 정보로부터 시력 악화 여부를 예측하는 데 활용하였다(Fig. 1). MLP는 입력층, 1층의 은닉층(hidden layer), 출력층으로 구성되었다. 각 층의 노드 수는 3개, 8개, 4개이다. CNN은 컨벌루션(convolution) 및 맥스풀링(max pooling) 3층으로 구성되었다. 출력층에서는 전부 연결된 층(fully connected layer)과 활성화 함수 ReLu를 사용하여 최종 4개의 노드로 출력한다. 각 MLP와 CNN 출력층의 노드 4개를 가로로 이어 붙여 8개의 노드를 형성하고(concatenate), 최종적으로 1개의 출력 노드(치료 전 시력에 대한 치료 12개월 후 logMAR 시력의 0.3 이상 악화 여부)로 출력되도록 모형을 구현하였다.

Figure 1.

Overview of the deep learning model that classifies the prognosis of visual acuity after 12 months of treatment. Anti-VEGF = anti-vascular endothelial growth factor; TER = treatment and extend; PRN = pro re nata; OCT = optical coherence tomography; Good = group of patients whose decremental change of visual acuity during 12 months of treatment is less than logMAR 0.3; Poor = group of patients whose decremental change of visual acuity during 12 months of treatment is more than logMAR 0.3; logMAR = logarithm of the minimum angle of resolution.

훈련 조로 모형을 학습하고, 학습 중 훈련 조와 중복되지 않는 검증 조를 통하여 심층 학습 모형이 훈련 조의 자료에만 과적합되지 않는지 확인하였다. 검증 조를 통하여 구한 검증 조에 대한 손실(validation loss) 및 검증 조에 대한 정확도(validation accuracy)를 고려하여 심층 학습 모형 구현을 위한 변수인 하이퍼변수(hyperparameter)들을 설정 및 조절(tuning)하여 모형의 성능을 높였다. 하이퍼변수 중 학습 횟수(epoch)는 모든 모형이 성능의 포화 시점을 지나고 과적합되지 않도록 150회로 설정하였다. 정확도가 더 이상 상승하지 않고 검증 조에 대한 손실 감소의 중지 시점인 성능의 포화 시점을 지나고, 훈련 조에 대한 손실(훈련 조 자료에 대해 모형이 예측한 결과값과 실제 정답과의 차이를 나타내는 지표)은 감소하나 검증 조에 대한 손실(검증 조 자료에 대해 모형이 예측한 결과 값과 실제 정답과의 차이를 나타내는 지표)이 증가하는 과적합 시점 이전까지 학습을 진행한 것이다. 학습 종료 후, 시험 조를 입력 자료로 투입하여, 12개월 후 시력 악화 여부에 대해 실제 환자 자료와 예측된 결과 간의 일치도를 조사하여 각 모형에 대한 성능 평가를 하였다. 시험 조 추출 시 일정한 난수 생성기(random seed)를 통한 랜덤 샘플링 방식을 사용하였다. 이로 인한 무작위성의 가능성을 배제하기 위해 각 모형에 대한 성능은 난수 생성기 값을 25, 35, 50으로 변경하며 추출한 서로 다른 3개의 시험 조에 대한 학습 결과의 평균으로 평가하였다. 민감도(sensitivity), 특이도(specificity), 양성 예측도(positive predictive value), 음성 예측도(negative predictive value), receiver operating characteristic (ROC) 곡선의 AUC를 기준으로 각 모형의 성능을 평가하였다. 본 연구에서 주요 지표로 활용한 것은 ROC 곡선의 AUC 영역으로, 이는 이진 분류기의 성능을 평가하는데 널리 사용한다. 민감도와 특이도를 복합적으로 표현하기 위한 지표로 ROC 곡선의 x축은 (1-특이도), y축은 민감도이다. AUC는 ROC 곡선 아래에 있는 영역으로, 1에 가까울수록 높은 예측 성능을 가지는 모형이라 할 수 있다.26 본 연구에서 학습시킨 심층 학습 모형이 시험 조에 대한 입력값을 받아 예측한 결과는 12개월 후 시력 악화 여부에 대한 확률로 표현되고, 이를 양성으로 판정하는 임계값을 변화시키며 계산된 ROC 곡선의 AUC로 각 예측 모형의 성능을 평가하였다. 민감도, 특이도, 양성 예측도, 음성 예측도는 ‘민감도+특이도’값이 가장 큰 임계값에서 양성 및 음성을 판정한 정보로부터 구하였다.

결 과

선정 기준에 해당하는 308명 330안을 대상으로 연구가 이루어졌다. 남자 203안, 여자 127안이었고, 평균 연령은 74.05세였다. 치료 병력을 분석하였을 때, 첫 주사가 애플리버셉트인 경우가 193안(58.5%), 라니비주맙인 경우가 107안(32.4%), 베바시주맙인 경우가 30안(9.1%)이었다. 전체에서 치료 전 평균 최대교정시력은 0.57 ± 0.52, 3개월 후 평균 최대교정시력은 0.45 ± 0.45, 12개월 후 평균 최대교정시력은 0.48 ± 0.50이었다. 난수 생성기 값이 35일 때, 시력저하군(poor)에 해당하는 환자는 전체에서 56명으로 17.0%, 훈련 조에서 30명으로 14.6%, 검증 조에서 9명으로 17.3%, 시험 조에서 17명으로 23.3%였다(Table 1).

Comparison of clinical and demographic characteristics of the included patients (n = 330)

초기 시력만으로 학습한 예측 모형(모형 1)의 성능은 AUC 0.49로 가장 낮았고, 그 외 민감도(0.20), 양성 예측도(0.19), 음성 예측도(0.82)도 모두 전체 모형 중 가장 낮은 수치를 보였다. 초기 및 3개월 후 시력으로 학습한 예측 모형(모형 2)의 성능은 AUC 0.61로 초기 시력만으로 학습한 예측 모형(모형 1)에 비해 24.5% 상승하였다. 민감도(0.34), 특이도(0.88), 양성 예측도(0.39), 음성 예측도(0.84) 모두 상승하였다. 초기 및 3개월 후 시력에 치료 계획 PRN과 TER 정보를 추가한 모형(모형 3)의 AUC는 0.74로 초기 및 3개월 후 시력만으로 학습한 예측 모형(모형 2)에 비해 21.3% 상승하였다. 민감도(0.58), 양성 예측도(0.59), 음성 예측도(0.90)도 상승하였으나, 특이도(0.85)는 오히려 추가 전보다 감소하였다. 초기 및 3회 주사 후 시력과 치료 계획에 초기 OCT 영상을 추가로 학습한 모형(모형 4)은 AUC 0.77로 추가 전에 비하여 4.1% 상승하였다. 민감도(0.68), 음성 예측도(0.92)도 추가 전 임상 정보로만 예측한 결과보다 향상되었다. 반면에, 특이도(0.75), 양성 예측도(0.38)는 감소하였다. 마지막으로 3개월 후 OCT 영상을 추가한 모형(모형 5)의 예측 성능은 AUC 0.79로 초기 OCT 영상만 추가하였을 때(모형 4)보다 2.6% 상승하였다. 그 외 민감도(0.86), 음성 예측도(0.95)도 추가 전보다 상승하였으며, 양성 예측도(0.34), 특이도(0.63)는 감소하였다(Table 2).

Evaluation metrics for the visual acuity after 12 months of treatment based on the performance from deep learning model 1, 2, 3, 4 and 5

각 자료 즉, 초기 시력, 3개월 후 시력, 치료 계획, 초기 OCT 영상, 3개월 후 OCT 영상 단독으로 투입한 모형의 AUC는 0.49, 0.57, 0.52, 0.60, 0.57이었다(Table 3). 높은 AUC 순서로 나열해 보자면 초기 OCT 영상, 3개월 후 OCT 영상, 치료 계획, 3개월 후 시력, 초기 시력이었다. 이를 기반으로 AUC가 높은 순서대로 모형을 만들면 다음과 같다; 모형 6: 초기 OCT 영상, 모형 7: 초기 및 3개월 후 OCT 영상, 모형 8: 초기 및 3개월 후 OCT 영상, 치료 계획, 모형 9: 초기 및 3개월 후 OCT 영상, 치료 계획, 3개월 후 시력, 모형 10: 초기 및 3개월 후 OCT 영상, 치료 계획, 초기 및 3개월 후 시력. 모형 10의 조합은 모형 5와 같으므로 모형 5로 표시하였다(Table 4).

Evaluation metrics for the visual acuity after 12 months of treatment based on the performance from deep learning model trained by each single dataset

Evaluation metrics for the visual acuity after 12 months of treatment based on the performance from deep learning model 6, 7, 8, 9 and 5

고 찰

본 연구에서 제안하는 신경망은 삼출성 나이관련황반변성 치료 전 및 3회 치료 후 시력, 치료 계획(TER, PRN)뿐만 아니라 치료 전 및 3회 치료 후 OCT 영상을 순차적으로 투입하며(모형 1-5), 치료 전 시력에 대한 치료 12개월 후 logMAR 시력의 0.3 악화 여부를 예측하는 심층 학습 기반의 알고리즘이다. 치료 전 및 3회 치료 후 시력, 치료 전 및 3회 치료 후 OCT 영상 정보를 순차적으로 추가할수록 12개월 후 시력 예후 예측 모형의 AUC가 증가하는 경향을 보였다(Table 2). 특히, 치료 전 및 3회 치료 후 시력과 치료 계획, 치료 전 및 3회 치료 후 OCT 영상 정보 모두를 포함한 모형 5의 성능이 AUC 0.79로 가장 우수하여, 입력 자료로 수치적 정보에 영상 정보까지 추가할 때 12개월 후 시력 예후에 대한 예측률이 높아짐을 확인하였다.

Fu et al21의 연구에서 OCT상의 특정 병변의 정량 정보를 임상 정보에 추가하였을 때 시력 변화에 대한 예측률이 1.1% 소폭 상승한 것에 비해 본 연구에서는 치료 전 및 3회 치료 후 OCT 영상을 투입하여 6.8%의 뚜렷한 AUC 상승을 보였다. 이는 OCT 영상에서 특정 병변 외에도 시력 예후와 관련된, 임상적으로 의미 있는 정보가 OCT 영상에 존재함을 시사하기 때문에 OCT 영상 전체를 고려하는 것이 예후 예측에 중요함을 확인하였다.

초기 시력에 3회 치료 후 시력을 추가하여 학습 시(모형 2) AUC는 0.49에서 0.61으로 대폭 향상하였다(Table 2). 초기 OCT 영상에 3개월 후 OCT 영상을 추가하여 학습 시(모형 5) 역시 AUC 0.77에서 0.79로 예측 성능이 높아졌다. 이러한 결과는 3회 치료 후의 시력과 OCT 영상 정보 모두 12개월 후 시력 예후에 중요함을 시사한다. Almuhtaseb et al27의 애플리버셉트 안 내 주입술을 시행받은 AMD 환자 자료의 후향적 연구에서 3회 치료 후 반응 여부는 12개월 치료 후 반응 여부의 중요한 지표임을 보고한 바 있는데 이러한 경향성은 본 연구의 인공지능을 통한 12개월 치료 후 시력 예후 예측에서도 확인되었다.

시력 및 치료 계획 임상 정보와 OCT 영상 정보 즉, 모든 정보로 학습된 모형(모형 5)이 가장 높은 AUC를 보였을 뿐만 아니라 민감도, 음성예측도도 가장 우수하였다. 본 연구에서 시력저하가 없을 것이라는 결과를 예측하였을 때 실제로 시력저하가 없는 비율에 대한 평가 지표가 음성 예측도이다. 단안시 환자이거나 시력저하가 심하여 추가적인 시력 악화가 환자에게 치명적일 경우, 1년 후 시력저하가 없다는 예측을 바탕으로 한 치료 간격 연장 등의 치료 계획 신뢰성이 높아야 한다. 따라서 이러한 환자군에는 높은 음성 예측도의 모형(모형 5)을 사용하도록 제안할 수 있다.

다만, 모형 5의 양성 예측도는 OCT 영상 정보 추가 시 수치적 임상 정보만으로 학습된 모형(모형 3)보다 오히려 낮았다. 따라서 초기 시력이 좋은 환자들이나 향후 시력 악화 가능성이 있는 환자들을 미리 알아내고 싶다면 모형 5보다 양성 예측도 높은 모형 3을 사용하는 것이 좋을 것으로 생각된다. 이진분류기의 전반적 성능은 AUC가 가장 중요하나 OCT 영상 정보 추가 시 양성 예측도와 특이도의 저하가 있었으므로, 본 연구의 심층 학습 모형을 활용할 때 유의해야 한다. 모형 5에서 영상 정보의 추가로 유발된 양성 예측도, 특이도 하락의 원인에 대해서는 훈련된 심층 학습망의 결과 도출 과정에 수만 개 이상의 변수들이 학습되어 그 과정을 완전히 해석하기 어렵기 때문에, 향후 추가 연구가 필요하다.

각 자료 단독으로 학습한 모형의 AUC가 높은 순서대로 정보를 연속적으로 추가하며 성능을 비교하였을 때에도 치료 전 및 3회 치료 후 시력과 치료 계획, 치료 전 및 3회 치료 후 OCT 영상 정보 모두를 포함한 모형 5의 성능이 AUC 0.79로 가장 우수하였다. 그러나 정보를 순차적으로 추가할 때 AUC가 따라서 증가하지는 않았는데(Table 4), 이 원인을 알기 위하여 설명 가능한 인공지능 이용 등의 추가 연구가 필요하다.

본 연구에서는 12개월 후 시력이 초기 시력에 비해 logMAR 0.3 이상 저하하였는지의 여부를 예측하였다. 예측된 시력의 결과 값을 이분화하지 않고 심층 학습 모형으로 인해 예측된 시력값 자체를 연속적인 변수로 실제값과 비교해 보 았으나 성능이 매우 낮게 측정되어 시력 예후를 이분화하여 비교하는 방법을 선택하였다. 이는 본 연구에서 사용한 훈련 조 영상 수가 적어서 심층 학습이 불충분하게 이루어졌기 때문이라 생각한다. 본 연구에서는 결과 값 이분화의 한계점을 보완하기 위해 다양한 임계값에 대한 이진분류기의 성능을 한번에 표시 가능한 AUC를 모형의 평가 지표로 사용하였다. 추후 더 많은 환자군을 포함한 자료를 확보하여 연구한다면 이분화를 거치지 않은 연속적인 시력 예측 결과 값이 예후에 미치는 영향을 더 정확히 확인할 수 있을 것이다. 본 연구의 모형 성능을 향상시키려면 더 많은 훈련 조를 확보하거나, 다양한 신경망 구조들을 비교 시험하며 더 적합한 신경망을 찾아 모형의 구조를 고도화할 수 있다. 추후에 미리 학습된 신경망을 이용한 전이 학습(transfer learning)을 적용하거나, 하이퍼변수 최적화 테크닉을 추가하거나, 자료 조 분할 시 무작위 방법보다는 부트스트랩(bootstrap), 교차 검증(cross validation)을 사용하는 등의 방법들을 통해 모형의 성능을 더 높일 수 있을 것이다. 또한, FA, ICGA, OCT angiography 등의 새로운 정보를 추가적으로 투입하면 더 정확한 예측 가능한 모형을 구현할 수 있을 것으로 보인다.

결론적으로 본 연구에서는 삼출성 나이관련황반변성 환자의 치료 초기 임상 정보를 통해 12개월 후 시력 예후를 예측하는 심층 학습 모형을 처음으로 구현하였고, 우수한 성능을 보였다. 또한, OCT 영상 원본을 추가적으로 심층 학습 모형의 입력 자료로 이용 시 예측률의 뚜렷한 상승이 있었다. 심층 학습 모형을 통한 정확한 시력 예측은 각 환자의 특성 및 필요에 맞춰 더 효율적인 anti-VEGF 주사 치료를 가능하게 할 수 있을 것이다.

Notes

Conflicts of Interest

The authors have no conflicts to disclose.

References

1. Augood C, Fletcher A, Bentham G, et al. Methods for a population-based study of the prevalence of and risk factors for age-related maculopathy and macular degeneration in elderly European populations: the EUREYE study. Ophthalmic Epidemiol 2004;11:117–29.
2. Friedman DS, O’Colmain BJ, Muñoz B, et al. Prevalence of age-related macular degeneration in the United States. Arch ophthalmol 2004;122:564–72.
3. Park SJ, Lee JH, Woo SJ, et al. Age-related macular degeneration: prevalence and risk factors from Korean National Health and Nutrition Examination Survey, 2008 through 2011. Ophthalmology 2014;121:1756–65.
4. Brown DM, Kaiser PK, Michels M, et al. Ranibizumab versus verteporfin for neovascular age-related macular degeneration. N Engl J Med 2006;355:1432–44.
5. Rosenfeld PJ, Brown DM, Heier JS, et al. Ranibizumab for neovascular age-related macular degeneration. N Engl J Med 2006;355:1419–31.
6. Berg K, Pedersen TR, Sandvik L, Bragadóttir R. Comparison of ranibizumab and bevacizumab for neovascular age-related macular degeneration according to LUCAS treat-and-extend protocol. 2015;122:146–52.
7. Finger RP, Wiedemann P, Blumhagen F, et al. Treatment patterns, visual acuity and quality‐of‐life outcomes of the WAVE study-a noninterventional study of ranibizumab treatment for neovascular age‐related macular degeneration in Germany. Acta Ophthalmol 2013;91:540–6.
8. Holz FG, Tadayoni R, Beatty S, et al. Multi-country real-life experience of anti-vascular endothelial growth factor therapy for wet age-related macular degeneration. Br J Ophthalmol 2015;99:220–6.
9. Rohm M, Tresp V, Müller M, et al. Predicting visual acuity by using machine learning in patients treated for neovascular age-related macular degeneration. Ophthalmology 2018;125:1028–36.
10. Schmidt-Erfurth U, Waldstein SM. A paradigm shift in imaging biomarkers in neovascular age-related macular degeneration. Prog Retin Eye Res 2016;50:1–24.
11. Waldstein SM, Philip AM, Leitner R, et al. Correlation of 3-dimensionally quantified intraretinal and subretinal fluid with visual acuity in neovascular age-related macular degeneration. JAMA Ophthalmol 2016;134:182–90.
12. Roberts PK, Schranz M, Motschi A, et al. Baseline predictors for subretinal fibrosis in neovascular age-related macular degeneration. Sci Rep 2022;12:88.
13. Patil NS, Mihalache A, Dhoot AS, et al. Association between visual acuity and residual retinal fluid following intravitreal anti-vascular endothelial growth factor treatment for neovascular age-related macular degeneration: a systematic review and meta-analysis. JAMA Ophthalmol 2022;140:611–22.
14. Llorente‐González S, Hernandez M, González‐Zamora J, et al. The role of retinal fluid location in atrophy and fibrosis evolution of patients with neovascular age‐related macular degeneration long‐term treated in real world. Acta Ophthalmol 2022;100–e521. –31.
15. Jaffe GJ, Martin DF, Toth CA, et al. Macular morphology and visual acuity in the comparison of age-related macular degeneration treatments trials. Ophthalmology 2013;120:1860–70.
16. Mehta H, Tufail A, Daien V, et al. Real-world outcomes in patients with neovascular age-related macular degeneration treated with intravitreal vascular endothelial growth factor inhibitors. Prog Retin Eye Res 2018;65:127–46.
17. Daien V, Finger RP, Talks JS, et al. Evolution of treatment paradigms in neovascular age-related macular degeneration: a review of real-world evidence. Br J Ophthalmol 2021;105:1475–9.
18. Okada M, Mitchell P, Finger RP, et al. Nonadherence or nonpersistence to intravitreal injection therapy for neovascular age-related macular degeneration: a mixed-methods systematic review. Ophthalmology 2021;128:234–47.
19. Haller JA. Current anti-vascular endothelial growth factor dosing regimens: benefits and burden. Ophthalmology 2013;120:S3–7.
20. Schmidt-Erfurth U, Sadeghipour A, Gerendas BS, et al. Artificial intelligence in retina. Prog Retin Eye Res 2018;67:1–29.
21. Fu DJ, Faes L, Wagner SK, et al. Predicting incremental and future visual change in neovascular age-related macular degeneration using deep learning. Ophthalmol Retina 2021;5:1074–84.
22. Liu B, Zhang B, Hu Y, et al. Automatic prediction of treatment outcomes in patients with diabetic macular edema using ensemble machine learning. Ann Transl Med 2021;9:43.
23. Bogunović H, Waldstein SM, Schlegl T, et al. Prediction of anti-VEGF treatment requirements in neovascular AMD using a machine learning approach. Invest Ophthalmol Vis Sci 2017;58:3240–8.
24. Romo-Bucheli D, Erfurth US, Bogunović H. End-to-end deep learning model for predicting treatment requirements in neovascular AMD from longitudinal retinal OCT imaging. IEEE J Biomed Health Inform 2020;24:3456–65.
25. Lee H, Kim S, Kim MA, et al. Post-treatment prediction of optical coherence tomography using a conditional generative adversarial network in age-related macular degeneration. Retina 2021;41:572–80.
26. Bradley AP. The use of the area under the ROC curve in the evaluation of machine learning algorithms. Pattern Recognit 1997;30:1145–59.
27. Almuhtaseb H, Kanavati S, Rufai S, Lotery AJ. One-year real-world outcomes in patients receiving fixed-dosing aflibercept for neovascular age-related macular degeneration. Eye (Lond) 2017;31:878–83.

Biography

김나정 / Najung Kim

건국대학교 의학전문대학원 건국대학교병원 안과학교실

Department of Ophthalmology, Konkuk University Medical Center, Konkuk University School of Medicine

Article information Continued

Figure 1.

Overview of the deep learning model that classifies the prognosis of visual acuity after 12 months of treatment. Anti-VEGF = anti-vascular endothelial growth factor; TER = treatment and extend; PRN = pro re nata; OCT = optical coherence tomography; Good = group of patients whose decremental change of visual acuity during 12 months of treatment is less than logMAR 0.3; Poor = group of patients whose decremental change of visual acuity during 12 months of treatment is more than logMAR 0.3; logMAR = logarithm of the minimum angle of resolution.

Table 1.

Comparison of clinical and demographic characteristics of the included patients (n = 330)

Demographics Total (n = 330) Train (n = 205) Validation (n = 52) Test (n = 73) p-value*
Age (years) 74.05 ± 8.78 73.67 ± 8.68 74.92 ± 9.17 74.51 ± 8.84 0.47
Gender 0.94
Men 203 (61.5) 128 (62.4) 29 (55.8) 46 (63.0)
Women 127 (38.5) 77 (37.6) 23 (44.2) 27 (37.0)
Treatment regimen 0.94
TER 63 (19.1) 40 (19.5) 9 (17.3) 14 (19.2)
PRN 267 (80.9) 165 (80.5) 43 (82.7) 59 (80.8)
LogMAR VA
Baseline 0.57 ± 0.52 0.57 ± 0.53 0.55 ± 0.47 0.56 ± 0.54 0.90
After 3 months 0.45 ± 0.45 0.44 ± 0.43 0.45 ± 0.36 0.47 ± 0.55 0.46
After 12 months 0.48 ± 0.50 0.46 ± 0.47 0.51 ± 0.54 0.53 ± 0.55 0.85
Decremental change of VA 0.39
Poor 56 (17.0) 30 (14.6) 9 (17.3) 17 (23.3)
Good 274 (83.0) 175 (85.4) 43 (82.7) 56 (76.7)
Number of anti-VEGFs
Aflibercept 3.23 ± 2.67 3.45 ± 2.66 3.21 ± 2.56 2.64 ± 2.73 0.80
Ranibizumab 1.57 ± 2.24 1.43 ± 2.25 1.48 ± 2.06 2.03 ± 2.30 0.06
Bevacizumab 0.56 ± 1.37 0.58 ± 1.43 0.54 ± 1.16 0.49 ± 1.34 0.87

Values are presented as mean ± standard deviation or number (%), and calculated when random seed number was set at 35.

TER = treatment and extend; PRN = pro re nata; logMAR = logarithm of the minimum angle of resolution; VA = visual acuity; Poor = group of patients whose decremental change of visual acuity during 12 months of treatment is more than logMAR 0.3; Good = group of patients whose decremental change of visual acuity during 12 months of treatment is less than logMAR 0.3; anti-VEGF = anti-vascular endothelial growth factor.

*

Kruskal-Wallis test.

Table 2.

Evaluation metrics for the visual acuity after 12 months of treatment based on the performance from deep learning model 1, 2, 3, 4 and 5

Models and input data for training Model 1: VA 0 Model 2: input data of Model 1+VA 3 Model 3: input data of Model 2+treatment regimen data Model 4: input data of Model 3+OCT 0 Model 5: input data of Model 4+OCT 3
Area under curve 0.49 0.61 0.74 0.77 0.79
Sensitivity 0.20 0.34 0.58 0.68 0.86
Specificity 0.85 0.88 0.85 0.75 0.63
Positive predictive value 0.19 0.39 0.59 0.38 0.34
Negative predictive value 0.82 0.84 0.90 0.92 0.95

Values are presented as the average of three different test sets according to random seed 25, 35 and 50.

VA 0 = visual acuity at baseline; VA 3 = visual acuity after 3 loading doses of anti-VEGF treatment; OCT 0 = OCT B-scan images at baseline; OCT 3 = OCT B-scan images after 3 loading doses of anti-VEGF treatment; OCT = optical coherence tomography; VEGF = vascular endothelial growth factor.

Table 3.

Evaluation metrics for the visual acuity after 12 months of treatment based on the performance from deep learning model trained by each single dataset

Dataset VA 0 VA 3 Treatment regimen data OCT 0 OCT 3
Area under curve 0.49 0.57 0.52 0.60 0.57
Sensitivity 0.20 0.29 0.11 0.65 0.31
Specificity 0.85 0.93 0.95 0.56 0.86
Positive predictive value 0.19 0.21 0.10 0.27 0.28
Negative predictive value 0.82 0.83 0.82 0.88 0.85

Values are presented as the average of three different test sets according to random seed 25, 35 and 50.

VA 0 = visual acuity at baseline; VA 3 = visual acuity after 3 loading doses of anti-VEGF treatment; OCT 0 = OCT B-scan images at baseline; OCT 3 = OCT B-scan images after 3 loading doses of an anti-VEGF treatment; OCT = optical coherence tomography; VEGF = vascular endothelial growth factor.

Table 4.

Evaluation metrics for the visual acuity after 12 months of treatment based on the performance from deep learning model 6, 7, 8, 9 and 5

Models and input data for training Model 6: OCT 0 Model 7: input data of Model 6+OCT 3 Model 8: input data of Model 7+treatment regimen data Model 9: input data of Model 8+VA 3 Model 5: input data of Model 9+VA 0
Area under curve 0.60 0.55 0.59 0.65 0.79
Sensitivity 0.65 0.41 0.52 0.48 0.86
Specificity 0.56 0.75 0.66 0.76 0.63
Positive predictive value 0.27 0.21 0.31 0.33 0.34
Negative predictive value 0.88 0.85 0.88 0.86 0.95

Values are presented as the average of three different test sets according to random seed 25, 35 and 50.

OCT 0 = OCT B-scan images at baseline; OCT 3 = OCT B-scan images after 3 loading doses of anti-VEGF treatment; VA 3 = visual acuity after 3 loading doses of anti-VEGF treatment; VA 0 = visual acuity at baseline; OCT = optical coherence tomography; VEGF = vascular endothelial growth factor.