💊

의약품과 식품 간 상관관계를 알려주는 DFinder

Created

2023/02/20

Editor

rla0010101@gmail.com

김수빈

논문 제목 | DFinder : a novel end-to-end graph embedding-based method to identify drug-food interactions 저자 | Tao Wang, Jinjin Yang, Yifu Xiao, Jingru Wang, Yuxian Wang, Xi Zeng, Yongtian Wang and Jiajie Peng 일시 | 2023.02.03.

www.researchgate.net

https://www.researchgate.net/publication/366672484_DFinder_A_novel_end-to-end_graph_embedding-based_method_to_identify_drug-food_interactions

Bioinformatics 분야를 떠올리면 대부분 방대한 유전 정보인 DNA를 기반으로 특정 형질의 발현 여부를 예측하는 데 기반이 된다는 인식이 존재합니다. 하지만 그 밖의 Bioinformatics 연구 분야를 소개하면서도 생명 분야 내에서 또 다른 세부적인 영역인 식품의 Computational Approach가 어떻게 적용되고 있는지 소개하고 싶어 해당 DFinder 논문을 선정하게 되었습니다.

시간이 부족하다면 인스타 게시글 링크

0. 읽기 전 참고하면 좋은 사전 지식

1. Introduction

1.1. 연구 동기 소개

1.2. 시사점

2. Materials and Methods

2.1. Experimental Setup

2.2. link prediction

2.3. Dataset 마련 방법 및 모델 알고리즘

3. 결과

3.1. 성능 평가 절차

3.2. Performance Evaluation on DrugBank-DFI

3.3. Performance Evaluation on PubMed-DFI

4. 논문의 활용 가치

0. 읽기 전 참고하면 좋은 사전 지식

DNN

DNN에 대해 먼저 알기 전 인공지능, 머신러닝, 딥러닝에 대해 먼저 알아볼 필요가 있습니다.

•

인공지능 : 인간의 지능을 기계 등에 인공적으로 구현한 것을 말합니다;

•

머신러닝 : 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 뜻합니다.

•

딥러닝 : 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(다량의 복잡한 자료들에서 핵심적인 내용만을 추려내는 작업)을 시도하는 머신러닝 알고리즘의 집합입니다.

머신러닝의 한 분야인 딥러닝은 인공신경망(ANN, Artificial Neural Network)을 기초로 하고 있습니다. ANN을 인공 뉴런인 Node에 비유한다면 들어온 자극은 ANN에서 Input Data이며 최소한의 신호 전달 요건인 임계값은 가중치(Weight), 자극에 의해 행동을 하는 것은 Output Data입니다.

신경망은 입력층, 출력층과 그 사이의 은닉층이 존재합니다. 여기서 은닉층의 수와 노드의 개수를 구성하는 것을 모델을 구성한다고 합니다. 이 모델을 잘 구성하여 원하는 Output 값을 잘 예측하는 것이 최종 목표이고 은닉층에서는 활성화 함수를 사용하여 최적의 가중치와 편차를 찾아내는데 최적의 파라미터를 찾는 과정이 어렵고 은닉층의 개수가 학습 시간에 많은 영향을 미친다는 문제점이 있습니다.

이러한 ANN 기법의 여러 문제를 해결하고 은닉층을 늘리면서도 학습의 결과를 향상한 방법을 DNN(Deep Neural Network)이라고 합니다. DNN을 응용한 알고리즘이 CNN, RNN인 것이고 이 외에도 LSTM 등이 있습니다.

ReLu 함수

ReLu 함수는 은닉층에서 많이 사용되는 함수입니다. ReLu 함수는 딥러닝 역사에 있어 한 획을 그은 활성화 함수인데, ReLu 함수가 등장하기 이전엔 출력 값의 범위가 0에서 1 사이이고 레이어(Layer)를 거치면 거칠수록 값이 너무 작아져서 Vanishing Gradient 기울기 소실 현상이 발생하는 시그모이드 함수를 활성화 함수로 사용하였습니다.

ReLu 함수는 기울기 소실 문제가 발생하지 않습니다. 양수는 그대로, 음수는 0으로 반환하기 때문에 출력값의 범위가 넓고 양수일 때 자기 자신을 그대로 반환하기 때문입니다. 또한, 기존 활성화 함수에 비해 편미분으로 기울기를 구할 때 1로 일정하므로 가중치 업데이트 속도가 매우 빠릅니다. 그러나 입력값이 음수면 기울기가 0이 되어 가중치 업데이트가 안 되는 현상이 발생할 수 있습니다. 가중치가 업데이트되는 과정에서 가중치 합이 음수가 되는 순간 렐루는 0을 반환하기 때문에 해당 뉴런은 그 이후로 0만 반환하는 현상이 발생할 수 있습니다.

DFIs

Drug-Food Interactions의 약자로 "섭취한다"는 공통점이 있는 식품과 약의 상호작용에 대해 연구하는 학문입니다. 약물을 음식, 음료, 보충제 혹은 또 다른 약물과 함께 먹었을 때 나타나는 약물의 효능을 말합니다.

1. Introduction

1.1. 연구 동기 소개

Drug-Food Interactions (DFIs)란 음식의 구성요소가 어떻게 약의 효능에 영향을 미칠지 약역학 등 상호 작용을 연구하는 Bioinformatics 분야 중 한 주제입니다.

DFIs는 의료, 생물의학 서적에서 시작되었는데 제한적인 약과 식품 종류만 다루고 있다는 점, DFIs의 대부분이 시간과 연구비가 많이 드는 "어떻게 식품이 약의 효과에 영향을 미치는지"에 대한 생명공학적 결과를 밝히는 것에만 집중하고 있다는 점에서 한계를 가지고 있습니다. 또한, 양질의 DFI 데이터셋이 부족하고 식품은 많은 화학물질로 구성되어있는 복합체이기 때문에 DFI를 잘 파악할 수 있는, 잘 구축된 컴퓨터적 접근 방식이 많이 없다는 문제점이 있습니다. 따라서 연구자들은 식품의 특징을 “잘” 추출하여 학습하고 약과 식품 간 상호작용을 예측하기 위해 논문을 작성하였습니다.

1.2. 시사점

논문에서 제시한 데이터 셋 구성 방법과 모델의 가치를 간략하게 요약하여 설명하려고 합니다.

DFI Data는 DrugBank-DFI와 PubMed-DFI라는 2개의 데이터 셋을 구축하였습니다. DFinder는 End-to-end Embedding-based Method로 약과 식품 영양소 간 특징을 학습하여 DFIs를 확인하기 위해 구성된 모델입니다. 해당 모델은 Deep Neural Network를 이용하여 기존 노드 특성으로부터 특징을 추출하는 <Attribute Feature Extraction> 부분과 Graph Convolution Network-based Method 기반의 <Structure Feature Extraction> 파트로 나누어져 있습니다.

해당 논문의 요건은 약과 음식의 상관관계를 파악하는 DFIs 분야에서 DFinder 모델을 이용하여 데이터 셋을 학습하면 다른 기존의 모델보다 더 높은 성능을 끌어낼 수 있다는 것입니다.

2. Materials and Methods

2.1. Experimental Setup

DFI network를 통해서 DFinder 모델로 DFIs를 식별하는 것이 목표입니다. 해당 논문은 DFI Network cConstruction과 Computational Framework for DFI Prediction이라는 총 2개의 파트로 구성되어 있고 간략하게 요약을 하면 아래와 같습니다.

•

DFI Network Construction

◦

DFinder 모델을 이용하기 전 약 관련 데이터를 어떻게 수집했는가에 대한 내용입니다.

◦

DrugBank Database에서 DrugBank-DFI Dataset를 추출하였습니다.

◦

PubMed에서 텍스트 마이닝 기법을 통해 PubMed-DFI Dataset을 추출하였습니다.

◦

위 두 Dataset을 기반으로 각각의 DFI Network를 구축하였습니다.

•

Computational Framework for DFI Prediction

◦

모델 알고리즘에 대한 내용입니다.

◦

Bayesian Personalized Ranking (BPR) Loss 방식으로 최적화를 하였습니다.

각 항목에 대한 세부 설명은 아래와 같습니다.

2.2. link prediction

DFIs는 Drugs와 Food가 이분 그래프의 노드이고 이들 간 관계가 엣지인 네트워크로 표현될 수 있기 때문에 이분 그래프(네트워크)는 Biomedical Entities 간(여기서는 약-식품) 상호작용을 예측하는데 쓰일 수 있습니다. 이러한 Link Prediction 분야에서 사용되는 그래프 분석 방식이 Embedding Method입니다. DFinder 모델은 이러한 임베딩 방식을 차용했으며 입력 및 출력을 직접 고려하여 네트워크 가중치를 최적화 하는 학습을 종단 간 학습(End-to-End Learning)을 기반으로 구축되었습니다.

2.3. Dataset 마련 방법 및 모델 알고리즘

먼저 어떻게 DFI 데이터를 수집하여 DFI Networks를 구축하였는지에 대한 내용입니다.

•

DFI Network Based on DrugBank

◦

DrugBank : 약물 상호작용, 약리학, 화학 구조, 타겟, 기전 등의 특정 약에 대한 정보를 담고 있는 사이트입니다. 

▪

DrugBank 데이터베이스에서 DFI에 대한 정보를 담고 있는 3000문장을 포함하는 DFI 데이터(XML 형태)를 수집하였습니다.

▪

하지만 "공복에 드세요.", "식전 적어도 1시간 전에 드세요."와 같이 약 복용 시 시간을 나타내는 표현과 "이 약은 음식과 함께 드세요"처럼 특정 음식을 지칭하지 않아 약과 명확한 상관관계를 보여주지 않는 문장은 삭제하였습니다. 

▪

음식 구성 요소와 약Drug 간 불명확한 관계를 나타내는 문장을 제거하였습니다.

◦

FOODB : 식품 내 영양소 정보의 총 집합입니다.

▪

DFIs에 포함된 음식 정보는 아보카도, 치즈와 같은 음식 형태와 비타민C, 아연과 같은 영양소 형태로 나눌 수 있습니다. 식품을 음식 내 존재하는 상위 20개의 영양소로 대체하여 실질적으로 약과 영양소 간 상호작용을 파악하려고 하였습니다.

•

DFI Network Based on PubMed

◦

Co-Occurrence-Based Text Mining Method

▪

동시성을 이용하여 같은 문서 내 언급되는 두 독립체(각각 식품과 약)는 연관 관계가 높다는 가정을 통해 식품-약 쌍(Pair)을 만드는 텍스트 마이닝 과정을 거쳤습니다.

▪

관련 3가지 규칙

•

1) 20번 이상의 약-음식 구성 요소 쌍의 동시성이 확인되었을 때만 DFIs 연구로써 식품과 약의 상호 연관성이 있다는 것을 인정합니다.

•

2) 예를 들어 비타민C(영양소, FooDB)가 약Drug 그 자체일 때 중복되었으므로 제거합니다.

•

3) 같은 논문에 실려 있는 식품-약 Pair는 주제가 같기 때문에 불가피하게 언급이 많이 된 것일 수도 있기 때문에 이를 보정하여 유사성을 고려합니다.

그 다음으로는 모델의 작동 원리에 대한 내용입니다.

•

Attribute Feature Extraction (Feature Space)

◦

Original Node Attribute Information의 차원을 축소하기 위해 DNN을 사용하였습니다.

◦

활성화 함수는 ReLu 입니다.

◦

위상학적 특성과 노드 특징을 합해서 최종 임베딩을 진행합니다.

◦

논문에서는 DNN을 4개의 층으로 구성하였습니다.

◦

예측 성능을 높이기 위해 SSP를 특징 벡터로 선택하였습니다.

•

Structure Feature Extraction

Graph data를 학습하기 위해 선택된 신경망 구조는 GCN(Graph Convolutional Networks)입니다. GCN은 그래프 구조에 대해 Convolution 연산을 적용합니다.

일반적인 CNN(Convolutional Neural Networks)은 한 칸씩 옮겨가며 해당 칸의 특징들을 Aggregation함으로써 Local feature로 사용합니다. 그리고 CNN은 각 특징마다 다른 신경망을 사용하는 것이 아닌, 가중치를 공유하는 신경망을 사용함으로써 효율적으로 파라미터를 사용합니다.

하지만 이런 CNN 구조를 그래프 데이터에 사용하기엔 어렵다는 문제점이 있습니다. 그래프 데이터는 이웃하는 노드의 개수가 일정하지 않고, 그래프의 노드들의 순서가 바뀌었을 때도 Output이 유지되는 Permutation invariance가 유지되어야 하기 때문입니다. 그래서 그래프 데이터에 대해 CNN과 비슷한 특성을 공유하는 Neural Network인 GCN이 고안되었습니다.

GCN의 Propagation rule은 아래 수식과 같습니다.

Z^((l+1))=σ(D ˜^(-1/2) A ˜D ˜^(-1/2) Z^((l)) W^l )

•

A^은 A+In로 항등 행렬이 추가된 인접 행렬입니다.

•

D는 차수 행렬로, 인접행렬 A에서 각 노드의 차수 정보를 합한 행렬입니다.

•

W^l는 Layer l에 따라 다른 가중치 행렬입니다.

•

σ 활성화 함수로 위 식에서는 비선형 활성화 함수를 의미합니다.

하지만 연구자들은 일반적인 GCN을 그래프의 특징을 파악하기 위해 사용하는 것보다 “연결 여부”를 더 집중적으로 파악하여 효율적으로 훈련할 수 있는 LightGCN을 선택하였습니다. LightGCN의 Propagation Rule은 아래와 같습니다.

T_D^((l+1)) =∑_(F∈N_D ) 1/(√(|N_D | ) √(|N_F | )) T_F^((l))

T_F^((l+1))=∑_(D∈N_F ) 1/(√(|N_F | ) √(|N_D | )) T_D^((l))

•

첫 번째와 두 번째는 각각 약Drug과 식품Food constituent 노드 간 연결 네트워크를 파악하는 수식입니다.

•

두 식 모두 그래프 Convolution 연산 시 스케일이 기하급수적으로 커지는 것을 막기 위해 정규화를 하였습니다.

최종적으로 그래프의 위상학적 특징을 추출하는 식은 아래와 같습니다.

T_D=1/(K+1) ∑_(k=0)^K▒ T_D^((k))

T_F=1/(K+1) ∑_(k=0)^K▒ T_F^((k))

•

LightGCN의 Layer에서 얻은 임베딩을 결합하는 과정입니다.

위 내용의 전체적인 흐름을 살펴보면 아래와 같습니다.

•

The Framwork of DFinder

A 부분은 Attribute Feature Extraction 과정으로 주어진 약물 또는 식품 구성 요소의 고유한 특징을 파악할 수 있는 SSP를 특징 벡터로 생성하여 DNN에 Input함으로써 Attribute Feature를 학습한 뒤 Output으로 저차원 임베딩을 얻었습니다.

B 단계는 Structure Feature Extraction 과정입니다. 이분 그래프에서 Drug Node와 Food Constituent Node 간 연결을 예측하는 Link Prediction 분야에서 사용되는 LightGCN을 이용하여 Topological Structure를 파악하였습니다.

위 두 과정을 통해서 얻은 임베딩을 연접한 뒤 C 파트에서 Drug와 Food Constituent의 특징 추출 최종 결과를 내적 하여 DFIs를 예측합니다. 그 이후 관찰된 DFIs와 관찰되지 않는 DFIs를 이용해 BPR Loss로 모델을 최적화하였습니다.

3. 결과

3.1. 성능 평가 절차

DFinder 모델 성능을 평가하기 위해 “DrugBank-DFI와 PubMed-DFI을 각각 테스트하였습니다.”

위의 두 데이터 셋은 Positive Samples입니다. 랜덤으로 선택하여 Training Set 80%, Testing Set 20%로 나누었습니다. 아래의 두 데이터 셋은 Negative samples입니다. Train Set과 Test Set 모두 Positive samples와 마찬가지로 8:2로 나누었습니다.

DFIs는 식품과 약 Drug 노드 간 연결 네트워크를 파악하는 문제입니다. 이러한 링크 예측은 네트워크에서 두 entity 간의 링크 존재를 예측하는 것이기 때문에 AUROC와 AUPR로 모델의 성능을 평가하였습니다.

성능 평가에서 DFinder 모델을 다른 12개의 알고리즘과 비교하였고 정확한 예측을 위해서 랜덤으로 데이터 셋을 5번 나누었습니다.

3.2. Performance Evaluation on DrugBank-DFI

DFinder 성능을 평가하기 위해 선택한 첫 번째 데이터셋이고 다른 모델들에 비해 압도적으로 성능 지표 수치가 높게 나왔습니다.

3.3. Performance Evaluation on PubMed-DFI

마찬가지로 다른 모델들과 비교했을 때 최고의 성능을 자랑했습니다.

“DFinder has significantly improved the performance of DFI identification.”

4. 논문의 활용 가치

DFI Data가 부족하지만 다른 사이트를 통해 데이터 셋을 구축하여 모델을 개발함으로써 앞으로 이 분야에서 Computational Approach의 발전을 기대할 수 있었습니다. 또한, DFinder 모델의 기여로 약물과 식품 간의 상호작용을 파악할 수 있었습니다. 또한, 약은 영양소의 흡수, 대사, 배설에 영향을 미치고 체내 영양 상태에 변화를 줄 수 있기 때문에 약물치료를 받는 개개인에게 좋은 영양 상태를 유지하기 위한 해결책을 제시해 줄 수 있을 것입니다. 더 나아가서 질병과 관련이 있는 식단 변화의 중요성을 고려한다면 영양가 높고 균형 잡힌 식사가 개인의 건강을 유지할 수 있는 방향으로 DFinder 모델이 이바지할 수 있을 것으로 생각합니다. 그리고 영양 불량이나 약리 작용 변화로 인한 위험을 줄이는 데 긍정적인 영향을 미칠 수 있을 것입니다.

23w Digital Contents

@김수빈

문의사항 manager@deepdaiv.com