[Vol.2] 인공지능과 데이터 분석으로 질병 확산을 예측할 수 있는가?
인공지능과 데이터 분석으로 질병 확산을 예측할 수 있는가?
한상기 ([email protected])
테크프론티어 대표
검색 데이터와 소셜 미디어를 기반으로 한 연구들
전통적으로 독감을 측정하는 방법은 환자가 의사에게 가서 증세를 상담해 여러 가지 증후를 파악하는 방법과 환자에 대한 실험실 데이터를 분석하는 바이러스 검사를 통한 방법이 기존의 방법이었다. 독감과 같은 전파력이 높은 감염성 질병에 대한 연구를 데이터 분석을 통한 연구는 지난 10여 년 동안 꾸준히 이루어졌다.
새로운 분석 방법에서 지금까지 가장 유명했던 방식은 2008년에 시작한 구글의 ‘구글 플루트렌드’ 연구이다. 구글은 검색어의 행태를 파악해서 독감 발생을 예측할 수 있음을 보여주고자 했다. 우선, 질병관리 본부(CDC)가 증후를 파악하는 ILInet의 데이터와 가장 연관성이 높은 5천만 개의 검색 단어의 후보를 선정하고, 지역에 따른 ILInet의 데이터 특성을 바탕으로 특정 지역에서 발생하는 임의의 검색어가 더 중요함을 포착했다.(1)
그다음으로는 계절에 따른 시점과 심각성을 기반으로 2003년부터 가장 최근 데이터를 분석했으며, 이 모델을 ILI 데이터와 2008년부터 비교하면서 최적화를 이루어 냈다. 2009년 여름 H1N1 독감에 대한 검색 행위의 변화를 찾아낸 모델이 그전보다 CDC 데이터와 더 일치함을 알아내고 이를 다시 PLUS ONE에 논문으로 발표했다.(2)
구글 플루 트렌드가 진행한 미국에서 과거 독감 트렌드 예상 결과
그러나 2010년 워싱턴 대학에서 구글 플루 트렌드가 CDC 모니터링 프로그램보다 정확도가 25% 정도 떨어진다는 연구를 발표했다. (3)이유는 독감과 같은 증세 중에서 실제 인플루엔자 바이러스로 인한 것은 20%~70% 정도이기 때문에 검색 량의 변화가 실제 인플루엔자를 반영할 수 없다는 점이다. 구글은 2015년 8월에 이제 더는 플루 트렌드 웹사이트 운영을 하지 않는다고 발표하고 관련 데이터를 각 대학이나 병원 또는 CDC로 이전한다고 선언하고 이 연구를 더 이상 진행하지 않았다.(4)
2013년에는 감성 분석 회사인 크림슨 헥사곤이 트위터와 페이스북에 올라온 62만 개 이상의 글을 분석해 독감을 언급하거나 자기 증세를 언급하는 현상을 추적 분석하면서 소셜미디어 분석이 이런 분야에 활용될 수 있음을 보였다.(5)
소셜 미디어 분석으로 독감 추세를 파악
그 밖에도 GPS 데이터와 연계해서 아프다고 올린 사람들의 동선을 파악해 지역적 확산을 예측해보는 연구도 있었으나, 사람들의 의도를 정확히 알 수 없다는 점과 포스팅을 올린 사람들이 전체 인구를 대표하지 못한다는 문제들이 지적되었다.
인터넷 데이터와 소셜 미디어 데이터가 감염성 질병을 예방하거나 대처하는 데 유용한 자료가 될 수 있음을 여러 연구를 통해 주장했지만, 기본적으로 주어진 데이터가 전문가에 의해 검증되거나 관리된 것이 아니라는 점은 데이터의 신뢰성에서 문제를 일으킨다. 또한, 업데이트 주기 등에 대한 표준이 없이 이루어져 과장될 수 있음도 지적된다.(6)
인공지능과 데이터 분석은 새로운 감염 질병을 예측할 수 있는가?
이번에 발생한 코로나19에 대해 캐나다에 있는 블루닷(Bluedot)이라는 회사가 코로나 바이러스의 확산을 중국 정부가 인식하기 전인 12월 31일 자사의 머신 러닝 알고리듬으로 이를 판단해 당사 서비스 고객들에게 관련 정보를 제공했다고 발표를 했다.(7)
블루닷은 65개의 언어로 발행되는 해외 뉴스, 동물과 식물 질병 네트워크, 항공 예약 데이터 등을 활용해 어떤 문제가 되는 상황이 발생하고 질병이 어떻게 확산될 수 있는지 예측이 가능한 알고리듬을 소개했다. 이들은 소셜 미디어 데이터는 사용하지 않았는데 이런 데이터는 너무 지저분하기 때문이라고 얘기했다.
자연어 처리를 통한 자동화 과정을 거치면 인간 전문가인 전염병 학자가 그 결과를 검증하고, 과학적으로 의미가 있다고 판단되면 리포트를 정부 기관, 기업, 그리고 공공 의료 기관 등으로 보낸다고 한다. 블루닷은 그 전에 남부 플로리다에서 지카 바이러스가 발생할 것이라고 성공적으로 예측한 적이 있다.(8)
하버드 의대의 최고 혁신 임원인 존 브라운스타인은 다국적 팀과 함께 건강 트렌드에 대한 머신 러닝 기법을 활용하고 있는데, 이들이 사용하는 데이터는 소셜 미디어 포스트, 뉴스 기사, 공식 공공 건강 채널, 의사들이 제공하는 정보 등을 포함한다.(9)
그러나 이런 데이터에서 새로운 바이러스 징후를 찾는다는 것은 매우 어려운 일인데, 모델이 사람들이 사용하는 용어나 조금 다른 증세에 대응하도록 재학습해야하기 때문이다. 그래도 이번에 중국 소셜 미디어와 뉴스 원천을 추적하던 과정에서 독감과 유사한 병의 발생이 12월 30일에 일어났다는 것을 파악하고 이를 세계 보건 기구에 알렸다. 그러나 그 심각성을 확인하는 데에는 시간이 더 걸렸다고 한다.
또 다른 데이터 확보 방식으로는 크라우드소싱으로 얻은 데이터를 갖고 판단하는 것인데 하버드의 브라운스타인은 보스톤에 있는 부이(Buoy)라는 건강 조언 서비스 회사와 협력하고 있다고 한다. 이상 증세를 느끼는 사람이 부이에 조언을 구하면 이 데이터를 분석팀에 보내는 것이다.
새로운 바이러스의 출현을 예측하는 것은 매우 도전적인 문제인데, 그 특징이 알려지지 않았고 우리가 학습하는 데이터는 이미 과거에 발생한 사건에서 얻어진 데이터이기 때문이다. 그래서 인공지능 기술과 다른 기법을 결합하는 것이 중요하다. 다만, 소셜 미디어, 뉴스 기사, 의료 정보에 머신 러닝을 적용해 확산을 모니터링 하는 것은 가능할 수 있다.
영국 사우스햄튼 대학의 앤디 테이텀 교수팀은 바이두에서 받은 스마트폰의 익명화된 이력 데이터를 사용해 코로나19 바이러스가 나타난 이후 어떻게 확산되었는지를 모델링 하는 연구를 했다. 이들은 2013년부터 2015년까지 이동 데이터, 2018년 국제 항공 여행 데이터를 통해 설날 동안 코로나2019 바이러스가 어떤 지역으로 퍼져 나갈 것인지 예측하는 연구이다. (10)이 연구팀은 사우스햄튼 대학, 토론토 대학, 토론토의 리카싱 지식 연구소, 블루닷, 중국 질병 예방 통제 센터의 연구진들이 함께 한 연구이다.
텐센트의 연구진은 위챗 데이터를 통해 감염 확산 모델을 만들어 보았는데, 여행 통제가 대응 조치를 위한 매우 중요한 약 2.91일 간의 시간을 확보하는 데 도움이 되었다는 결론을 얻었다.(11)
최근에 발 빠르지만 조금 이른 연구가 쏟아지고 있는데, 아직 전체를 파악하는 데이터 또는 분석이 나오기는 부족한 시점이다. 이번 코로나19 바이러스로 얻어지는 다양한 데이터를 통해서 새로운 바이러스의 등장이나 이들의 확산, 감염의 특징을 병리학적인 아닌 소셜 데이터나 기사, 정보, 자연어 분석을 통해서 새로운 데이터 분석 모델이나 인공지능 모델이 구현되는 것은 앞으로도 시간이 더 필요할 것이다.
예측과 판단 외에도 인공지능 기술은 응급 의학 분야에서 외과 의사를 올바른 장소에 위치하도록 도와주거나, 드론, 로봇, 센서 등이 위급 상황을 미리 판단하는데 활용될 수가 있다. 그러나 무엇 보다 지역 병원에서 새로운 환자가 생겼을 때, 병이 어떻게 퍼져 나갈 것인가 파악하는 데 제일 먼저 유용하게 사용될 수 있다. 이후에는 치료제나 백신을 개발하는데 인공지능의 지원을 기대할 수 있으며, 다른 영역에서는 빠른 대응을 위해 어느 지역을 방제해야 하거나 이동을 막아야 하는지를 판단하는 데에도 활용할 수 있다.
본 원고는 KISA Report에서 발췌된 것으로 한국인터넷진흥원 홈페이지(https://www.kisa.or.kr/public/library/report_List.jsp)에서도 확인하실 수 있습니다.
KISA Report에 실린 내용은 필자의 개인적 견해이므로, 한국인터넷진흥원의 공식 견해와 다를 수 있습니다.
KISA Report의 내용은 무단 전재를 금하며, 가공 또는 인용할 경우 반드시 [한국인터넷진흥원,KISA Report]라고 출처를 밝혀주시기 바랍니다.
1. | ⇡ | Forbes, “How Accurate Is Google Flur Trends,” Jan 17, 2013 |
2. | ⇡ | Samantha Cook, Corrie Conrad, Ashley Fowlkes, Mattew Mohebbi, “Assessing Google Flu Trends Performance in the United States during the 2009 Influenza Virus A (HiN1) Pandemic,” PLUS ONE, Aug 19, 2011 |
3. | ⇡ | Search Engine Land, “Google Flu Trends Is Under The Weather, Study Says,” May 18, 2010 |
4. | ⇡ | Google AI Blog, “The Next Chapter for Flu Trends,” Aug 20, 2015 |
5. | ⇡ | Mashable, “250,000 Social Media Users in U.S. Said They Got the Flu,” Jan 17, 2013 |
6. | ⇡ | AL-Surimi, K., et. al., “The Potential of Social Media and Internet-Based Data in Preventing and Fighting Infectious Diseases: From Internet to Twitter,” Advances in Experimental Medicine and Biology, Dec 2016 |
7. | ⇡ | Wired, “An AI Epidemiologist Sent The First Warnings of the Wuhan Virus,” Jan 25, 2020 |
8. | ⇡ | Bogoch, I., et. al., “Anticipating the international spread of Zika virus from Brazil,” The Lancet, Jan 14, 2016 |
9. | ⇡ | Wired, “How AI Is Tracking the Coronavirus Outbreak,” Feb 8, 2020 |
10. | ⇡ | Lai, S., Bogoch, I., Watts, A., Khan, K., Li, Z., and Tatem, A., “Preliminary risk analysis of 2019 novel coronavirus spread within and beyond China,” Jan 25, 2020 |
11. | ⇡ | Tian, H., et. al., “Early evaluation of transmission control measures in response to the 2019 novel coronavirus outbreak in China,” medRxiv, Feb 18, 2020 |