[Vol.3] 연합학습으로 AI 빅브라더 문제 해소
연합학습으로 AI 빅브라더 문제 해소
유성민([email protected])
IT 칼럼니스트
서강대학교 정보통신대학원 대우교수
서론. 빅데티어와 AI 등장 AI의 확산과 규제
알파고 혁명은 인공지능(AI) 시대로 이끌었다. AI의 무한성을 발견하게 했기 때문이다. 그러나 AI 혁명은 알파고 혁명이 발생한 시점인 2016년 이전부터 일어나고 있었다. 빅데이터와 함께 말이다. 다시 말해, 빅데이터가 AI 시대를 이끌었다고 해도 과언이 아니다.
빅데이터는 “3V”로 정의할 수 있다.(1) 3V는 규모(Volume)·속도(Velocity)·다양성(Variety)을 축약한 것인데, 빅데이터는 다양한 대규모 데이터를 빠르게 처리한다는 뜻이다. 빅데이터는 세 가지 추세로 인해 등장했다. 우선, 데이터의 폭발적인 증가이다. 소셜네트워크서비스(SNS), 사물인터넷(IoT) 등에서 생성하는 데이터 수가 인터넷 시대보다 폭발적으로 증가했다. SNS는 사람들이 네트워크 공간에서 더 많은 데이터를 유발하게 했고, IoT는 데이터 유발 주체를 사람에게서 기기로 확장하게 했다. 컴퓨팅 연산 능력 또한 무어의 법칙에서 가파르게 증가했는데, 이는 폭발적으로 늘어나는 데이터를 빠른 속도로 분석하게 했다.
그런데 여기서 한 가지 짚고 넘어가야 할 부분이 있다. 그건 바로 데이터 분석 범위이다. 과거에는 데이터 분석 범위가 정량적인 것에 한정됐었다. 그러나 빅데이터 시대에는 기계학습 활용으로 정성적인 데이터 분석을 가능하게 했다. 이는 데이터 활용도를 높였고, 데이터 경제(Data Economy) 시대로 이끌었다.(2) 예를 들어, 과거에는 SNS에서 유발한 데이터를 분석할 수 없었다. 그러나 기계학습은 자동으로 이러한 데이터를 분석하고 학습해 규칙을 찾아낼 수 있게 했다.
그럼 빅데이터는 AI 발생에 어떤 방식으로 작용했 을까? 답은 간단하다. AI 구현 방법을 변화시켰다. 기존 AI는 규칙기반으로 만들어졌다. 개발자가 알고리즘을 직접 만들었다. 사람이 직접 공식을 만들다 보니, 구현성에 한계가 많았다. 고려하지 못한 변수가 많았던 셈이다. 그러나 빅데이터 시대의 AI는 자동으로 알고리즘이 만들어진다. 기계학습 방법에 의해서 말이다.(3) 그것도 수많은 데이터에 의해서 빠르게 만들어진다. 다시 말해, AI는 빅데이터에 따라서 규칙이 아닌 데이터에 의존해 동작하도록 발전됐다.
기존 AI | 현재 AI | |
구현원리 | 지식공학(연역적 추론) | 경험기반(귀납적 추론) |
구현과정 | 개발자가 직접 알고리즘 개발 | 데이터 학습으로 알고리즘 생성 |
특징 | 적용 제한성,
단순 업무에 적용 가능 |
넓은 적용성,
확률 기반으로 복잡 업무 적합 |
[표1] AI의 구분
표1은 AI의 기존과 현재를 구분한 것이다. 학습원리, 구현과정, 그리고 특징으로 구분할 수 있다. 기존 AI는 지식공학 방식으로 구현됐다. 연역적 추론이라고 부른다. 연역적 추론은 법칙과 이론을 기반으로 결과를 도출하는 방식이다. AI에게 법칙과 이론을 주고, 이러한 것에 따라 동작하게 하는 것이다. 반면 현재 AI는 경험기반으로 구현된다. 쉽게 말해, 데이터로 AI가 구현된다. 이러한 방법을 귀납적 추론이라고 부른다. 귀납적 추론은 여러 경험을 기반으로 규칙을 만들고, 이러한 규칙을 다른 경험에 유추해 추론하는 방법이다. 개발자는 AI에게 데이터를 주고 스스로 추론하는 방법을 익혀 업무를 수행하도록 할 수 있다. 그림 1은 지식공학과 경험기반의 AI로 예를 들어 표현한 것이다.
구현과정도 다르다. 기존 AI는 개발자가 직접 이론과 법칙을 주입해 알고리즘이 개발됐다. 반면, 현재 AI는 규칙이 아닌 데이터가 주어진다. 그리고 스스로 학습한다. 현재 AI의 이러한 방식은 불확실성을 가져왔다. 이는 AI에 관해 두려움을 갖게 했다. 데이터를 가지고 어떻게 공식을 만들었는지를 아무도 모르기 때문이다.(4) 참고로 설명가능인공지능(XAI)가 이러한 불확실성을 낮추고자 등장했다.(5) 데이터를 학습해 어떤 이론과 법칙을 만들었는지를 추론하는 기술이다.
끝으로 서로 다른 특징이 있다. 기존 AI는 알고리즘에 의해서 동작했었다. 반면 현재 AI는 기계학습을 통해서 확률적으로 추론한다. 전자는 명확성이 우수하지만, 후자는 그렇지 못하다.
그러나 기존 AI는 예외처리 사항을 충분히 반영하고 있지 못하기 때문에 복잡한 업무가 아닌 단순 업무에만 적용할 수 있다. 반면 현재 AI는 수많은 데이터를 가지고 분석하여 만들어낸다. 자동으로 데이터를 분석해서 수많은 고려사항을 포함하기 때문에 복잡성이 높은 업무에도 적용할 수 있는 특징을 가진다.
AI의 확산과 규제
그림1은 빅데이터가 AI를 어떻게 구현하는지를 나타낸 것이다. 3V를 나타내는 추세에 의해 빅데이터가 등장했다. 그리고 이는 AI 혁명을 가져왔다.
빅데이터로 인한 AI혁명
그런데 이러한 AI 혁명에는 “빅브라더”라는 어두운 그림자가 있다. 빅브라더는 사회적 통제를 목적으로 사생활 정보까지 침해하는 경우를 뜻한다. 빅데이터 3V를 언급했다. 이러한 3V는 AI 혁명을 가져왔으나, 오히려 빅브라더를 부추길 수 있다.
규모는 사생활 데이터 피해를 확장한다. SNS에는 인터넷 시대보다 수많은 사생활 데이터가 있다. 그뿐만 아니라, IoT는 개인 가정에도 활용될 수가 있는데, 이러한 데이터 수집 또한 사생활 정보를 침해할 수 있다. 속도는 이러한 데이터를 빠르게 분석할 수 있게 하고, 다양성은 이러한 데이터를 기존보다 더 효율적으로 분석해 개인을 좀 더 효율적으로 감시할 수 있게 한다.
결국, 빅데이터에 의한 AI 혁명은 2가지의 대립하는 정책을 가져왔다. 하나는 개인 데이터 보호를 위한 정책 강화이다. 그런데 이는 AI 발전을 저해한다. 또 다른 하나는 데이터 활용 강화이다. 이는 AI 발전을 가져올 수 있으나, 개인 데이터 침해 소지 확률을 높인다. AI의 발전과 규제의 정책이 동시에 유발되고 있던 셈이다. 혹은 개인 데이터 보호 강화와 침해 허용 강화가 동시에 발생하고 있다.
데이터 보호 강화 사례로는 유럽연합(EU)가 2018년 5월에 시행한 개인데이터보호규정(GDPR)이 있다. 참고로 GDPR은 개인의 데이터를 무작위로 수집할 수 없고, 이를 저장과 가공할 수도 없다. 이에 반해, 2020년 1월에 통과한 데이터 3법은 개인정보보호법·정보통신망법·신용정보법 등 3개의 정보보호법에 관한 개정하는 내용을 담고 있는데, 주요 사항은 사업자가 개인식별정보를 익명 처리해 데이터를 활용할 수 있도록 허용하는 것이다.
데이터 3법이 개인식별정보를 익명화해서 사용하는 법안이라도 하더라도, 일부 사람은 이러한 활용에 불편함을 느끼고 있다. 본인을 알아보지 못한다고 하더라도, 사생활 데이터 노출이 꺼릴 수밖에 없다. 이를 보여주는 대표 사례가 AI 음성 스피커로 인한 데이터 침해 논란이다.
2019년 하반기에 AI 스피커 기업이 사생활 음성 데이터를 수집하고 활용하자, 많은 사람이 이에 관해 불편한 심기를 내비쳤다. 물론, AI 스피커 기업은 사생활 침해 목적으로 데이터를 수집한 것은 아니다. 음성인식 목적이었을 뿐이다. 그리고 데이터 수집 범위 또한 제한적이었다. AI 스피커에 음성 명령어만을 수집대상으로 무작위로 한정했기 때문이다. 그러나 많은 사람은 이에 불편한 심기를 드러냈다. 특히, AI 스피커는 직원을 채용해 실제 음성과 AI 스피커가 인식한 음성을 비교하도록 했는데, 본인의 음성 데이터가 제 3자에게 넘어가는 것 자체가 많은 사람에게 불쾌감을 유발했다. 익명화 처리를 하고 있었음에도 말이다.
AI 빅브라더의 원인과 해결방안
현재 AI는 빅브라더라는 문제를 불러오고 있다. 이를 해결하기 위해서는 문제점을 분석할 필요가 있다. 기존 AI와 다른점은 데이터를 분석하는 것에 있다. 현재 AI는 데이터 학습으로 구현된다. 즉, 빅데이터 등장이 데이터 수집과 가공을 유발했고 이는 빅브라더라는 문제를 가져왔다.
데이터 흐름도
정리하면, 문제는 데이터 수집과 활용에 있다. 따라서 해결방안은 수집과 활용 대상을 데이터가 아닌 다른 무언가로 바꾸면 된다. 좀 더 엄밀히 말해, AI 학습에 활용되는 것을 데이터가 아닌 것으로 바꾸면 된다. 다행스럽게도 이를 충족하는 기술이 개발되고 있다. 연합학습(Federated Learning)이 이에 해당한다. 연합학습은 데이터가 아닌 학습모델을 취합해 AI를 구현하는 방식이다.
연합학습, 엣지 컴퓨팅과 영지식증명알고리즘
연합학습은 기존과 달리 학습모델을 수집대상으로 정한다. 다시 말해, 사용자 단말기에서 데이터 학습이 이뤄지고, 이러한 학습 결과는 중앙에 모여진다, 그리고 이러한 학습결과를 재 취합해 AI를 구현한다.
정리하면, 문제는 데이터 수집과 활용에 있다. 따라서 해결방안은 수집과 활용 대상을 데이터가 아닌 다른 무언가로 바꾸면 된다. 좀 더 엄밀히 말해, AI 학습에 활용되는 것을 데이터가 아닌 것으로 바꾸면 된다. 다행스럽게도 이를 충족하는 기술이 개발되고 있다. 연합학습(Federated Learning)이 이에 해당한다. 연합학습은 데이터가 아닌 학습모델을 취합해 AI를 구현하는 방식이다.
연합학습에 의한 처리 방식
연합학습은 두 가지 기술을 기반으로 하고 있다. 엣지 컴퓨팅(Edge Computing)과 영지식증명알고리즘(ZKP)를 활용한다. 엣지 컴퓨팅은 연산처리를 중앙이 아닌 개인 단말에서 처리하는 기술이다. 참고로 엣지는 중앙이 아닌 가장자리라는 뜻인데, 다시 말해 가장자리에 위치한 단말기의 컴퓨팅을 이용하는 개념으로 이해할 수 있다.
연합학습은 엣지 컴퓨팅 방식을 활용해 개인 단말에 데이터를 학습시켜 학습모델을 나오게 한다. (6)물론, 이러한 결과는 중앙에서 취합하는 학습 과정을 거친다. 중앙 컴퓨팅 파워도 활용하는 셈이다. 엄밀히 말하면, 하이브리드 컴퓨팅(Hybrid Computing)이라고 부를 수 있다. 하이브리드 컴퓨팅은 중앙과 단말의 컴퓨팅을 둘 다 혼용해 활용하는 방식을 말한다.
ZKP는 직접적인 정보를 주지 않고 작업을 처리하게 하는 방식을 뜻한다. 그리고 3가지 조건이 있다. 표2를 참조할 수 있다.
[표2] ZKP의 3가지 조건
조 건 | 내 용 |
완전성 | – 충분히 높은 확률로 데이터가 올바름을 알 수 있게 증명해야 함 |
건전성 | – 거짓 데이터를 올바른 것으로 입증할 확률이 충분히 낮아야 함 |
영지식 | – 증명 내용의 사실 여부만을 알 수 있어야 함 |
이해를 돕기 위해 예를 들어 설명하겠다. 증명자와 검증자가 있다고 가정해보자. 검증자는 시각 장애인이다. 그리고 검증자에게는 ‘빨간 공’과 ‘흰색 공’이 주어진다. 증명자는 검증자가 색깔이 다른 공을 들고 있다는 것을 증명하고 싶다. 그런데 공 색깔을 말하고 싶지는 않다. 그래서 증명자는 검증자에게 공 색깔을 말하지 않고 증명하는 방법을 고안해냈다.
증명자는 검증자에게 공을 서랍 밑에 숨겨서 증명자가 보이지 않도록 요구한다. (7)그리고 검증자에게 무작위로 공을 들어서 본인이 이전 공 색깔과 다른지 아닌지를 맞추게 하라는 요청을 준다. 검증자는 먼저 첫 번째 공을 꺼내고 두 번째 공을 꺼낸다. 증명자는 공 색깔이 첫 번째의 것과 동일 유무를 맞춰야 한다. 공 색깔이 정말로 다르다면, 검증자는 100% 확률로 다름을 증명할 수 있다. 그러나 공 색깔이 같다면, 시도 횟수가 늘어날수록 맞출 확률은 낮아진다. 공 색깔이 비슷하므로 어느 공을 선택해 들었는지 알 수 없다. 검증자는 1/2 확률로 답을 맞힐 수 있다. 이러한 시도가 10번 일어나면, 증명자가 연속으로 10번 맞출 확률은 1/1024(2분의 1의 10제곱 수) 이다. 이는 맞출 확률이 매우 낮음을 의미한다. 따라서 증명자가 공의 색깔을 모두 맞춘다면, 검증자는 공 색깔이 다름을 확신할 수 있다.
ZKP는 전혀 새로운 방식이 아니다. 예전부터 활용되어온 기술이다. 대표적인 예로, 비밀번호가 있다. 비밀번호는 중요 정보이다. 본인 외에는 알아서는 안 된다. 이는 계정 관리자에게도 해당한다. 따라서 현재 비밀번호 체제는 해시함수를 사용하는 방식으로 이용한다. 해시함수는 특정 값을 임의 변수로 바꿔준다. 특정 값이 아닌, 임의의 변수를 활용해 저장하기 때문에 비밀번호를 알 수 없다. 임의 변수에서 특정 값을 알아내지 못하도록 막혀있기 때문이다. 따라서 사용자는 본인이 비밀번호를 입력하면, 이러한 값이 특정 값으로 바뀐다. 그리고 중앙 시스템은 이렇게 바뀐 특정 값의 일치 여부를 통해 계정주인 여부를 확인한다.
연합학습 원리또한 영지식증명알고리즘을 활용한다. 연합학습은 직접적인 데이터를 수집하지 않는다. 학습에 필요한 모델을 추출한다. 이러한 추출 방법은 다양하다. 결국, 영지식증명알고리즘 방식의 연합학습은 게인 데이터가 중앙으로 전송되지 않게 함으로써, 개인 데이터를 보호할 수 있게 한다.
연합학습과 온디바이스 AI
온디바이스 AI(On-Device AI)는 연합학습과 혼동되어 자주 사용된다.(8) 두 기술 모두 엣지 컴퓨팅 방식으로 동작하기 때문이다. 그러나 2가지 차이점이 있다. 첫째는 엣지 컴퓨팅 활용 대상이다. 연합학습은 데이터 학습을 위해 엣지 컴퓨팅을 활용한다. 이에 반해, 온디바이스 AI는 이미 중앙 AI에서 만들어진 알고리즘을 가지고 서비스 제공하는 부분에서 활용된다. 다시 말해, 연합학습은 AI 서비스 제공을 위한 학습 모델 추출에서 엣지 컴퓨팅이 활용되는 반면, 온디바이스 AI는 서비스 제공을 위해 엣지 컴퓨팅이 활용 된다. 그리고 ZKP 활용 여부 차이가 있다. 연합학습은 데이터를 다룬다. 직접적인 데이터가 아닌 학습모델을 전송함으로 ZKP 모델에 착안한다. 그러나 온디바이스 AI는 이러한 활용과 관련이 없다. 참고로 두 기술을 모두 혼용해서 활용할 수 있다. 기기에서 데이터 학습뿐만 아니라, 온디바이스 AI 구현도 가능하다. 표3은 두 기술을 구분해 공통점과 차이점을 정리한 것이다.
연합학습 | 온디바이AI | |
공통점 | 엣지 컴퓨팅 활용 | |
차이점 | 데이터 학습 범위
ZKP 적용 |
AI 서비스 제공 범위
ZKP 미적용 |
[표3] AI의 구분
결언. 연합학습 현황과 블록체인의 융합 가능성
연합학습은 현재 시작 단계이다. 사용자 기기에 데이터 학습해 모델을 추출하는 것에는 컴퓨팅 파워 제약의 문제가 뒤따르기 때문이다. 그러나 일부 글로벌 기업에서는 AI 빅브라더 문제를 해소하고자 연합학습을 도입하고 있다. 대표적으로 엔비디아(NVIDIA)를 들 수 있다. 엔비디아는 의료용 AI 플랫폼을 제공한다. 의료 데이터는 개인 민감 데이터가 많이 있는데, 사생활 데이터 우려를 방지하기 위해 연합학습을 적용했다. 구글의 경우, 연합학습 활성화를 위해 AI 오픈소스인 텐서플로우에서 연합학습을 제공하고 있다.
앞으로 연합학습은 빅브라더 문제가 없는 AI를 위해 크게 발전할 것으로 보인다. 특히, 블록체인과도 함께 많이 연구되고 있다. 사용자 기기에서 온 데이터의 신뢰성에 관한 부분의 문제를 블록체인이 해소할 수 있기 때문이다. 경희대학교는 논문에서 ‘FL체인’이라는 블록체인 기반 연합학습을 소개했다. 연세대학교는 ‘블록FL’이라는 시스템을 소개하면서 블록체인과 연합학습의 아키텍처를 제안했다. 탈중앙기계학습코인(DML)은 블록체인으로 분산화된 기계학습 프로토콜 개발을 목표로 하는데, 블록체인과 연합학습을 결합한 것이다. 콘센시스헬스(ConsenSys Health) 또한 의료 데이터 보호 목적으로 블록체인 기반 연합학습을 제안하고 있다.
본 원고는 KISA Report에서 발췌된 것으로 한국인터넷진흥원 홈페이지(https://www.kisa.or.kr/public/library/report_List.jsp)에서도 확인하실 수 있습니다.
KISA Report에 실린 내용은 필자의 개인적 견해이므로, 한국인터넷진흥원의 공식 견해와 다를 수 있습니다.
KISA Report의 내용은 무단 전재를 금하며, 가공 또는 인용할 경우 반드시 [한국인터넷진흥원,KISA Report]라고 출처를 밝혀주시기 바랍니다.
1. | ⇡ | 사이언스타임즈, “빅데이터로 경제 가치를 갖게 된 데이터”, 2019년 07월. |
2. | ⇡ | Gartner, How to Plan, Participate and Prosper in the Data Economy, March 2011. |
3. | ⇡ | 페드로 도밍고스, “마스터알고리즘”, 비즈니스북스, 2016년 7월. |
4. | ⇡ | 신동아, “예측 불가능 학습, 오작동·해킹도 위험”, 2017년 2월,https://shindonga.donga.com/Library/3/05/13/859549/1 |
5. | ⇡ | 유성민, “4차 산업혁명은 데이터 시대, XAI가 중요한 이유”, 한국인터넷진흥원, KISA Report, 2019년 7월. |
6. | ⇡ | 유성민, “클라우드, 포그 컴퓨팅-블록체인과 함께 가야”, 동아비즈니스리뷰, 281호, 2019년 9월. |
7. | ⇡ | 사이언스타임즈, “영지식증명으로 개인 데이터 보호 강화”, 2019년 11월. |
8. | ⇡ | HACKERNOON, “A Beginners Guide to Federated Learning”,https://hackernoon.com/a-beginners-guide-to-federated-learning-b29e29ba65cf |