[Vol.5] ‘이루다’ 처분의 의미 살펴보기

Posted June 10, 2021

‘이루다’ 처분의 의미 살펴보기

이진규 ([email protected])

네이버주식회사 개인정보보호책임자 (이사)

들어가며

개인정보보호위원회(이하 ‘개인정보위’)는 올해 4월 28일, 제7회 전체회의를 개최하여 챗봇 ‘이루다’ 개발사인 (주)스캐터랩(이하 ‘스캐터랩’)을 대상으로 총 1억 330만원의 과징금과 과태료를 부과했다고 밝혔다. 이와 같은 개인정보위의 처분에 대해 일부는 억제력 없는 솜방망이 처벌이라고 비판을 하였고, 다른 일부는 인공지능 산업의 발전을 싹부터 자르는 처분이라며 볼멘소리를 하였다. 이와 같은 극단적 반응을 거둬내고, 개인정보위가 공개한 보도자료에 기반하여 어떤 것이 실제 문제가 된 것이고, 실제 인공지능 서비스에서의 개인정보 처리에 미치는 영향이 무엇인지 되짚어 볼 필요가 있다.

(주의)이 글을 작성하는 시점에서 스캐터랩을 대상으로 한 개인정보위의 처분을 분석 및 평가할 수 있도록 일반대중에 공개된 정보는 개인정보보호위의 ①제7회 전체회의 속기록(4월 28일)과 ②보도자료(4월 29일)에 한정되어 있다. 따라서, 개인정보위의 처분에 대한 법적 관점의 분석 및 평가를 진행하는 것은 현재로서는 일부 제한적 범위에서만 가능하다는 점을 전제로 할 필요가 있다. 그럼에도, 위와 같이 제한적으로 공개된 정보에 기반하여 이번 처분이 갖는 의의를 개략적 수준에서 살펴보는 것만으로도 개인정보처리자가 가지고 있는 의문을 일부 해소할 수 있고, 이와 같은 시도가 이번 처분과 관련하여 향후 펼쳐질 구체적 법적 평가 및 분석, 그리고 공방의 논리적 기초가 될 수도 있다는 점에서 간략히 관련 이슈를 살펴보고자 한다.

개인정보위의 스캐터랩 처분의 의의

개인정보위는 보도자료를 통해 이번 처분을 “AI(인공지능) 기업의 무분별한 개인정보 처리를 제재한 첫 사례”라고 설명하면서, 기업이 특정 서비스를 목적으로 수집한 개인정보를 이용자의 명시적 동의 없이 다른 서비스를 위하여 이용하는 것을 제한하고, 이를 통해 AI 개발과 서비스 제공 시 올바른 개인정보 처리 방향을 제시할 수 있을 것으로 보인다며 그 의미를 자체적으로 평가했다.

전체회의에서 백대용 개인정보위 위원은 “해외의 경우 스타트업을 (영위)하더라도 법률가들이 많이 참여해서 본질적인 이슈들을 사전에 체크한다.”며, 이번 사건이 단순히 ‘이루다’와 관련된 문제 이전에 (국내) 스타트업, AI 관련 업계에 관여하는 사람들이 ‘마인드를 전환해야 할 사건’이라고 평가하기도 했다. 백 위원은 또한 위원회가 (이루다 사건에 대한 처분 등 결정을 통해) AI 인공지능 활용에 대해 가이드라인이나 방향성을 제시하고자 하는 마음은 전혀 없다고 언급했다. 윤종인 개인정보위 위원장은 전체회의에서 피심인에 대한 질의 절차를 마무리하면서 “스캐터랩이 갖고 있는 개인정보처리 방침의 동의방식, 그 표현, 그 활용 양태만을 판단하고 있을 뿐이다. 그래서 아까 백대용 위원님께서 이것이 AI 전체 사업에 대한 가이드라인을 제시하고자 하는 판결은 아니다 라는 말씀을 드렸던 것으로 정리를 해보고자 합니다.”라 발언하여, 이번 결정이 인공지능 기술 내지 그에 관한 개인정보 처리 전반에 걸친 판단이 아니라 문제가 된 스캐터랩의 인공지능 서비스에서의 개인정보 처리에 한정하여 판단을 내린 것임을 명확히 했다.

개인정보위의 보도자료 및 전체회의에서의 발언 등을 종합해보면, 개인정보위는 이번 처분을 통해 I) 기업이 특정 서비스를 목적으로 수집한 개인정보를 다른 목적으로 사용할 때, 정보주체가 명확하게 인지할 수 있도록 알리고 동의를 획득해야 한다는 점을 강조하는 동시에 ii) 이번 처분이 인공지능 산업계 전반에 걸친 가이드가 아니라 문제가 된 스캐터랩 서비스에서 발생한 개인정보 처리와 관련한 위법사항을 지적하는 점이라는 것을 명확히 하고, iii) 이에 대한 처분을 통해 인공지능 서비스 개발 및 제공 과정에서 ‘올바른 개인정보 처리’ 방향이 무엇인지 제시하려는 의도를 가진 것으로 판단할 수 있다. 즉, 이번 처분은 인공지능 산업 전체에 대한 가이드는 아니지만, 인공지능 산업계가 개인정보를 처리할 때 준수해야 할 방향을 확인해볼 수 있는 일종의 가늠자를 제시한 것으로 볼 수 있는 것이다.

한편, 법무법인(유) 세종은 이루다 제재처분을 주제로 한 뉴스레터를 통해 “비정형 데이터의 활용이 늘어남에 따라 개인정보보호 등 관련 이슈가 지속적으로 발생하면서, 이에 대한 규제기관의 관심도 높아질 것이 자명한 가운데, 최근 ‘이루다’ 관련 제재 사례는 비정형 데이터 활용에 관한 규제의 시발점에 불과할 것으로 전망(된다).”며, “비정형 데이터의 활용의 경우 관련 법적 쟁점이 특정 법률에 국한되지 않고 여러 법률에 걸쳐 있는데다가, 현재도 법 개정 논의가 진행되고 있어, 관련 기업으로서는 규제 동향을 지속적으로 파악하고 이에 대한 종합적인 대응 역량을 갖출 필요가 (있다).”고 제언했다. 이는 이루다 처분에 대한 민간 개인정보처리자의 시각을 반영한 것으로, 이번 제재가 비정형 데이터 활용에 관한 규제의 본격적 시작에 해당할 수 있다는 점을 시사한다⁽¹⁾.

주요 의결 내용 및 평가

1. ‘신규 서비스 개발’ 목적의 개인정보 수집에 대한 동의

개인정보위는 스캐터랩이 ‘이루다’ 서비스 개발과 운영에 이용자의 카카오톡 대화를 이용한 것에 대해, ‘텍스트앳’과 ‘연애의 과학’ 등 2개 서비스의 개인정보처리방침에 ‘신규 서비스 개발’을 포함시켜 이용자가 로그인함으로써 동의한 것으로 간주하는 것만으로는 이용자가 ‘이루다’와 같은 ‘신규 서비스 개발’ 목적의 이용에 동의하였다고 보기 어렵다고 평가했다(‘형식적 요건’에 대한 평가). 또한, ‘신규 서비스 개발’이라는 기재만으로 이용자가 ‘이루다’ 개발과 운영에 카카오톡 대화가 이용될 것에 대해 예상하기도 어려우며, 이용자의 개인정보 자기결정권이 제한되는 등 이용자가 예측할 수 없는 손해를 입을 우려가 있다는 이유로 (주)스캐터랩이 이용자의 개인정보를 수집한 목적을 벗어나 이용한 것이라고 판단했다(‘실질적 요건’에 대한 평가).

개인정보 수집 및 이용에 있어 형식적 동의 절차를 적절히 준수하지 못한 것에 관한 논의는 차치하더라도, 실제 개인정보 처리 현장에서 적잖은 개인정보처리자가 ‘신규 서비스 개발’에 대해 동의를 받고, 이러한 동의절차를 거쳐 수집한 개인정보를 신규 서비스 개발(기존 서비스의 신규 기능 추가 및 완전히 새로운 서비스 개발)에 활용하고 있다는 점에서 기존의 개인정보처리자들 다수가 ‘수집 목적을 벗어나 위법하게’ 개인정보를 수집 및 이용한 것으로 개인정보위가 판단하고 있는 것은 아닌지에 대한 우려가 제기된다. 이에 대해 한 전문 로펌은 “특히 ‘신규서비스 개발’ 목적으로 개인정보를 수집·이용하는 사업자는 이를 통한 개인정보의 이용범위가 이번 결정에서 드러난 기준을 충족할 수 있을 것인지에 대하여 점검해 볼 필요가 있어 보입니다. 나아가, 법적 명확성 차원에서, 그리고 인공지능 산업 발전을 위해서도 이러한 목적 고지의 구체성 기준과 한계에 관한 개인정보위의 구체적인 가이드 제시 등이 더욱 필요해질 것으로 생각됩니다.”라며, 이번 결정으로 인해 개인정보 처리 현장에서의 불확실성이 크게 증가했음을 지적했다⁽²⁾.

그런데, 개인정보위 전체회의 속기록을 살펴보면, 개인정보위 배상호 조사2과장은 “(전략), 이 신규 서비스 부분은 스캐터랩 같은 경우 어떤 이용자가 사전에 어떤 목적으로 내 정보를 쓸 수 있는지를 어느 정도 이상이라도 알 수 있는 부분으로 명시가 되어 있지 않습니다. 그래서 사무처에서 검토할 때는 적어도 이용자가 최대한 알아볼 수 있는 정도의, 예를 들어 AI 서비스라든지 또는 기타 IoT 서비스 개발이라든지 또는 빅데이터 기반으로 해서 어떠한 서비스를 개발하는 등의 신규 서비스 개발이라는 어느 정도의 구체성을 띄는 부분으로서 표기가 되어서 정보주체인 이용자가 최대한 알릴 수 있도록, 명시적으로 알 수 있도록 해주는 부분으로서 신규 서비스 개발부분을 표기하고 별도 동의를 받는 것이 바람직하다는 부분으로서 갖고 있습니다.”라는 설명을 제시하였다. 이와 같은 발언에 비추어, 개인정보위는 (1) 일반적 이용자의 관점에서 자신의 개인정보가 사용되는 목적을 일정 수준 이상으로 알 수 있어야 하며, (2) 이러한 측면에서, 단순히 ‘신규 서비스 이용’과 같이 알리고 동의를 받는 것은 명시적 동의라 보기 어려우며, (3) “IoT 서비스 개발”, “빅데이터 기반으로 OOO 서비스 개발” 등 일정한 수준의 구체성을 표기하는 것이 바람직하다는 입장을 가진 것으로 추정할 수 있다.

상기의 내용을 통해 개인정보위가 ‘신규 서비스 개발’에 대한 동의에 있어 일정한 기준을 제시한 것으로 볼 수 있으나, 다음과 같은 지점에 있어서는 개인정보위가 추가적 검토를 통해서 명확한 가이드를 제시하는 것이 개인정보 처리 현장에서의 혼란과 불확실성을 줄여줄 수 있을 것으로 생각된다.

첫째, “IoT 서비스 개발”, “빅데이터 기반으로 OOO 서비스 개발” 등 일정한 수준의 구체성을 확인할 수 있는 시점은 대부분 최초에 개인정보 수집 및 이용에 대한 동의를 받을 때가 아니라 기존에 수집한 개인정보를 가지고서 추가적으로 활용을 하려할 때라는 점을 고려할 때, 이와 같은 개인정보위의 입장이 개인정보처리자로 하여금 “사전적, 포괄적 동의”를 채택하도록 유인할 위험이 없는지 검토를 할 필요가 있을 것이다. 정보주체로부터 신규 서비스 개발을 위한 ‘새로운 목적’으로 개인정보 수집 및 이용에 대한 추가적 동의를 받는 것에 대한 부담을 지지 않기 위해 개인정보 수집 및 이용 목적을 포괄적으로 기재하여 회원가입 시점 등 사전에 동의를 받는 행태로 이어질 수 있기 때문이다.

둘째, 이루다 사건의 경우 ‘텍스트앳’과 ‘연애의 과학’이라는 서비스에서 수집한 정보를 기반으로 ‘이루다’라는 다른, 별개의 서비스를 개발하는데 사용되었다는 점에서 통상의 이용자가 ‘자신의 개인정보가 사용되는 목적을 일정 수준에서 예상하기 어렵기 때문에’ 개인정보를 목적 외로 이용한 것으로 처분이 된 것인데, 이와는 달리 동일한 서비스 내에서 ‘신규 기능’을 추가로 개발하기 위해 개인정보를 사용할 때에는 ‘신규 서비스(기능) 개발’과 같은 문구를 제시하고 동의를 받는 것은 위법하지 않다는 것이 개인정보위의 입장인 것인지 밝힐 필요가 있을 것이다.

셋째, 개인정보보호법은 ‘개인정보의 양립 가능한 이용’ 제도를 도입하면서(법 제15조 제3항), “당초 수집 목적과 합리적으로 관련된 범위에서 정보주체에게 불이익이 발생하는지 여부, 암호화 등 안전성 확보에 필요한 조치를 하였는지 여부 등을 고려하여 대통령령으로 정하는 바에 따라 정보주체의 동의 없이 개인정보를 이용”할 수 있도록 하였는데, 이번 처분 과정에서 스캐터랩의 개인정보 처리에 대해 양립 가능한 이용 법리의 적용을 배제한 것인지, 만약 배제했다면 어떤 배경에서 배제한 것인지 등에 관한 개인정보위의 판단 기준을 공개할 필요가 있을 것이다.

넷째, 개인정보위가 예시로 제시한 AI 서비스, IoT 서비스, 빅데이터 기반 서비스 등은 신규 서비스 개발에 사용되는 “기술적 수단”을 언급한 것으로 보이는데, 이와 같은 기술적 수단을 기존의 ‘신규 서비스 개발’ 목적에 추가하는 것이 실제 이용자로 하여금 개인정보 이용목적의 확장에 대한 예측가능성을 높이는 것이라고 개인정보위는 판단하고 있는지, 개인정보 이용 목적에 기술적 수단을 추가하는 것이 실제 이용자로 하여금 추가적 이용 목적에 대한 이해를 높인 것인지에 대한 인지적 관점에서의 확인도 필요할 것이며, 그 결과를 투명하게 공개할 필요가 있을 것이다.

마지막으로, 개인정보 수집 및 이용에 대한 동의의 형식과 관련하여, 해외의 ‘Privacy Policy 동의’ 방식과 우리나라의 ‘개별 항목 제시 및 동의’ 방식이 상이하기 때문에, 모바일 환경에서 개인정보를 처리하는 개인정보처리자가 우리나라의 형식적 동의 요건을 준수하는데 있어 상당한 곤란을 겪고 있다는 점을 고려하여 동의 방식에 대한 개선을 검토하고 있는지도 확인이 필요한 지점으로 판단된다.

2. 법정대리인 동의 없이 만 14세 미만 아동 개인정보 수집

개인정보위 전체회의 회의록을 확인하면, 이루다 서비스는 ‘페이스북 메신저’를 통해 제공되며, 페이스북은 만 14세 미만의 이용자 가입을 금지하고 있기 때문에 아동 개인정보 처리와 관련하여 일견 문제가 되는 지점은 없는 것으로 보인다. 그런데, 스캐터랩 대표이사는 전체회의에서 “(전략)… 사실 저희가 가입자의 포맷을 만들 때, 저희 서비스의 입장에서는 사용자의 나이를 정확하게 아는 것이 별로 중요한 이슈는 아니었습니다. 저희한테 필요한 정보는 아니었고요. 다만 콘텐츠를 추천하는 과정에서 나이 중심으로 추천을, 나이대에 따라서 다른 콘텐츠를 추천하기 때문에 그런 정보를 받게 된 것인데, 저희가 14세 미만까지 선택할 수 있게 한 것은 저희가 특별하게 그들이 가입할 수 있기 때문 이라기보다는 가입절차를 만드는 과정에서 기본적인 가입 포맷을 저희가 똑같이 따라간 것이라고 보시면 됩니다. 그래서 특별히 만 14세에 대한 고려를 하지 않고 그냥 원래 일반적인 가입절차에서 쓰는 숫자를 폼으로 입력받은 것이지 특별히 그 가능성을 염두에 둔 것은 아니라고 말씀드리고 싶습니다.”라고 발언을 한 것이 확인된다.

이를 다시 정리해보면, 페이스북은 만 14세 미만이 이용할 수 없는 서비스라서 스캐터랩은 별도의 나이 확인이나 나이 정보 활용의 필요성을 가지고 있지는 않았던 것으로 보인다. 그러나, 온라인 서비스의 회원가입 절차에 일반적으로 적용되는 연령 정보를 폼(form)으로 입력 받는 과정에서 만 14세 미만을 선택하지 못하도록 막아 놓지 않은 ‘실수’를 범했던 것으로 이해할 수 있다.

비록 서비스 기능 적용 과정에서의 단순한 실수라 하더라도, 또한 페이스북이 만 14세 미만 이용자의 서비스 이용을 제한하고 있다는 점을 고려하여 실제 만 14세 미만 아동이 ‘이루다’ 서비스를 이용하였을 가능성이 매우 제한적일지라도 차제에 아동 개인정보보호에 관한 제대로 된 논의를 시작해야 할 필요성을 부정할 수는 없다. 이희정 개인정보위 위원은 전체회의에서 미국 온라인 아동 개인정보보호법(COPPA)과 유럽연합 개인정보보호법(GDPR)을 언급하면서, 이들 법제는 아동 관련 법규의 적용 대상을 “아동을 타깃으로 하는 웹사이트를 운영하는 자로 한정하고 있는데 비해서 우리나라의 개인정보보호법에서는 따로 별도의 어떤 적용 대상에 대한 제한규정이 없다.”는 점을 지적했는데, 이는 아동 개인정보보호 측면에서 매우 의미 있는 지점이라 할 수 있다.

우리나라 개인정보보호법은 만 14세 미만 아동의 개인정보를 처리하기 위하여 개인정보보호법에 따른 동의를 받아야 할 때에는 그 법정대리인(통상, 부모)의 동의를 받도록 하며, 이 경우 법정대리인의 동의를 받기 위하여 필요한 최소한의 정보는 법정대리인의 동의 없이 해당 아동으로부터 직접 수집할 수 있다는 규정을 두고 있고(법 제22조 제6항), 특히 정보통신서비스 제공자가 만 14세 미만 아동에게 개인정보처리와 관련한 사항의 고지 등을 하는 때에는 이해하기 쉬운 양식과 명확하고 알기 쉬운 언어를 사용하도록 규정하고(법 제29조의3 제5항) 있다. 이와 같은 형식적 규정을 제외하고는 만 14세 미만 아동의 개인정보를 보호하기 위한 조치, 특히 개인정보의 유노출이나 오남용으로 인해 발생할 수 있는 아동의 안전(safety) 이슈에 대해서는 아무런 규정이 존재하지 않는다는 점이 현재 개인정보보호법의 문제라는 지적도 적잖게 제기되고 있다.

비록 이번 이루다 사건에 대한 처분에서는 만 14세 미만 아동의 개인정보를 수집하는 것과 관련한 형식적 요건을 적절히 준수하지 못했다는 지적에 그쳤지만, 이번 처분을 기회로 하여 i) 아동을 대상으로 하는 서비스(child-oriented services)를 정의하고, ii) 그러한 서비스들이 아동 개인정보보호를 위해 실질적으로 어떤 환경을 구성(소위, “walled garden”)해야 할 것인지에 대한 논의를 본격적으로 시작해야 할 것으로 보인다. 특히, iii) 현대 개인정보처리 환경에서 특별한 보호를 필요로 하는 ‘아동’의 연령대를 어떻게 규정할 것인지에 대한 사회과학적 방법을 동원한 충분한 연구가 선행되어야 하며, iv) 아동 보호를 위해 해외 주요 국가들이 어떠한 법제도를 갖추고 있는지에 대한 비교법적 연구도 진행이 되어야 할 것으로 보인다. 마지막으로, v) 아동의 연령을 확인하는 과정에 있어 개인정보처리자가 어떠한 기술적 수단을 동원하여, 어느 수준까지 연령확인 노력을 하였을 때, 이용자의 사술(詐術)에 속아 아동의 개인정보를 처리하게 된 개인정보처리자를 면책할 것인지에 대한 논의도 함께 진행되어야 할 것이다.

3. 카카오톡 대화문장을 이용한 행위

① 카카오톡 대화의 개인정보 해당성

개인정보위는 보도자료의 “[참고 2] 주요 쟁점에 대한 Q&A”를 통해 카카오톡 대화가 개인정보에 해당하는지에 대한 입장을 제시했다.

그림입니다.

원본 그림의 이름: clip_image001.jpg

원본 그림의 크기: 가로 639pixel, 세로 272pixel — [그림_카카오톡 대화의 개인정보 해당성에 대한 개인정보위 답변 (출처: 개인정보위)]

개인정보위는 i) 카카오톡 대화의 경우 실명과 휴대전화번호 등의 개인정보가 포함되어 있을 가능성이 높고, 식별정보 외 인간관계, 소속 등을 추정할 수 있는 대화를 통해 개인을 알아볼 가능성이 있는 특징이 있고, ii) 스캐터랩의 경우, 소셜 로그인 ID 등의 회원정보와 카카오톡 대화를 함께 수집하여 이용하고 있어, iii) 카카오톡 대화가 회원정보 및 대화에 포함된 개인정보와 결합하여 특정한 대화문장을 발화한 이용자를 알아볼 수 있어 개인정보에 해당한다고 판단했다.

우선, 상기 i)과 관련하여 개인정보위는 카카오톡 대화에 실명, 휴대전화번호 등 개인정보가 포함되어 있을 가능성이 있다고 보았다. 지인과의 대화로 구성된 채팅 문장에 개인을 알아볼 수 있는 정보가 종종 포함될 수 있다는 점을 고려한 것으로 보인다. 또한, 대화 과정에서 상대방을 특정한 호칭으로 부르거나, 대화상대를 식별할 수 있는 맥락적 요소가 존재하기 때문에 개인을 알아볼 수 있는 특징이 있는 것으로 판단한 것으로 보인다. 상기 ii)와 관련하여, 스캐터랩은 소셜 로그인 ID등의 식별자(identifier)와 카카오톡 대화를 함께 수집하여 이용하고 있기 때문에, 카카오톡 대화를 개인정보인 식별자와 쉽게 결합하여 개인을 식별할 수 있는 요소라고 판단한 것으로 보인다. 상기 iii)은 i), ii)의 내용을 종합한 것으로, 결국 카카오톡 대화를 통해 ‘특정한 대화문장을 발화한 이용자(대화 당사자들)’을 알아볼 수 있기 때문에 개인정보에 해당한다고 판단한 것으로 이해된다.

이와 같은 개인정보위의 입장은 스캐터랩의 경우에 한정된 것으로 이해하는 것이 타당할 것으로 보인다. 일반적으로 카카오톡 대화에 개인정보가 포함되어 있을 가능성이 높다고 하지만, 그렇다고 하여 “(모든) 카카오톡 대화는 개인정보다.”라고 단정하는 것은 개인정보보호법이 개인정보의 정의를 제시한 방식에 부합한다고 보기는 어렵기 때문이다. 개인정보위가 스캐터랩의 경우 소셜 로그인 ID 등의 회원정보와 카카오톡 대화에 포함된 개인정보를 결합하는 경우 특정한 대화문장을 발화한 이용자를 알아볼 수 있다고 설명한 이유가 여기에 있다. 개인정보란 살아있는 개인에 관한 정보로서 “해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보(이 경우 쉽게 결합할 수 있는지 여부는 다른 정보의 입수 가능성 등 개인을 알아보는 데 소요되는 시간, 비용, 기술 등을 합리적으로 고려하여야 한다.)”인데(법 제2조 제1호 나목), 이와 같은 정의에 부합하려면 다른 정보와의 결합 가능성 및 식별성 등을 고려해야하기 때문이다.

카카오톡 대화를 텍스트 파일로 이용자 기기에 내려 받는 경우 대화내용 일체와 대화 당사자들의 카카오톡 프로필 이름이 기기에 저장된다. 이와 같은 정보를 이용자로 하여금 제공받아 수집하는 개인정보처리자는 기존의 회원정보와 결합하는 등의 특별한 사정이 없는 이상 해당 대화를 발화한 당사자를 직접 식별하는데 일정한 수준의 제약을 받을 수밖에 없다. 이러한 경우에 카카오톡 대화가 개인정보에 해당하기 위해서는 대화 내용에 개인을 식별할 수 있을 만한 정보가 포함이 되어야 할 것이다. 결국, 카카오톡 대화가 개인정보에 해당하는지는 ‘개별적으로 판단’ 해야 하는 것이며, 카카오톡 대화가 항상 개인정보에 해당한다고 판단하는 것은 개인정보위의 설명을 곡해한 것으로 볼 수밖에 없을 것이다.

② 카카오톡 대화의 민감정보 해당성

개인정보위는 카카오톡 대화를 통해 대화 당사자들이 ‘자신의 성생활에 관한 정보 등’을 언급한 경우에도 대화자들이 자유롭게 작성하는 내용에 따라 민감한 성격을 가질 수 있는 것에 불과하여 카카오톡 대화 내용 전체가 민감정보에 해당한다고 보기 어렵다며, 서울중앙지법 2013고합577 판결을 참조하도록 안내하였다.

그림입니다.

원본 그림의 이름: clip_image003.jpg

원본 그림의 크기: 가로 629pixel, 세로 274pixel — [그림_카카오톡 대화의 민감정보 해당성에 대한 개인정보위 답변 (출처: 개인정보위)]

위 서울중앙지법 판결은 트위터 정보(트윗)의 민감정보 해당성에 대해, “이 사건 트위터 정보의 경우 정보주체가 스스로 트위터를 통하여 그 트윗의 내용을 이미 공개한 정보에 해당하는 이상 이를 위 법조항에서 정한 민감정보에 해당한다고 보기는 어렵다. 나아가 트위터 정보는 유전자 검사 정보, 범죄경력자료 등과 같이 해당 정보의 기본적인 성격 자체가 민감정보의 성격을 갖는 것이 아니라 해당 트위터 사용자가 자유롭게 작성하는 트윗의 내용에 따라 그러한 성격을 갖을 수 있는 것에 불과하므로, 이러한 이유만으로 트위터 정보 전체가 민감정보에 해당한다고는 판단할 수는 없다.”라고 보았다.

서울중앙지법 판결은 트위터 정보(트윗)는 이용자인 정보주체가 스스로 트위터를 통하여 그 트윗의 내용을 공개한 이상 개인정보보호법이 정하는 민감정보에 해당한다고 보기는 어렵다는 해석을 제시했는데, 이에 의하는 경우 카카오톡은 일반 대중에게 공개되는 트위터 등의 ‘공개형 SNS’가 아닌 ‘대화당사자만 그 내용을 일반적으로 알 수 있는 폐쇄형 메신저’이기 때문에, 서울중앙지법 판결의 결론에 의하는 경우 카카오톡 대화는 이용자가 대화 내용을 스스로 공개한 것이 아니므로 대화의 내용에 따라서 민감정보에 해당할 여지가 있다 할 것이다. 또한, 서울중앙지법 판결은 사용자가 작성하는 트윗의 내용에 따라 ‘민감정보의 성격을 갖을 수 있는 것’이라고 판시하면서, 트위터 정보 전체가 민감정보에 해당한다고는 판단할 수는 없다고 하였는데, 이를 바꾸어 말하면 트윗의 내용에 따라 민감정보의 성격을 갖는 개별 정보(트윗)는 민감정보에 해당이 될 수 있다고 볼 수 있다. 이와 같은 서울중앙지법 판결에 의하는 경우, 메신저 대화 내용에 개인정보보호법이 정하는 ‘성생활 등에 관한 정보’ 등 민감정보에 해당하는 성격의 정보가 포함되어 있는 경우 이는 해당 대화를 개별적으로 민감정보로 보아야 할 것으로 보인다.

다만, 개인정보처리자가 대화의 ‘맥락(context)’를 분석하고 특정 대화가 민감정보에 해당하는지 여부를 확인하여 그 처리를 제한하기 위해서는, 민감정보를 “이미 수집한 상태”에서 대화의 맥락에 대한 분석을 거치는 등 ‘처리행위’를 하지 아니할 수 없다는 점을 고려하지 않을 수 없을 것이다. 즉, 개인정보인 대화를 분석하는 등 처리행위를 하지 않고서는 특정 대화가 민감정보에 해당한다는 점을 알 수는 없기 때문에 “민감정보를 처리하지 않고서는 민감정보의 처리를 제한할 수 없다.”는 모순이 발생할 수밖에 없다는 점에 주목할 필요가 있다. 특히, 대화 내용을 단순히 학습데이터로 이용할 뿐이고 ‘민감정보’로서 이용할 의도나 의사가 전혀 없었다는 점을 고려할 때, 카카오톡 대화의 일부가 민감정보에 해당한다는 인식의 부재 내지 이를 민감정보로서 이용할 의도나 의사의 부재를 이유로 민감정보 처리에 나서지 않은 것으로 보는 것이 정책적 관점에서 합리적일 것으로 보인다. 데이터3법 개정 이전의 구 정보통신망법은 “정보통신서비스 제공자는 이용자의 개인정보를 이용하려고 수집하는 경우에는 다음 각 호의 모든 사항을 이용자에게 알리고 동의를 받아야 한다.”라고 하여(법 제22조 제1항) 개인정보를 ‘수집’한 것으로 인정되려면, ‘이용하려고’ 하는 목적이 전제되어야 한다고 해석할 수 있었으나, 개인정보보호법은 이와 다른 방식으로 개인정보의 수집 및 이용에 대한 요건을 규정하고 있다는 점은 다소 아쉬운 지점이라 할 것이다⁽³⁾.

③ 카카오톡 대화 수집 시, 대화 상대방 동의 필요 여부

개인정보위는 ㈜스캐터랩이 카카오톡 대화의 ‘일방 당사자(A)’의 동의만으로도 카카오톡 대화를 수집할 수 있다고 판단했다. 즉, 카카오톡 대화에 참여한 ‘대화 상대방(B)’의 동의까지 획득하지 않더라도, 대화의 ‘일방 당사자’의 동의를 획득했다면 대화 상대방의 동의 없이도 대화를 수집하여 이용할 수 있다는 의미이다.

그림입니다.

원본 그림의 이름: clip_image004.jpg

원본 그림의 크기: 가로 628pixel, 세로 337pixel — [그림_카카오톡 대화 수집 시, 대화 상대방의 동의를 획득해야 하는지에 대한 개인정보위 답변 (출처: 개인정보위)]

이와 같은 결론에 도달한 배경으로 개인정보위는 i) 대화의 일방 당사자(A)가 입력한 카카오톡 대화는 대화 상대방(B)의 회원정보를 함께 수집하지 않는 이상 이를 입력한 일방 당사자의 개인정보로써 수집된 것이며, ii) 이는 다수가 포함된 사진을 일방 당사자가 입력할 때에도 일방 당사자가 자신의 책임하에 이를 처리하는 것이며, 개인정보처리자가 사진에 포함된 모든 사람의 동의를 받아 수집하도록 요구되지 않는 것과 유사한 것으로 판단했다고 설명했다. iii) 다만, 수집한 대화를 공개하는 등 대화 상대방이 예상하기 어렵고 불측의 손해가 우려되는 처리 행위는 특별한 사정이 없는 한 허용된다고 보기 어렵다는 설명을 추가적으로 제시했다.

그런데, 위의 설명에서 i)은 그 논리가 다소 빈약하여 향후 논란을 일으킬 여지가 있을 것으로 보인다. 예를 들어, 카카오톡 서비스를 이용하기 위해서는 카카오톡이 이용자의 스마트폰에 저장되어 있는 ‘주소록’ 정보를 수집해야 하는데, 해당 주소록에는 이용자가 저장한 타인(지인)의 ‘이름 및 전화번호’가 포함되어 있다. 즉, 카카오톡 서비스를 이용하려면, 카카오톡 서비스 제공자는 이용자의 개인정보(회원정보)뿐만 아니라, 해당 이용자가 주소록에 관리하는 “타인(지인)의 개인정보”를 수집하는데, 실제 카카오톡 서비스 제공자는 이용자 일방의 동의만으로 타인(지인)의 개인정보까지 수집 및 이용하게 된다. 이와 같은 사실을 위 i)에 대입해보면, 정보를 관리하는 이용자(일방 당사자(A))가 입력한 주소록 정보는 타인(대화 상대방(B))의 개인정보를 포함한다. 여기에서 주소록 정보는 회원정보에 준하는 ‘타인을 식별할 수 있는 이름과 전화번호’를 포함하고 있는 정보이기 때문에 위 개인정보위의 설명에 비추어 보면, 이용자(일방 당사자(A))의 개인정보로써 수집된 것이라고 보기 어렵기 때문이다. ii)의 설명도 이러한 관점에서 살펴보면 어색한 지점이 있다. 타인의 정보가 포함되어 있는 사진을 “일방 당사자가 자신의 책임하에 처리하는 경우”라면, 다수의 동의를 받아 수집하는 것이 요구되지 않는다고 하는데, 이는 결국 타인의 개인정보를 일방 당사자가 자신의 책임하에 처리하는 경우에는 정보주체인 ‘타인’의 동의 없이도 처리 가능한 것으로 해석하는 입장으로 이해된다. 이와 같은 해석은 제3자의 개인정보라 할지라도 “일방 당사자가 자신의 책임하에” 제공 등 처리하는 경우에는 제3자의 동의를 배제할 수 있다는 것이어서 개인정보보호법의 동의 체계를 현행화 할 수 있는 위험을 내포한 해석이라 평가하지 않을 수 없다.

iii)의 설명도 일반적으로는 이해하기 어려운 지점이라 하지 않을 수 없다. 정보통신망법은 “누구든지 정보통신망에 의하여 처리ㆍ보관 또는 전송되는 타인의 정보를 훼손하거나 타인의 비밀을 침해ㆍ도용 또는 누설하여서는 아니 된다(법 제49조).”라고 규정하고 있고, 카카오톡 대화는 통상 타인의 비밀에 해당하는 것으로 볼 수 있어 이를 누설하는 것은 정보통신망법 위반으로 해석하는 것만으로도 이번 이루다 사건에서의 카카오톡 대화 공개를 충분히 제한할 수 있다는 해석이 가능하기 때문이다. 이와 같은 법적 장치가 있음에도, “수집한 대화를 공개하는 등 대화 상대방이 예상하기 어렵고 불측의 손해가 우려되는 처리 행위는 특별한 사정이 없는 한 허용된다고 보기 어렵다.”라는 설명만 간략히 제시하고, 이와 같은 결론에 다다른 배경 내지 논리에 대한 구체적 근거를 제시하지 않는 것은 쉽게 이해하기 어려운 지점이다⁽⁴⁾).

4. 비정형 데이터에 대한 엄격한 가명처리의 요구

개인정보위는 이루다 사건에서 문제가 된 DB를 크게 ‘(AI)학습 DB’와 ‘응답 DB’로 구분하고, 전자는 회원정보 등의 식별자만 삭제 또는 암호화 조치하였을 뿐, 대화문장 내 개인정보에 대해서는 아무런 처리를 하지 않아 가명처리하려는 노력이나 의도가 없었던 것으로 보인다고 평가했다. 따라서, 이를 개인정보보호법상 가명처리 된 가명정보에 해당한다고 할 수 없고, 따라서 가명정보 처리 특례규정도 적용할 수 없다고 보았다. 후자는 가명정보에 해당할 여지는 있으나, 응답 DB에 포함된 카카오톡 대화문장을 일반 이용자에게 그대로 발화되도록 서비스하는 행위는 기술 개발 등 과학적 방법을 적용하는 연구라고 할 수 없어 가명정보 처리 특례규정을 적용할 수 없다고 보았다. 또한, 응답 DB에 포함된 카카오톡 대화 문장을 기반으로 이를 발화한 이용자를 역추적 할 수 있어 응답 DB를 익명정보로 볼 수 없다는 입장을 견지했다.

이에 대해, 스캐터랩 측은 AI 학습 DB의 경우 식별자에 해당하는 정보는 모두 암호화 처리하였고 그 외 정보주체에 대한 항목으로는 성별, 직업, 대화자 사이의 관계정보밖에 없어서 개인을 식별하는 것은 불가능하다고 주장했다. 아울러, 응답 DB의 경우에는 정보주체에 관한 정보가 전혀 포함되어 있지 않고 오로지 발화문장만 저장되어 있으며 이마저도 어떠한 맥락도 없이 배열되어 있어서 이를 통해 개인을 식별하는 것이 불가능하다는 점을 강조하였다. 특히 응답 DB의 발화문장은 개인을 식별할 수 있는 정보가 포함되지 않도록 수차례에 걸친 개인정보 제거 및 비식별화 작업을 진행했는데, 비식별화 작업을 위해 PNR이라고 부르는 별도의 인공지능 모델까지 개발하여 적용한 점도 강조했다. 이러한 결과, 응답 DB에 수록된 데이터 1억 건 중 문제가 되는 정보는 극소수에 불과하고, 이 정보들조차 실제로 ‘누구의 개인정보인지 또는 가공의 것인지’ 여부가 확인된 바도 없다는 점을 내세웠다.

이에 대해 백대용 개인정보위 위원은 “학습데이터나 응답데이터와 관련해서 저희가 응답 DB의 0.00002% 있는 것을 가지고 가명처리가 안 되어서 이것은 가명정보다, 아니다 라고 보는 것이 아닙니다. 그것은 본질이 아니고, 어쨌든 학습데이터도 그렇고, 아까 제가 처음 말씀드렸던 것과 같이 카카오톡 대화 내용이라는 민감정보를 수집한 것에 상응하는 정도의 가명처리가 됐으면 우리법상 허용해 주고 있는 가명처리 특례규정에 의해서 충분히 하실 수 있다는 것이지요.”라고 하여, 실제 이루다 사건으로 문제가 된 데이터의 절대 다수가 가명처리가 되었다는 점을 역설적으로 재확인하기도 했다.

상황이 이와 같음에도, 구체적으로 비정형 데이터를 어느 수준까지 가명처리 하여야 법에서 정한 가명처리를 수행한 것으로 인정받을 수 있는 것인지에 대한 의문이 제기될 수밖에 없다. 1억건의 응답 DB 가운데 수십 개 이하의 문장에서 개인식별 정보가 비식별처리 되지 않았다고 하여 가명처리가 적절하지 않았다고 평가하는 상황에서 “(학습 데이터에 포함된) 일반 텍스트로 기재되어 있는 숫자(특히, 전화번호 내지 신용카드정보가 숫자가 아닌 텍스트로 기재되어 있는 경우)나, 일반적 패턴을 따르지 않는 개인정보(아이디와 도메인 사이에 ‘빈 칸’이 포함된 이메일 주소(예: abcde @email.com) 등)등은 기술적으로 가명처리를 하는 것이 매우 곤란하며, 대규모의 학습 데이터를 사람이 일일이 확인하는 것이 현실적으로 불가능하다는 점 등을 고려할 때 “개인정보보호법을 준수하는 방식으로 대규모 대화형 인공지능 학습 데이터를 구축하는 것”이 현실에서 가능한 것인지에 대한 의문이 제기될 수밖에 없다.

나가며

상기에서 논의한 것 외에도, ‘과학적 연구’ 목적의 허용범위 라던지, Github 등 외부의 접근이 가능한 저장소(repository)에 데이터를 저장할 때의 주의사항 등에 대한 논의도 이번 이루다 사건에 대한 처분에서 살펴보아야 할 지점으로 판단된다. 아울러, 카카오톡 대화를 이용자가 자신의 기기에 내려 받을 때, 대화 당사자의 프로필 이름이 아니라 “대화자 1, 2” 등과 같이 식별성을 제거하여 대화를 내려 받는 것을 기본 설정(default option)으로 하도록 가이드 하는 등의 조치까지도 고려될 수 있었으나 실제 개인정보위는 이번 처분에선 스캐터랩의 개인정보 처리에 관한 위법사항에 대한 것만 집중한 것으로 보인다.

개인정보위가 제시한 바와 같이, 이번 사건으로 인해 인공지능 서비스 개발 과정에서 어떻게 개인정보를 적법하게 처리할 수 있을 것인지에 대한 적절한 가이드가 제공된 것으로 볼 수 있는 지점도 분명히 있다. 특히, 대화 콘텐츠를 대화 일방 당사자의 동의만으로 수집 및 이용할 수 있다고 판단한 점은 개인정보위가 인공지능 기술 발전을 위해 매우 전향적으로 판단하여 가이드를 제시한 지점으로써 긍정적으로 평가할 수 있을 것으로 보인다. 또한, 위반 항목을 “가. 텍스트앳과 연애의 과학 내 개인정보 처리, 나. 이루다 관련 개인정보 처리, 다. Github 관련 개인정보 처리”로 구분하고, 나.의 이루다 관련 개인정보 처리에 대해서는 i) 법정대리인의 동의 없이 만 14세 미만 아동의 개인정보를 수집한 행위에 시정명령과 과징금 780만원 및 과태료 700만원을 부과하고, ii) 수집 목적 외로 이루다 학습, 운영에 카카오톡 대화 문장을 이용한 행위에 대해 시정명령과 과징금 780만원을 부과하는 등 실제 ‘이루다’ 관련 개인정보 처리에 한정하는 경우 상당히 제한적 수준(스캐터랩에 대한 전체 과징금, 과태료는 1억을 상회하는 점과 비교)에서 처분을 한 점은 개인정보위가 이번 처분에 있어 균형을 유지하기 위해 상당히 노력한 것으로 평가할 수 있다.

그러나, 위에서 본 것과 같이 이번 처분엔 여전히 불명확한 지점이 많이 남아 있으며, 이번 처분이 의도한 바와 달리 인공지능 서비스 개발 생태계가 위축될 우려를 해소하긴 어려워 보인다. 이러한 우려를 해소하기 위해선, 최근 공개된 개인정보위의 보도자료 및 전체회의 회의록 외에도 처분의 기초가 된 사실관계 및 적용 법조에 대한 정치적 해석이 공개되어야 할 것으로 생각된다. 이를 기반으로 충분한 사회적인 논의를 거쳐 개인정보보호법에 대한 명확한 해석례를 정립하고, 이를 인공지능 서비스 개발에서의 준수해야 할 유의사항에 반영하는데 있어 전문가들의 적극적인 참여가 요구된다. 아울러, 인공지능 대화형 챗봇을 20대 여성으로 설정하여 성희롱적 질의와 답변이 확산되도록 한 사안 등과 관련한 ‘윤리적’ 이슈에 대해선 정부가 향후 어느 부처에 이러한 이슈에 관한 대응을 맡길지도 논의가 필요할 것으로 생각된다. 현재 과학기술정보통신부가 인공지능 윤리기준을 제시한 바 있으나, 실제 현장에서 이것이 제대로 확산되고 준수되도록 독려하고 지원하는 활동까지 이어지기 위해선 한 부처의 노력만으로 가능한 것은 아니기 때문이다. 개인정보보호법에 대한 다양한 시각을 통합할 수 있는 해석례와 인공지능의 윤리 이슈 대응에 대한 ‘실질적 대응책’이 적시에 제시되길 기대해본다.

본 원고는 KISA Report에서 발췌된 것으로 한국인터넷진흥원 홈페이지(https://www.kisa.or.kr/public/library/IS_List.jsp)에서도 확인하실 수 있습니다.

KISA Report에 실린 내용은 필자의 개인적 견해이므로, 한국인터넷진흥원의 공식 견해와 다를 수 있습니다.

KISA Report의 내용은 무단 전재를 금하며, 가공 또는 인용할 경우 반드시 [한국인터넷진흥원,KISA Report]라고 출처를 밝혀주시기 바랍니다.

[ + ]

1.	⇡	법무법인(유) 세종, “개인정보보호위원회의 ‘이루다’ 제재처분에 비추어 본 비정형 데이터 활용에 관한 법적 쟁점”, 2021. 5. 21., URL: http://www.shinkim.com/kor/media/newsletter/1498
2.	⇡	법무법인 광장, “’이루다’ 사건에 대한 개인정보위 결정의 의미와 시사점”, 2021. 5. 11., URL: https://www.leeko.com/newsl/dpc/202105/20210511.pdf
3.	⇡	개인정보보호법은 개인정보처리자를 업무를 목적으로 개인정보파일을 운용하기 위하여 스스로 또는 다른 사람을 통하여 개인정보를 처리하는 공공기관, 법인, 단체 및 개인 등(법 제2조 제5호) 이라고 규정하고 있으며, 이와 같은 개인정보처리자는 법이 정한 일정한 요건을 충족하는 경우에 개인정보를 수집할 수 있으며, 그 수집 목적의 범위에서 이용할 수 있다고(법 제15조 제1항) 규정하고 있어 개인정보를 수집한 것으로 인정받기 위한 전제조건으로 개인정보(파일)를 이용하려는 목적을 요구하지 않는 것으로 이해된다.
4.	⇡	정보통신망법 제49조에서 말하는 ‘타인의 비밀’이란 일반적으로 알려져 있지 않은 사실로서 이를 다른 사람에게 알리지 않는 것이 본인에게 이익이 되는 것을 뜻한다(대법원 2006. 3. 24. 선고 2005도7309 판결 등