[Vol.03] Google의 제3자 쿠키 대체 기술 FLoC에 대한 우려가 제기되는 배경- Users of an interest FLoC together?
Google의 제3자 쿠키 대체 기술 FLoC에 대한 우려가 제기되는 배경 – Users of an interest FLoC together?
이진규 ([email protected])
네이버주식회사 개인정보보호책임자 (이사)
들어가며
Google은 오는 2022년에 Chrome browser에서 제3자 쿠키(3rdpartycookie)를 몰아낼 것이라며, 이를 FLoC(Federated Learning of Cohorts)라는 인공지능 시스템으로 대체할 것이라 밝혀 광고 생태계에 큰 충격을 주었다. FLoC는 말 그대로 ‘동일한 특징을 공유하는 집단’인 코호트(cohort)를 대상으로 수행하는 연합학습(federated learning)을 의미한다. 연합학습은 데이터 샘플을 교환하지 않은 상태에서, 이를 보유하고 있는 분산화된 여러 엣지 기기나 서버에 걸쳐 알고리즘을 학습하는 머신러닝 기법이다.(1)
FLoC는 여러 사이트에 걸친 이용자 활동을 모니터링 하여, 그 정보를 브라우저에 저장하고 브라우저에서 머신러닝을 활용하여 이용자들을 ‘동일하거나 유사한 관심사를 공유하는 그룹’에 배정한다. 이러한 방식을 통해 광고주는 ‘타게팅 대상’을 획득하게 된다. Google 내부 테스트 결과에 의하면, 기존의 쿠키 기반 광고와 비교하여 광고에 지출하는 $1의 비용 대비 95%의 전환(소정의 유도된 행위를 이용자가 수행하는 경우 이를 전환(conversion)이라 함. 광고 캠페인에 따라서 물품을 구매하거나, 앱을 설치하는 등의 행위가 전환으로 판단될 수 있음)을 나타냈다고 한다. 즉, 기존의 타게팅 광고 대비 효과는 동등하지만, 연합 학습을 통해 이용자 프라이버시를 지킬 수 있다는 점이 FLoC의 장점이라고 요약할 수 있는 것이다.(2)
프라이버시를 보호하면서도 광고 효과는 기존과 거의 동일한 솔루션이라면 해당 기술의 확장을 두 팔 벌려 환영해야 할 것이지만, 이에 대한 비판의 목소리도 만만치 않은 것이 사실이다. 과연 어떤 지점에서 Google의 FLoC를 비판하는 것인지, 이를 통해 앞으로 FLoC를 둘러싼 프라이버시 논의에서 우리는 무엇에 주목해야 할 것인지 간략히 살펴보기로 한다.
FLoC 이해하기
FLoC는 연관성 있는 광고를 제시하는 과정에서 “동일한 관심사를 공유하는 다수의 사람들을 그룹화 함으로써” 이용자 정보를 디바이스(브라우저)에서 처리하고, 계정을 익명화하는 프라이버시 중심의 솔루션이라 할 수 있다. Google은 “우리는 유사한 브라우징 습관을 가지고 있는 사람들을 브라우저로 하여금 한데 묶어서 광고 기업들이 개인의 활동이 아닌 그룹의 습관을 관찰하도록 하는 방안을 계획 중이다. 이후, 광고 타게팅은 해당 이용자가 속하는 그룹에 일부 기반하여 수행할 수 있다.”라고 FLoC를 설명한다.(3)
즉, FLoC는 1) 공통의 관심사를 공유하는 그룹(코호트)을 형성하고, 2) 개인을 해당 그룹 안에 숨기는 것인 것, 3) 이를 위해 개인의 브라우징 히스토리를 디바이스 내에서 머신러닝(연합학습)하여 정기적으로 코호트를 업데이트 하는 것이라 설명할 수 있다.
이와 같은 기법은 Chrome browser에 FLoC API를 통해 기능으로 제공되는데, 광고 사업자는 이를 통해 제공받는 cohort ID를 광고 개인화 알고리즘상의 하나의 피처(feature)로 활용할 수 있을 것으로 기대된다.
FLoC에 대한 비판의 목소리
가. 전자프런티어재단의 비판
영국 반독점당국인 CMA(Competition and Markets Authority)는 올해 1월 Google이 우월적 지위를 남용하고 있다는 혐의로 조사에 착수했는데, 이는 디지털 마케팅 기업들이 연합을 형성하여 CMA로 하여금 (FLoC를 포함한) Privacy Sandbox 계획이 경쟁을 저해할 것이라는 민원을 제기했기 때문이다. 그러나, 이와 같은 민원은 아직 Privacy Sandbox가 현실에 적용되지 않은 상황에서 다소 설익은 비판이라는 반론을 맞닥뜨리기도 했다.(4)
FLoC를 향해 가장 날카로운 비판의 목소리를 제기한 것은 전자프런티어재단(Electronic Frontier Foundation, 이하 “EFF”)이다. EFF는 지난 2019년도 8월에 한 번(Don’t Play in Google’s Privacy Sandbox), 올해 3월에 다시 한 번(Google’s FLoC Is a Terrible Idea) FLoC에 관하여 매우 비판적인 입장을 제시했다.
EFF는 ‘19년에는 Google이 “더욱 사적인 웹을 만들겠다.”고 내놓은 계획에 대하여 (1) 잘한 점: Trust API를 통해 CAPTCHA를 덜 노출하기로 한 것과 ‘API budget’ 개념을 도입하여 browser fingerprinting에 사용될 수 있는 정보의 수집을 제한한 것, (2) 잘못한 점: 전환 측정을 개선한다며 내놓은 conversion measurement API가 “campaign ID”에 64비트의 정보를 저장할 수 있도록 하여 광고 전환을 개별 이용자에게 연계할 수 있도록 한 것, (3) 추한 점: FLoC를 제안한 것, (4) 당혹하게 한 점: PIGIN을 제안하여 이용자가 속하는 “관심 그룹”으로 추정되는 것을 브라우저가 추적할 수 있도록 한 것 등이라고 평가를 하였다. 특히, (2), (3), (4)는 기존에 제3자 쿠키가 이용자를 타게팅 하는데 사용했던 방식을 단순히 대체하기 위한 목적으로 제안되었다며, 이러한 방식이 도입되는 경우 “Google의 타게팅 사업은 평소와 마찬가지로 지속될 것이다.”라고 꼬집었다. 또한, 이러한 제한을 묶은 소위 “Privacy Sandbox”는 이용자의 프라이버시에 대한 것이 아니라, Google 사업의 핵심(bottom line)이라고 지적했다. 심지어, Google은 기본적으로 광고 비즈니스를 하는, 그 과정에서 그저 브라우저를 만들게 된 기업이라고 혹평하기도 했다.(5)
Google이 ‘21년 2월 프라이버시 중심의 웹을 향한 길을 만들어내겠다며 ‘광고주와 웹사이트 운영자에게 여전히 훌륭한 결과를 만들어내는 동시에 개인에 대한 추적을 예방하는 “privacy-preserving APIs”를 사용하여 웹 제품을 운영하겠다는 계획을 밝히자, EFF는 다시 이를 크게 비난하는 글을 게시하였다. EFF는 “FLoC는 브라우저로 하여금 기존에 제3자 쿠키가 수행했던 프로파일링을 수행하도록 하는 것인데, 이용자의 최근 브라우징 활동을 행태 라벨로 치환하여 이를 웹사이트 및 광고주와 공유하는 것이다. 이 기술은 제3자 쿠키에 내포되었던 프라이버시 위험을 피해갈 수 있을지 몰라도 그 과정에서 새로운 위험을 만들어낼 것이다. 기존의 행태 광고가 가지고 있던 비(非) 프라이버시 문제점을 더욱 악화시킬 것이데, 여기에는 이용자에 대한 차별과 약탈적 타게팅이 포함된다.”라고 혹평했다. EFF는 구체적으로 다음과 같은 문제점을 제시했다.(6)
- 핑거프린팅(fingerprinting): Google은 cohort ID에 수 천 단위의 이용자를 배정하여 개별 이용자가 추적되는 상황을 막을 것이라 주장하지만, 이런 경우라 하더라도 핑거프린팅을 구성하는데 매우 의미있는 요소를 제공하는 것에는 변함이 없음. FLoC 코호트는 최대 8 비트까지의 ‘엔트로피(entropy)’를 보유하게 되는데, 이 정보는 브라우저가 노출하는 여타 정보와 상관관계를 맺지 않을 것이기에 매우 유의미한 핑거프린팅 요소가 될 수 있다는 의미임. Google은 이를 별도의 프로젝트인 ‘Privacy Budget’으로 대응할 것이라 했으나, 이는 여전히 초기 단계라서 어떤 결과물이 제시될 것인지는 앞으로도 주목해야 함.
- 교차 문맥적 정보 노출(cross-context exposure): cohort ID가 식별자(identifier)로 작동하지는 않지만, 기존에 이미 특정 이용자를 식별한 사업자는 cohort ID를 통해 이용자의 ‘개인정보’를 추가로 획득할 수 있음. 예를 들어, “log in with Google”과 같은 기능을 적용한 웹사이트 운영자는 FLoC를 통해 획득한 정보를 이용자의 프로필에 접목하여 신규 개인정보 항목을 추가할 수 있다는 것임. 이와 같은 신규 개인정보에는 방문한 웹사이트 기록(browsing history)나 인구통계 내지 관심사에 대한 일반적 정보(general information about demographics or interests)가 포함될 수 있음. 특히, 후자의 경우 특정 코호트가 갖는 특징을 ‘과도하게 대표하는(over-represent)’ 경우 더욱 두드러질 수 있는데, A라는 코호트에 중년의 공화당 투표참가자가 다수 분포하는 경우를 생각해보면 이를 어렵지 않게 이해할 수 있음. 이런 의미에서 방문한 웹사이트 맥락을 분리(separation of contexts)하는 것이 가능하지 않게 되기 때문에 교차 문맥적 정보 노출이 가능해진다는 지적이 제기됨
- 타게팅에 의한 차별 (discrimination due to targeting): 타겟 광고는 광고주로 하여금 일부 사람들을 제외하는 방식으로 특정한 사람들에게 도달하는 것을 핵심으로 하는 사업 방식임. 이러한 방식으로 일부는 구인 정보를 접하지 못할 수 있으며, 다른 사람들은 보다 좋은 대출 조건을 제시 받지 못할 수도 있음. Google, Facebook을 포함하는 기존의 대형 광고 플랫폼은 민감한 관심 카테고리를 형성하지 못하도록 하는 정책을 운영하고 있었으나, FLoC는 “감독받지 않는 알고리즘(unsupervised algorithm)”을 사용하여 그룹을 형성할 것이기 때문에 개인의 민감한 특성이 반영된 그룹에 사람들이 속하게 되는 것을 완벽하게 예방하는 것은 불가능할 것임. Google은 시스템의 결과물을 모니터링하여 민감한 카테고리와의 연관성이 존재하는지 검토할 것이라 했으나, 이러한 모니터링 과정에서 전체 이용자의 데이터를 활용하여 민감정보와의 연계성을 분석할 것이라서 이것이 새로운 ‘오웰리언적 우려(Orwellian concerns)’를 만들어낼 수 있다는 지적이 제기됨
나. 마케터들의 비판
FLoC의 적용에 대해선 프러이버시 측면 외에도 여러 문제점이 제기되기도 한다. 가장 대표적인 것이 해당 기술의 ‘적용 범위’에 관한 것이다. FLoC는 오직 Chrome browser에서만 작동하는 것이기 대문에 cross-browser, cross-device, offline data에서의 프라이버시 침해 및 이용자 추적 문제점을 여전히 내버려둔다. 이와 같이 “좁은” 관심사를 둔 FLoC는 기존의 ad sequencing(한 광고 캠페인 내에 있는 여러가지 광고 소재를 유저에게 표시되는 순서와 회수를 설정하는 기능)이나 frequency capping(광고가 노출되는 횟수를 제한하는 기능. 예를 들어, [4-views/48-hours]라고 하면 특정 이용자에게 48시간 이내에 동일한 광고가 4회 노출된 이후에는 더 이상 노출되지 않도록 설정하는 것)과 같은 표준 마케팅 기법을 사용할 수 없기에 마케터들이 FLoC을 적극적으로 활용하는데 주저할 수밖에 없다. 또한, 타게팅이 코호트로 제한되기 때문에 “지난 7일 동안 Amazon에서 Adidas 운동화를 최소 1회 이상 찾아본 사람들에게 이 광고를 노출할 것”과 같이 세부적인 타게팅을 할 수 없고, 오직 “이 광고를 운동화에 관심있는 사람들에게 보여줄 것”과 같이 낮은 수준으로만 타게팅 할 수 없다는 점도 마케터들이 FLoC에 관심을 두기 어려운 지점이다.(7)
그렇다고 Google이 이와 같은 문제점을 전혀 고려하지 않고 있는 것은 아니다. Google은 FLoC를 악용할 수 있는 사례를 충분히 고려하고 있다면서, 다음 사항에 대한 고려사항을 제시한 바 있다.(8)
- 사람들의 관심사를 웹에 드러낼 수 있음(Revealing People’s Interests to the Web)
- 코호트를 이용하여 사람들을 추적할 수 있음(Tracking people via their cohort)
- 종적 프라이버시가 침해될 수 있음(Longitudinal Privacy)
- 민감한 카테고리가 드러날 수 있음(Sensitive categories)
- 웹사이트가 코호트 대상에서 배제될 수 있어야 함(Opting Out of Computation)
나가며
FLoC에 가해지는 비판은 크게 세 가지 정도로 요약할 수 있다. 첫째, 타겟 광고의 근본적 문제점(프라이버시 침해와 차별)을 해결하지 않는다. 둘째, 제3자 쿠키에 존재했던 프라이버시 이슈를 해결할 수도 있지만, 새로운 위험을 만들어 내기도 한다. 셋째, Chrome browser에서만 작동하며, 결국 Google이 광고 생태계에서 확보한 기득권을 더욱 공고히 할 것이다.
특히 가장 주목할 지점은 세 번째 주장이다. 최근 Apple이 iOS14에서 ATT(App Tracking Transparency) 프레임워크를 적용하여 앱이 이용자를 추적하기 위해 사용하는 정보를 노출하고, 광고 추적을 허용할지 여부를 이용자의 선택에 맡기도록 한 정책이 결국 Apple의 사업모델(특히, 광고 중심의 앱 수익 창출에서 구독 중심으로 전환시켜 앱스토어 결제 수수료를 취할 수 있는 앱의 비율을 확대하는 것)을 강화하는 것과 크게 다르지 않다는 점을 상기시키는 대목이다.
본 원고는 KISA Report에서 발췌된 것으로 한국인터넷진흥원 홈페이지(https://www.kisa.or.kr/public/library/IS_List.jsp)에서도 확인하실 수 있습니다.
KISA Report에 실린 내용은 필자의 개인적 견해이므로, 한국인터넷진흥원의 공식 견해와 다를 수 있습니다.
KISA Report의 내용은 무단 전재를 금하며, 가공 또는 인용할 경우 반드시 [한국인터넷진흥원,KISA Report]라고 출처를 밝혀주시기 바랍니다.
1. | ⇡ | Federated Learing(연합학습) 개념이 대중에 널리 알려지게 된 계기는 지난 ‘17년 4월, Google이 공식 인공지능 블로그를 통해 “연합학습: 중앙 집중된 학습 데이터 없이 학습하는 협력적 머신러닝(Federated Learning: Collaborative Machine Learning without Centralized Training Data)”라는 포스팅을 공개한 것이라 할 수 있음. Google은 다음과 같은 순서로 연합 학습이 진행된다고 설명함. (1) 기기가 현재의 모델을 내려 받음, (2) 기기의 데이터를 학습하여 모델이 향상됨, (3) 모델의 변경된(향상된) 부분만 암호화 통신을 이용하여 클라우드로 전송됨, (4) 공유된 모델을 향상시키기 위해 다른 이용자의 업데이트 내용에 더해져서 평균화 됨. 이 과정에서 학습 데이터는 이용자 기기에 머무르며, 개인의 업데이트가 클라우드에 저장되지 않음. 보다 자세한 내용은 다음 링크를 참조 – URL: https://ai.googleblog.com/2017/04/federated-learning-collaborative.html |
2. | ⇡ | Chetna Bindra, Group Product manager, User Trust and Privacy, “Building a privacy-first future for web advertising (Google Ads&Commerce Blog)”, 2021. 1. 25, URL: https://blog.google/products/ads-commerce/2021-01-privacy-sandbox/ |
3. | ⇡ | Google Github, “Federated Learning of Cohorts (FLoC)”, URL: https://github.com/WICG/floc |
4. | ⇡ | 영국 CMA의 조사는 올해 7월까지 진행될 예정인데, Privacy Sandbox가 실행되어 Chrome browser에서 제3자 쿠키 활용이 비활성화되면 웹사이트 운영자들이 수익을 창출하는 역량에 제한을 받을 것이며, 디지털 광고 시장에서의 경쟁이 저하될 것이라는 이의제기가 접수된 것이 기반하여 조사의 착수에 이른 것임. CMA는 이번 조사를 위해 영국 개인정보보호위원회(ICO)와 관련 주제를 논의한 것으로 밝혀졌음. 이에 관한 세부 내용은 다음 링크를 참조 – UK Government, “CMA to investigate Google’ Privacy Sandbox browser changes”, 2021. 1. 8., URL: https://www.gov.uk/government/news/cma-to-investigate-google-s-privacy-sandbox-browser-changes |
5. | ⇡ | Conversion measurement API와 관련하여 EFF는 매우 유의미한 비교를 제시했는데, Apple의 경우 “campaign ID”에 6 비트의 정보를 저장하는데, 이는 1~64 사이의 숫자에 불과하지만 Apple의 경우 64 bit의 정보를 저장하며 이는 1~18 quintillion(10의 18승으로, 백경(百京)을 의미하는 단위임) 사이의 숫자에 해당하기 때문에 campaign ID를 통해 개별 이용자를 식별하고 그들에 의한 모든 전환행위를 추적할 수 있다는 점을 지적했음. 보다 자세한 내용은 다음 링크를 참조 – Bennett Cyphers(EFF), “Don’t Play in Google’s Privacy Sandbox”, 2019. 8. 30, URL: https://www.eff.org/fr/deeplinks/2019/08/dont-play-googles-privacy-sandbox-1 |
6. | ⇡ | Bennett Cyphers(EFF), “Google’s FLoC Is a Terrible Idea”, 2021. 3. 3., URL: https://www.eff.org/fr/deeplinks/2021/03/googles-floc-terrible-idea |
7. | ⇡ | Mattia Fosci(What’s New In Publishing), “6 problems with Google’s FLoC (and 1 silver lining)”, 2021. 2., https://whatsnewinpublishing.com/6-problems-with-googles-floc-and-1-silver-lining/ |
8. | ⇡ | 각주 3. 참조 |