[Vol.03] 마이크로소프트 이그나이트 2021를 통해 본 인공지능 기술 혁신

 In KISA Report

마이크로소프트 이그나이트 2021를 통해 본 인공지능 기술 혁신

한상기 ([email protected])

테크프론티어 대표

마이크로소프트, 구글, 페이스북, 아마존, 애플 같은 거대 IT 기업의 테크 컨퍼런스는 각 기업의 새로운 제품과 기술을 볼 수 있다는 것도 있지만 우리가 관심 갖는 여러 기술의 미래 방향을 살펴볼 수 있다는 의미가 있다.

마이크로소프트 이그나이트 2021은 마이크로소프트가 제시하는 클라우드, 인공지능, 기술과 사회 이슈를 논의하는 대규모 행사이고 올해에는 온라인 행사로 열렸다. 3월 2일부터 48시간 동안 15만 명의 전문가, 관리자, 개발자들이 디지털로 참석했다. 사티아 나델라 CEO는 기조 연설에서 우리 삶을 완전히 바꿔버린 클라우드의 다음 단계 그리고 생활환경 지능(Ambient Intelligence), 창작자와 커뮤니티, 경제적 기회, 신뢰 기반의 기술이 이끌어 낼 혁신을 강조했다.

이번 글에서는 이그나이트 2021에서 소개한 마이크로소프트에서 개발하거나 연구 중인 인공지능 기술을 살펴보면서 인공지능의 혁신과 진화 방향을 바라보고자 한다. 마이크로소프트의 인공지능과 혁신을 총괄하는 수석 부사장 미트라 아지지라드(Mitra Azizirad)의 발표가 이번 이그나이트에서 마이크로소프트 인공지능 기술 혁신의 핵심 내용이다.

영화를 이해하는 VinVL(Visual features in Vision-Language)과 프로젝트 튜링의 결합

마이크로소프트 연구소에서 발표한 매시브 비주얼 언어 모델로 애저 코그니티브 서비스와 애저 오픈 소스로 제공한다. 전형적인 비전-언어(VL) 시스템은 VL 이해를 위해 두 개의 모듈, 즉 이미지 인코딩 모듈과 비전-언어 융합 모듈을 사용한다. 이미지 인코딩 모듈은 시각 특질(feature) 추출기로 입력 이미지의 특질 지도를 CNN 모델을 사용해 생성한다. 마이크로소프트는 비주얼 지놈(Visual Genome) 데이터셋으로 학습한 모델을 보통 사용한다.

비전-언어 융합 모듈은 인코딩한 이미지와 텍스트를 시맨틱 공간에 매핑해서 의미적 유사성을 계산하는데 마이크로소프트에서는 오스카(OSCAR)와 같은 트랜스포머 기반 모델을 사용해서 구현한다.

그림입니다.

원본 그림의 이름: CLP000047506e8a.bmp

원본 그림의 크기: 가로 423pixel, 세로 127pixel
그림 1 일반적인 비전-언어 모델의 구성 [출처: 마이크로소프트]

이번에 발표한 VinVL은 이미지 인코딩 모듈을 개선한 것으로 새로운 객체-속성 탐지 모델이며 실제 적용에서 시각 특질이 VL 모델에서 더 중요함을 보였다. VinVL을 오스카나 비보(VIVO) 같은 VL 융합 모델과 결합했을 때 현존하는 대부분의 VL 시스템보다 우수한 성능을 보였다.

이를 위해 보통 객체 탐지 모델이 사용하는 코코(COCO)나 오픈 이미지, 오브젝트365(Objects365)에 VG를 통합한 거대 객체 탐지 데이터셋을 만들어서 1,848개의 객체 클래스와 524개의 속성 클래스를 갖는 249만 개의 이미지 데이터셋을 사용했다. 이를 먼저 학습시킨 후 VG에 있는 추가적인 속성을 갖는 부분으로 파인 튜닝했다. 이를 통해 입력 이미지가 갖고 있는 거의 모든 의미 있는 영역을 찾아 낼 수 있었고 더 풍부한 시각 특질을 탐지함으로써 높은 성능을 갖게 되었다.

이번 이그나이트에서는 마이크로소프트 인공지능과 혁신부문 GM인 데이빗 카모나(Carmona)가 영화 ‘어벤저스 엔드게임’ 영상을 갖고 인공지능이 영화를 이해하는 수준을 데모했다. VinVL과 또 하나의 대형 언어 모델인 마이크로소프트 튜링(1)을 이용해 우리가 원하는 내용이 있는 장면을 찾고 그 장면 내용의 요약을 보였다. 또한, 영화 내용에 대해 질문을 던지거나 (예를 들어, 타노스가 사용한 제스처는 무엇인가?), 특정 지점에서 요약을 갖고 튜링이 이야기의 나머지를 예측할 수도 있음을 보였다. 때로는 이런 기능이 영화의 또 다른 결말을 보여줄 수 있음을 선 보였다.

그림입니다.

원본 그림의 이름: CLP000047500001.bmp

원본 그림의 크기: 가로 481pixel, 세로 220pixel
그림 2 VinVL과 튜링을 이용해 영화에서 원하는 내용을 찾고 요약하는 기술 데모
[출처: 마이크로소프트 이그나이트 영상]

카모나는 이 모델이 다른 대형 모델과 같이 커스터마이징이 가능하기 때문에 리테일, 제조, 금융 등 다른 산업에서 사용할 수 있다는 것을 강조했다. 마이크로소프트 자체도 이런 기술을 내부 제품에 사용하는데, 예를 들어 튜링 프로젝트 결과를 아웃룩에 결합해 이메일을 입력으로 해서 자동 응답을 생성할 수 있다고 말했다.

AI at Scale

마이크로소프트의 인공지능 서비스가 대규모에서도 지원이 가능함을 제시하는 것으로 기존 애저의 코그니티브 서비스가 이제 인공지능 슈퍼컴퓨터를 기반으로 동작하며 다양한 새로운 대형 모델을 지원하고 있음을 제시했다. 마이크로소프트는 이 표현을 타사와의 차별성을 갖는 특징으로 매우 전략적인 메시지로 전달하고 있다.

오픈AI의 GPT-3가 이 슈퍼컴퓨터를 이용한 대표적인 모델이며, 서비스 레이어에서는 강화 지식이나 협동 추론이 지원되며 여기에는 튜링 모델이 사용된다. KPMG 같은 기업이 이를 사기 탐지에 사용하고 있음을 보이고, 대형 모델을 좀 더 활용해 고객 지원에 사용하는 AvePoint 사례를 소개했다.

그림입니다.

원본 그림의 이름: CLP000047500002.bmp

원본 그림의 크기: 가로 280pixel, 세로 260pixel
그림 3 AI at Scale 모델

머신 티칭(Machine Teaching)

기본 학습이 되어 있는 인공지능 시스템에 고객이 알고 있는 전문 영역의 지식을 이용해 목적을 특정하거나, 레슨을 학습하거나 안전 기준을 배우도록 할 수 있다. 이 방식은 이미 2019년부터 마이크로소프트가 사람들이 갖고 있는 전문지식을 인공지능에게 가르치는 전략이다. (2)사람들의 문제를 좀 더 쉬운 과업을 나눈 다음에 머신 러닝 모델에게 솔루션을 더 빠르게 찾을 수 있는 중요한 단서를 제공한다. 이는 단지 데이터셋을 통해서 학습하는 현재 모델을 넘어설 수 있는 방법론이라고 밝히고 있다.

이번 이그나이트에서는 가상의 드론을 이용해 마이크로소프트 연구소에서 에어심(AirSim)이라는 초현실적인 시뮬레이션 가상 공간에서 드론이 안전하게 나를 수 있게 학습할 수 있음을 보였다. 에어심은 애저 인공지능과 엣지 서비스와 결합해 매우 복잡한 세계를 시뮬레이션할 수 있다.

그림입니다.

원본 그림의 이름: CLP000047500003.bmp

원본 그림의 크기: 가로 395pixel, 세로 197pixel
그림 4 벨(Bell) 사가 에어심을 통해서 드론 학습을 시키는 모습

디지털 책임

2016년에 마이크로소프트가 발표한 인공지능의 6개 원칙을 준수하기 위한 도구와 기술 역시 인공지능 혁신을 통해서 이루어질 수 있다. 프라이버시에서는 호모모픽 암호와 차등 개인정보 보호 (Differential privacy) 기술을 활용하고, 투명성에서는 설명가능한 인공지능을 위한 해석가능한 인공지능(Interpretable ML) 기술, 편향을 확인하고 이를 완화하기 위한 페어런(Fairlearn) 같은 기술은 디지털 책임을 위한 인공지능 기술의 혁신으로 구현할 수 있다는 점을 강조했다.

거짓 정보나 페이크 뉴스에 대한 대응은 하나의 회사가 할 수 있는 것이 아니기 때문에 연구자, 기관, 회사의 공동 협력이 필요하다는 점을 언급하면서 소개한 것이 프로젝트 오리진(Project Origin)이다. 마이크로소프트 연구소는 여기에 기술적 접근을 제공하면서 퍼블리셔와 소비자 사이의 신뢰 체인을 제공해 진짜 뉴스와 정보를 확인할 수 있게 하고 있다.

미디어가 콘텐트를 발행하면 클라우드 서비스 안에 디지털 지문을 만들고, 퍼블리셔는 진품 인증을 받으며 이를 분산 원장에 저장한다. 블록체인과 유사한 이 방식은 분산된 기관의 연합을 통해서 인증하며 고객은 자신이 보는 콘텐트에 대한 검증 결과를 확인할 수 있다.

애저 퍼셉트(Percept)

이번에 프리뷰로 발표한 애저 퍼셉트는 애저 인공지능 기술을 엣지에서 간단히 구현할 수 있게 만드는 하드웨어와 서비스 플랫폼이며, 기기 관리, 인공지능 모델 개발과 분석을 위한 클라우드 기능을 포함한다.(3)

그림입니다.

원본 그림의 이름: CLP000047500004.bmp

원본 그림의 크기: 가로 290pixel, 세로 218pixel
그림 5 애저 퍼셉트

이 플랫폼에는 애저 퍼셉트 비전이라는 지능형 카메라가 포함된 개발 키트를 제공하며, 애저 퍼셉트 스튜디오는 고객의 광범위한 코딩 경험의 유무와 상관없이, 인공지능 전체 생애주기를 통해 고객을 안내한다. 다시 말해 개발, 학습, 개념 증명을 배포하는 것을 포함한다.

퍼셉트 비전과 퍼셉트 오디오는 개발 키트와는 별도로 판매하는데, 애저 클라우드 서비스와 연결되고 내장된 하드웨어로 가속하는 인공지능 모듈을 통해 엣지에서 음성과 비전 기능을 수행한다. 또한 제3의 반도체나 장비 업체와 협업을 통해 애저 퍼셉트 플랫폼에서 동작하는 지능형 엣지 기기의 생태계를 만들고자 한다.

퍼셉트는 애저와 사물인터넷 기기 간의 양방향 커뮤니케이션을 위한 매니지드 서비스인 애저 IoT 허브와도 연계하며, 퍼셉트 기반 솔루션은 머신 러닝 모델 모니터링, 검증, 거버넌스를 통해 개발과 배포에서 협업을 하거나 속도를 올리고자 하는 MLOps와 통합할 것이다.

애저 인공지능 기술: 시맨틱 검색, 양식 인식기

애저의 인공지능 관련 기술의 새로운 업그레이드를 발표했는데, 애저 코그니티브 검색에서 시맨틱 검색 기능에 대한 프리뷰가 있었다. 이는 자연어 처리 기술 특히 개념 매칭과 동의어 검색을 통해 연관성과 검색 결과 랭킹을 개선하고 좀 더 개인화된 검색 흐름을 제공한다. 특히 이를 쉐어포인트(SharePoint) 커넥터와 결합해 쉐어포인트 콘텐트를 소화하고 탐색하는 것을 더 쉽게 했다.

다시 말해, 랭킹 알고리듬이 머신 러닝을 이용해 질의어에 얼마나 의미가 있는 가에 따라 검색 결과를 보여준다. 또한 시맨틱 결과를 위해 문서에서 질의어에 가장 연관이 있는 구문을 뽑아서 보여준다. 이는 특히 기본 유사성 알고리듬에 의해 파악된 상위 50개 결과에 시맨틱 요약과 랭킹을 적용해 의미 유사성이 가장 강한 결과가 나타나게 다시 스코어를 매긴다.

그림입니다.

원본 그림의 이름: 한상기 그림6.png

원본 그림의 크기: 가로 1185pixel, 세로 675pixel
그림 6 표준 검색과 시맨틱 검색의 차이

애저 코그니티브 서비스 중 하나로 양식 인식기(Form Recognizer)도 이번에 발표했는데, 여기에는 ‘프리빌트 ID’와 인보이스 추출, 그리고 64개의 다른 언어로 된 데이터를 읽을 수 있다. 프리빌트 ID는 여권과 운전 면허증에서 데이터를 자동으로 추출하도록 하는데, 이를 통해 온라인 뱅킹 트랜잭션, 여행 체크인, 호텔 등록과 같은 서비스를 지원한다. 마찬가지로 인보이스 같은 문서에서도 중요 필드에서 데이터를 자동으로 추출할 수 있다.

그림입니다.

원본 그림의 이름: 한상기 그림7.jpg

원본 그림의 크기: 가로 956pixel, 세로 516pixel
그림 7 양식 인식기로 인보이스를 인식하는 과정

양식 인식기는 3월 중에 73개 언어로 확장할 것이며, 인보이스 외에도 판매 영수증, 명함 인식 같은 기능이 사전에 구현되어 제공한다.

본 원고는 KISA Report에서 발췌된 것으로 한국인터넷진흥원 홈페이지(https://www.kisa.or.kr/public/library/IS_List.jsp)에서도 확인하실 수 있습니다.

KISA Report에 실린 내용은 필자의 개인적 견해이므로, 한국인터넷진흥원의 공식 견해와 다를 수 있습니다.

KISA Report의 내용은 무단 전재를 금하며, 가공 또는 인용할 경우 반드시 [한국인터넷진흥원,KISA Report]라고 출처를 밝혀주시기 바랍니다.

   [ + ]

1. 마이크로소프트의 튜링 프로젝트는 170억 개의 파라미터를 갖는 대형 언어 모델로 2020년 2월에 발표했다.
2. Microsoft, “Machine teaching: How people’s expertise makes AI even more powerful,” Apr 23, 2019
3. TechRepublic, “Microsoft Ignite: How Azure Percept will bring AI to the edge for the enterprise,” Mar 2, 2021
Recent Posts
Contact Us

언제든지 편하게 연락주세요.

Not readable? Change text. captcha txt