[Vol.7] 무엇이 좋은 대화(Good Conversation)를 만드는가?
무엇이 좋은 대화(Good Conversation)를 만드는가?: 페이스북 연구 네트워크의 ‘좋은 대화 요건’ 연구 리뷰
최홍규 ([email protected])
EBS 미래교육연구소 연구위원
(前) 한국인터넷진흥원 선임연구원
페이스북은 컴퓨터 공학 등 최첨단 분야를 연구하는 학계 전문가들과 일종의 연구 네트워크를 형성하여 다양한 연구를 진행 중이다.
페이스북 리서치 웹페이지(https://research.fb.com)를 보면 AR(Augmented Reality), VR(Virtual Reality), 인공지능, 데이터 사이언스, 머신러닝, 자연어 처리 등 이미 다양한 분야의 연구물들이 축적된 것을 확인할 수 있다. 그런데 눈에 띄는 논문이 있다. 바로 2019년 7월 28일 출간된 “무엇이 대화를 좋게 만드는가?(What makes a good conversation?)”이다.
페이스북 리서치(facebook research) 웹페이지 메인 화면
이 연구 논문1)은 전산 언어학 협회 북미 지부(The North American Chapter of the Association for Computational Linguistics)에 제출된 논문이다. 스탠포드 대학교 컴퓨터 과학 분야 박사과정 학생인 ‘에비게일 씨(Abigail See)’를 주축으로 페이스북에서 인공지능을 연구하는 3명의 연구원(Stephen Roller, Douwe Kiela, Jason Weston)이 함께 완성한 논문이다.
논문의 제목 “무엇이 대화를 좋게 하는가?(What makes a good conversation?)와 부제 ”제어가 가능한 속성이 인간의 판단에 어떻게 영향을 미치는가(How controllable attributes affect human judgments)“에서 유추할 수 있듯이 제어가 가능한 챗봇(controllable chatbots)에 대한 연구 과정 중에 쓰인 논문이다.
연구는 인간의 좋은 대화의 특성을 연구하면서 이러한 특성들을 토대로 챗봇이 향후 어떻게 진화할 수 있을지가 공학적인 시선으로 담겨 있다.
연구는 잡담 대화(chitchat dialogue)에서 중요한 특징인 반복(repetition), 구체성(specificity), 응답 관련성(response-relatedness), 질문(Question-asking) 등 4가지 속성을 낮은 수준의 제어 가능한 속성으로 설정한다. 또한 이들 속성을 제어하기 위한 조건부 훈련(conditional training)과 가중된 디코딩(weighted decoding)이라는 두 가지 신경 텍스트 생성 방법(controllable neural text generation methods)을 검토하는 방식으로 진행됐다. 이러한 매개 변수들이 페르소나챗(PersonaChat)이라는 대화형 과업에서 어떠한 영향을 미치는지 측정했다. 또한, 영향력을 측정하기 위해 인간 평가 방식을 사용했고 높은 수준의 대화 내용을 통해 변수 간의 관계를 분석했다. 결과적으로 이러한 변수들의 조합을 통해 좋은 대화(good conversation) 모델을 도출하고 향후 인간이 대화 모델의 품질을 판단하는 데 활용할 수 있도록 했다.
연구에서 검증하는 변수들과 이를 통해 도출하는 결과들을 요약해보면 아래와 같다.
연구 결과 도출 과정
[출처] research.fb.com
연구에서 매개 변수의 검증을 위해 활용된 대화형 과업은 ‘페르소나챗(PersonaChat)’이라 불리는 과업이다. 페르소나챗은 2명이 짝을 지어 참여하는 대화형 과제로 2명 모두 사람일 수도 있고 2명 중 1명만 사람이고 다른 하나는 챗봇일 수도 있다. 참여자들은 자연스럽게 대화를 나누면서 서로를 알아가게 된다. 훈련 세트에는 총 8,939개의 대화 내용, 955명의 대화, 100명의 검증을 위한 대화 등이 포함되어 있다. 훈련 세트를 통해 대화의 과업을 마치고 나면 인간의 판단에 의해 “상대와 대화하는 것이 얼마나 즐거웠는가?”를 1~4개 척도로 평가하게끔 했다.
연구 과정에서 대화 속성들을 검증하기 위해 공학적 수식 체계들을 만들고 그 계산 결과로 내용을 검증했다. 각각의 ‘반복’, ‘구체성’, ‘응답 관련성’, ‘질문’과 같은 속성들이 페르소나챗이라는 대화형 과업 안에서 어떻게 작용하고 영향을 미치는지 살펴보고 이를 통해 좋은 대화의 요건을 도출했다.
주요 결과를 살펴보면 이렇다.
우선 좋은 대화는 균형 잡힌 대화라고 할 수 있다. 반복, 구체성, 질문은 적절한 수준에서 통제하고 서로의 균형감을 맞춰야 좋은 대화로 마무리될 수 있다. 아무리 좋은 대화의 내용이라고 해도 그 내용이 지루할 정도로 반복되면 대화의 참여자 모두가 만족하기 힘들다. 마찬가지로 대화의 내용이 너무나 구체적인 내용을 담고 상대의 대화 내용을 파고드는 방식으로 진행된다면 이 또한 좋은 대화라고 할 수 없다. 또한, 질문도 너무 많으면 대화 자체가 쉽게 피곤해질 수 있다. 이처럼 연구 결과는 매우 일반적인 대화의 속성이라 하더라도 이들이 균형을 이루지 못한다면 좋은 대화에서 벗어날 수 있다는 점을 경고한다. 챗봇의 알고리즘을 구성할 때 균형 잡힌 대화를 할 수 있도록 구성해야 인간의 좋은 대화를 구사하는 챗봇으로 그 품질을 평가받을 수 있을 것이다.
덧붙여 대화할 때 “흥미(interestingness)”, “경청(listening)”, “호기심(inquisitiveness)”도 좋은 대화를 이루는 중요한 요소로 밝혀졌다. 하지만 이러한 측면들은 기술적으로 너무 최적화할 경우 챗봇에서는 반복적인 오류가 생길 수도 있고 또는 유연하지 못하거나 비현실적인 대화를 지속하는 경우가 나타날 수 있다고 한다. 누군가와 대화를 할 때 흥미를 보이고 진지하게 경청하며 적절한 호기심을 보여주는 것은 중요하지만 이마저도 너무 과하면 다소 기계적인 대화로 흘러갈 수 있다. 챗봇이 너무 흥미를 보이고 과할 정도로 경청 하고 과다한 호기심을 보인다면 사람들은 이 챗봇과의 대화에 몰입하기 힘들 것이다.
또한, 좋은 대화를 연구하기 위해서는 여러 차례 상대를 바꾸어 대화 과업을 수행해야 한다는 점을 밝혔다. 이는 대화의 상황이 다양하고 그 과정에서 밝혀지는 내용도 많기 때문으로 여겨진다. 우리가 사람들과 대화를 할 때도 정말 여러 가지 사람과 상황의 변수들이 존재한다. 따라서 최적화된 대화의 체계를 알고리즘으로 만들어내기 위해서는 다양한 대화 상대를 바꿔가며 대화의 과업들이 수행되어야 하고 거기서 도출된 내용을 검증해야 한다는 말이다. 결국, 대화라는 것은 나와 상대가 어떠한 주제를 적절히 서로 주고받으며 지속해서 흥미를 잃지 않느냐가 관건인데 그 상황들에 관한 많은 사례, 또한 많은 대화 상대가 서로 교차하여 모델을 검증할 수 있어야 한다는 말이다. 이렇게 연구가 수행되고 그 축적된 데이터가 챗봇에 반영되어야 이 챗봇은 어떠한 사람들을 만나도 좋은 대화를 이어갈 수 있게 되는 것이다.
마지막으로 연구진이 구축한 모델은 ‘참여(engagingness)’의 측면에서는 인간에 가까운 점수를 얻었는데 그렇다고 종합적인 측면에서 ‘인간성(humanness)’에 가깝게 평가받지는 못했다. 연구자들이 구축한 챗봇은 참여의 측면에서는 인간처럼 여겨질 정도로 작동될 수 있지만, 인간성을 보여주는 지표에는 도달하지 못했다는 것이다. 향후 개발될 챗봇이 대화 참여의 수준에서는 인간과 비슷한 속성들을 보여줄 수 있다는 점을 알 수 있다. 즉, 굳이 인간의 모든 측면이 충족된 인간성이 기술적으로 확보되지 않더라도 참여의 측면에서 인간과 비슷한 형태로 작동할 수 있어 현재 수준보다 높은 품질의 챗봇 개발이 가능할 것이다.
페이스북 리서치 조직이 스탠포드 대학교의 한 도전적인 학자와 수행한 ‘좋은 대화’에 관한 연구는 아직 보완해야 할 것이 많아 보인다. 대화라는 것은 대화 주체에 따라 수많은 변수가 존재하고 시대적으로 대화체도 끊임없이 변화하며 만족할만한 좋은 대화라고 규정하는 기준도 가변적이기 때문이다.
그러나 이러한 연구들이 지속해서 축적되면 문법적인 차원에서 챗봇이 크게 진보할 것이라는 점은 쉽게 예상할 수 있다. 이제까지 인간 세계에서 체계화된 법칙들은 상대적으로 알고리즘으로 구성하기가 용이 했기 때문이다. 규칙이라는 것이 존재하는 대화 법칙에 관한 챗봇은 수년 내에 큰 발전을 거듭할 것이다. 게다가 챗봇이 현재의 언어적인 대화법을 비롯해 일정 수준의 인간성까지 보여주는 수준으로 발전한다면 우리 인간은 가까운 미래에 챗봇과 만족스러운 ‘좋은 대화’를 할 수 있을 것으로 보인다.
[참고문헌]
[1] Facebook Research(2019. 7. 28). What makes a good conversation? How controllable attributes affect human judgments.
<https://research.fb.com/publications/what-makes-a-good-conversation-how-controllable-attributes-affect-human-judgments>