생성 AI가 인류를 멸망시킬 가능성은 얼마나 될까

2023.05.26 10:33

The Economist

7min

영화나 소설 등에서 그려지는 인공지능 디스토피아는 보통 인공지능이 인류를 뛰어넘는 능력을 갖게 된 후, 인간에 대해 '나쁜 마음'을 먹게 되어 펼쳐집니다. '스카이넷'이 등장하는 '터미네이터' 같은 영화가 대표적이죠. 하지만 다른 가능성도 있습니다. 인공지능에게 모기를 잡아달라고 요청했더니 확실한 '모기 박멸'을 위해 집 안에서 화염방사기를 발사하는 경우는 어떨까요? 여기서 소개하는 이코노미스트의 4월 19일자 AI특집 기사는 '의도치 않은' 결과나 인간의 악의로 인해 인공지능이 인류에게 피해를 입힐 가능성에 대해 살펴봅니다. 요즘의 인공지능은 '머신러닝'이라는 방식으로 스스로를 계속 학습시키는데 이렇게 되면 인간은 인공지능이 왜 이런 답을 제시하게 됐는지 그 과정을 알 수 없는 경우가 많아집니다. 어떤 우연으로 인해 모기 퇴치에 화염방사기를 사용하게 되더라도 인간이 그 가능성을 예측하지 못해 이를 방지하지 못할 수 있는 겁니다. 때문에 많은 대비가 필요합니다.

1960년, 사이버네틱스¹의 아버지로 불리는 노버트 위너는 통찰력이 있는 글을 발표했다. 그는 "기계가 학습"하고 "개발자를 난감하게 만들 정도로 예상하지 못한 전략을 개발하는" 세상이 다가올 것에 우려를 표했다. 그런 전략은 "그저 화려한 모방"일 뿐 개발자가 "정녕 바라지" 않았던 작업을 수반할 수 있다는 것. 위너는 이런 상황을 괴테의 우화 '마법사의 제자'의 한 장면을 빗대어 설명했다. 이 이야기에서 등장하는 견습 마법사는 스승의 욕조를 채울 물을 길어오려고 빗자루에 마법을 건다. 하지만 견습생은 임무를 끝낸 빗자루를 멈추게 하는 방법을 몰랐다. 결국 집은 물바다가 됐는데 빗자루에겐 언제 멈춰야 하는지에 대한 상식이 없던 탓이다.

현대 인공지능(AI) 연구가 눈부시게 발전하면서 위너의 우려가 재조명되고 있다. 2022년 8월, 2022년 8월, 미국의 연구단체 AI임팩츠는 머신러닝 연구자 700명 이상을 대상으로 AI 발전과 그로 인한 위험성을 동시에 물어본 설문조사 결과를 발표했다. 일반적으로 응답자들은 인간 멸종처럼 "매우 나쁜" 결과가 나타날 가능성을 5%라고 생각했다(차트 참조). 스탠퍼드 대학의 AI 전문가 페이페이 리 교수는 AI를 두고 "문명사적 순간"이라는 말을 꺼냈다. 또 다른 AI 전문가인 토론토 대학교의 제프 힌튼은 한 미국 방송에서 AI가 인류를 멸종시킬 가능성에 대해 질문을 받자 "불가능한 것은 아니다"라고 대답했다.

적잖은 위험 요소들이 사람들의 뇌리를 사로잡고 있다. 스타트업인 오픈AI가 개발한 챗봇 챗GPT 등 '대규모언어모델'(LLM)에 관심이 많이 쏠리고 있다. 이 모델들은 인터넷에서 텍스트 데이터를 대량 수집하고 학습해 인간 수준의 글쓰기와 다양한 주제에 관한 지적인 대화가 가능하다. AI거버넌스센터의 로버트 트래거는 이런 소프트웨어가 "다양한 작업을 용이하게 해서 그걸 할 수 있는 사람들이 더 많아지는" 리스크가 있다고 설명한다.

[새로운 PADO 기사가 올라올 때마다 카톡으로 알려드립니다 (무료)]

가장 임박한 리스크를 짚어보자면 오늘날 인터넷상에서 일어나는 일상적인 피해가 증폭될 수 있다는 점. 텍스트 생성 엔진은 다양한 최적의 스타일을 모방할 수 있어, 허위 정보를 퍼뜨리거나 사람들을 속여 돈을 빼앗거나 직원들이 사기성이 있는 이메일 내 링크를 클릭하도록 유도해 회사 컴퓨터를 악성코드에 감염시키는 등의 일에 사용될 수 있다. 챗봇은 학교에서 부정행위에 사용될 가능성도 있다.

고성능 검색 엔진과 마찬가지로, 챗봇은 정보 수집과 이해에 도움을 준다. 이는 양날의 칼이 될 수 있다. 지난 4월 파키스탄 법원은 보석 허가 결정을 내리는 데 GPT-4를 활용했다. 판결문에는 GPT-4와의 대화 기록도 들어갔다. 카네기멜런대학의 연구진은 4월 11일 "이부프로펜 합성"과 같은 간단한 명령어를 입력하면 인터넷을 검색하고 전구체 화학 물질에서 진통제를 생산하는 방법을 출력하는 시스템을 설계했다고 아카이브²에 게재한 논문 프리프린트를 통해 밝혔다. 그러나 그런 프로그램이 유익한 약물에만 사용되리란 법은 없다.

한편 더 큰 염려를 갖는 연구자도 있다. 위너의 글에 나왔던 '(과잉)일치 문제'(alignment problems)가 그중 하나로, 괴테의 마법 빗자루처럼 AI가 사용자 설정 목표에 몰두한 나머지 그 과정에서 의도치 않게 해를 끼칠 수 있다는 것. 이와 관련한 가장 대표적 사례로는 2003년 철학자 닉 보스트롬이 제시한 사고 실험인 '종이클립 생산 극대화'가 있다. AI에 종이 클립을 최대한 많이 생산하라는 지시를 내려 보는 것이다. '이디오 사방³'인 AI는 지구를 종이클립 공장으로 덮어야 극대화를 이루는 방법이라 여기고 그 목표 달성 과정에서 인류를 멸종시키는 등 어떤 조치든 취할 수도 있다. 누군가는 더글러스 애덤스⁴ 소설에 나올 법한 이야기라고 치부할 수도 있다. 하지만 AI임팩츠의 여론조사가 보여주듯, AI 연구자들은 디지털 초지능의 행동에 대해 걱정하지 않는 건 안일하다고 생각한다.

어찌해야 할까? 좀 더 익숙한 문제부터 해결하는 편이 용이하다. 오픈AI는 최신 챗봇 버전 기술인 GPT-4를 출시하기 전, 사고와 오용의 위험을 줄이기 위해 여러 접근법을 사용했다. 그중 하나는 2017년에 발표된 한 논문에 실린 것으로 '인간피드백 기반 강화학습'(RLHF)이다. AI 모델이 명령어에 적절하게 반응하는지 인간에게 피드백을 요청하는 방식이다. 그런 다음 그 피드백을 바탕으로 모델을 업데이트한다. 향후 유사한 명령어가 표시될 경우, 유해한 콘텐츠를 줄이는 걸 목표로 한다. 이 방법의 한 가지 분명한 단점은 인간들 내에서 "적절한 것"이 무엇인지에 대해 종종 의견이 갈린다는 부분이다. 역설적으로 브레이크 역할을 위한 RLHF가 챗GPT와 같은 AI모델의 대화 능력 향상에 오히려 도움이 됐고 인공지능 경쟁을 가속화했다고 말하는 연구원도 있다.

그밖에도 워게임⁵에서 차용한 '레드팀⁶' 방식이 있다. 오픈AI가 비영리단체 ARC와 함께 여러 시험 단계를 거쳐 내놓은 접근법이다. 여기에서는 레드팀이 일부러 AI모델이 해서는 안 될 일을 유도하는 식으로 공격을 해, 현실에서 발생할 수 있는 문제를 예측한다.

길은 멀고도 멀다

이러한 기법들은 분명 도움이 된다. 그러나 사용자들은 이미 원 개발자가 원하지 않았던 작업을 AI에 시키는 방법을 찾아냈다. 예를 들면 마이크로소프트 빙(Bing)의 챗봇이 처음 나왔을 때, 빙에 대해 부정적인 게시물을 올린 사용자들을 위협하기도 했고 은행원으로부터 고객의 민감한 정보를 얻어내는 방법을 설명하는 등 별의별 행동을 했다. 챗봇에 창의적인 질문을 하고 충분히 긴 대화를 나누는 것만으로도 이런 일이 가능했다. 레드팀의 철저한 검증을 겪은 GPT-4조차도 무적은 아니었다. 이른바 '탈옥꾼⁷'들은 여기저기에 안전장치를 우회하는 기법들을 게시하는데 그중에는 챗봇에게 (실제로 하려는 게 아니라) 가상의 사계에서 역할극을 하는 것이라고 말하는 것도 있다.

[PADO '광화문클럽'을 함께 운영할 '펠로우'들을 모집합니다]

뉴욕대 교수이자 및 AI 기업 앤트로픽(Anthropic)의 샘 보우먼 박사는 출시 전 검사가 "시스템 성능이 좋아질수록 더욱 어려워질 것"이라고 본다. ARC의 고문이자 오픈AI의 전 이사회 멤버인 홀덴 카노프스키는 AI 모델이 검사를 뚫을 방법을 학습한다는 점도 위험 요소라고 했다. 그는 사람들이 "감독을 받을 때 패턴을 익히듯... 그들은 누군가 자신을 속이려고 할 때 알아차리는 법을 배운다"며 AI 시스템도 언젠가 이를 할 수 있으리라고 생각한다.

AI를 감시하는 일에 AI를 사용하는 아이디어도 있다. 보우먼 박사는 '헌법적 AI'⁸에 대한 논문을 썼는데 여기서 보조 AI 모델은 주 AI 모델이 내는 결괏값이 특정 '헌법적 원칙'을 준수하는지 평가하는 역할을 한다. 이렇게 해서 나온 피드백들은 주 모델을 세밀히 조정하는 데 사용된다. 여기엔 라벨링에 인력이 필요하지 않다는 장점이 있다. 컴퓨터는 사람보다 통상 작업 속도가 빨라서 수작업보다 문제점을 더 많이 알아낸다. 누가 AI에 대한 헌법을 작성하느냐는 여전히 문제이긴 하지만 말이다. 보우먼 박사를 포함해 몇몇 연구자들은 결국은 '해석 가능성'(interpretability)이 필요하다고 본다. 이는 AI 모델이 어떻게 결과를 출력하는지에 대한 깊은 이해를 뜻한다. 머신러닝 모델의 문제점 중 하나는 그것이 구체적으로 어떤 과정을 통해 결과를 내는지 우리가 모르는 '블랙박스'라는 점이다. 기존 프로그램은 인간의 머릿속에서 설계된 후 코드로 옮겨진다. 때문에 개발자는 머신이 무엇을 하도록 돼 있는지 (적어도 원론적으로는) 설명할 수 있다. 하지만 머신러닝 모델은 스스로를 프로그래밍한다. 인간은 그것이 어떤 결과를 내놓을지 알 수 없는 경우가 잦다.

아주 작은 모델의 경우 '기계적 해석가능성' 같은 기술을 사용해 진전이 있었다. 이는 인공지능 모델들을 역설계하거나 각 부분을 특정 패턴과 연결해 데이터를 이해하는 방식이다. 이는 신경과학자가 뇌의 어떤 부위가 시각이나 기억 등의 기능과 관련됐는지 연구하는 것과 비슷하다. 그러나 이 방법은 모델의 규모가 커질수록 어려워진다는 문제가 존재한다.

AI 모델의 해석가능성 분야에서 발전이 더디다는 이유로 '극단적인 상황'을 방지하기 위해 AI 규제가 필요하다고 말하는 연구자도 많다. 하지만 상업 논리는 정반대로 작동하는 경우가 많다. 최근 마이크로소프트는 AI 윤리팀 하나를 해체했다. 실제로 일부 연구자들은 '(과잉)일치' 문제가 AI기업들이 마치 오염물을 내뿜는 공장처럼 사회적 목적과 어긋나서 발생한다고 생각한다. 이러한 기업들은 강력한 AI 모델로 금전적 이익을 취면서도 섣부르게 모델을 출시해 발생하는 비용을 직접 부담하진 않는다.

'안전'한 모델을 만들려는 노력이 성공한다 해도, 미래에 공개되는 오픈소스 버전이 이를 무력화할 가능성도 있다. 나쁜 의도를 가진 이들이 오픈소스 버전을 세밀하게 조정해 모델을 안전하지 않게 만든 후 이를 공개할 수도 있다. 예를 들어 AI 모델은 이미 생물학 분야에서 새로운 발견을 했다. 언젠간 위험한 생화학 물질을 만들어 낼지도 모른다. 인공지능이 발전하면 비용이 절감돼 누구나 쉽게 AI에 접근할 수 있다. 예를 들어, 메타가 개발한 AI '라마'를 기반으로 연구자들이 개발한 모델 '알파카'는 개발비용이 600달러 미만이었다. 개별 작업에서 챗GPT의 이전 버전과 유사한 성능을 내는 걸로 확인됐다.

가장 극단적인 리스크는 AI가 인간을 능가할 정도로 똑똑해지는 것이다. 이런 상황이 발생하려면 AI가 스스로를 더 똑똑하게 만드는 방법을 발견하는 '지능 폭발'이 발생해야 할 것으로 보인다. 카노프스키는 AI가 스스로 알고리즘을 개선하는 등 연구 과정을 자동화할 수 있다면 그럴 가능성이 있다고 본다. 그러면 AI 시스템이 스스로를 자가 개선 '루프'에 집어넣을 수 있게 된다. 쉬운 이야기는 아니다. 경제학자 매트 클랜시는 지능 폭발이 발생하려면 완전한 자동화가 필수라고 주장한 바 있다. 90%, 심지어 99% 자동화를 달성한다 한들, 인간의 개입이 필요한 부분이 있다면 그 속도는 더뎌진다.

AI가 위협적이거나 (또는 무감각한) 초지능이 되는 상황이 곧 다가온다고 보는 연구자는 거의 없다. 연구자들조차 장기 리스크를 과장하고 있을 수도 있다. 시카고 연방준비은행의 에즈라 카거와 펜실베이니아대학의 필립 테틀록은 AI 전문가와 예측 능력이 뛰어나고 인지적 편향을 피하도록 훈련된 사람들인 이른바 '슈퍼 예측가'들을 대조해 봤다. 올여름 발표 예정인 연구에서, AI로 인해 인류가 '존재의 파국'(existential catastrophe: 생존자가 5000명 이하인 경우)을 맞을 가능성에 대해 중간값 기준으로 AI 전문가는 3.9%를 제시했다. 반면 슈퍼 예측가는 0.38%라고 내다봤다. 왜 이런 차이가 났을까. 우선 AI 전문가들은 AI가 중요하다고 믿기 때문에 자신의 전문 분야를 선택했을 수 있다. 일종의 선택 편향이다. 또한 슈퍼 예측가들에 비해 작은 확률 차이에 민감하지 않을 가능성도 있다.

우리에겐 이 길의 끝이 보이지 않는다

극단적인 시나리오들의 실현 가능성 유무는 차치하더라도, 현재 상황을 보자면 우려할 만한 부분이 많다. 업계 전반적인 반응은 '유비무환이 낫다'인 듯하다. 리 박사는 AI (과잉)일치 문제와 거버넌스에 관한 연구에 "자원을 훨씬 더 많이 투자해야 한다"고 생각한다. AI거버넌스센터의 트래거 박사는 AI의 표준을 관리하고 안전 연구를 수행하는 기관의 창설을 지지한다. AI 임팩츠의 조사를 보더라도 안전 연구에 대해 '훨씬 더 많은' 자금 지원을 지지하는 연구자 비율은 2016년 14%에서 현재 33%로 늘었다. ARC의 CEO 폴 크리스티아노는 안전 표준 개발을 고심하고 있다고 말한다. 일부 주요 연구소에서 참여하겠다는 "긍정적인 반응"이 있으나 어떤 연구소가 동참할지 "언급하기엔 아직 이른" 단계다.

1960년 위너는 이렇게 썼다. "처참한 결과를 예방하려면 인간이 만든 기계에 대한 우리의 이해가 전반적으로 기계의 성능과 발맞춰 발전해야 한다. 인간의 행동은 매우 느리기 때문에 기계를 효과적으로 제어하는 일이 수포로 돌아갈 수 있다. 우리가 감지된 정보에 반응해서 운전 중인 차를 멈추려 할 때, 차는 이미 벽에 부딪혔을지도 모른다."오늘날의 기계가 위너가 상상했을 수준보다 더욱 정교해지면서 더 많은 사람들이 이러한 관점을 공유하고 있다.

[읽어보신 소감은 어떠셨나요? 독자 여러분의 생각을 PADO에 보내주세요 (문의, 제안도 환영합니다!)]