본문 바로가기
카테고리 없음

AI(챗GPT)가 만든 문장 구별법

by 레종2022 2023. 2. 20.

챗GPT의 등장 이후에 가장 논란이 되는 부분은 신뢰성입니다. 우리가 온라인에서 읽는 글이 사람이 작성했는지 아니면 AI가 작성했는지 어떻게 구별할 수 있을까요? 오늘은 지금까지 나와있는 현실적인 구별법과 진행 중인 연구에 대해 알아보도록 하겠습니다.

 

챗GPT

 

 

1. 문제 제기

2022년 11월 말 오픈AI가 내놓은 챗GPT는 지금까지 100만 명 이상의 사용하고 있습니다. 단순한 질문에 대한 대답을 넘어서 책, 논문, 심지어 과제를 작성할 때에도 챗GPT를 활용하고 있습니다. 이미 미국에서는 챗GPT를 시험이나 과제에 이용하는 사례가 늘면서 뉴욕시에서는 2023년 1월부터 공립학교 내에서 챗GPT의 접근을 차단하겠다는 발표를 내놓기도 했습니다.

 

결국은 왜곡된 정보일지라도 실제처럼 착각하기 쉬운 챗GPT의 정확성 때문에 우리는 온라인상에서 위험에 빠지게 될 것이라는 우려가 커지고 있는 것이겠죠. 이 때문에 챗GPT의 오용 가능성에 대응하기 위해서 사람이 작성한 문장과 AI가 작성한 문장을 가려낼 방법을 찾는 것이 절실해지고 있습니다.

 

2. 구별법

현재  많은 연구자들이 AI가 작성한 문장을 알아내는 방법을 찾기 위해서 다양한 방법들을 시도하고 있습니다. 그 중에 하나로 소프트웨어를 사용해 문장의 특징을 분석하고 얼마나 자연스럽게 읽히는지, 특정 단어들이 얼마나 자주 언급되는지 등을 분석하는 방법이 있는데요. 이 방법을 통해 몇 가지 나온 구별법을 말씀드리겠습니다.

 

2.1. 지나치게 많은 'the' 사용

구글의 딥러닝 연구부서인 구글 브레인(Google Brain)의 연구원인 '다프네 이폴리토'가 밝힌 내용인데요. AI가 작성한 문장에는 지나치게 많은 'the' 사용되었다고 합니다. 챗GPT와 같이 대형 언어 모델을 사용하는 AI는 문장을 만들 때 다음에 오게 될 단어를 예측해서 배열하는 방법을 사용하기 때문에 확실성이 떨어지면서 일반적으로 사용되는 단어인 'the', 'it', 'is'를 자주 사용할 가능성이 높다는 것입니다.

 

2.2. 지나치게 완벽한 문장

또 한 가지 구별법은 AI가 작성한 문장이 사람이 작성한 문장보다 완벽하다는 것입니다. 왜냐하면 현실에서 사람이 작성한 문장은 오타도 많고 사람마다 다른 스타일이나 속어가 포함되어 있지만 AI가 작성한 문장은 오타가 거의 없고 더 완벽한 문장을 만들어 낸다는 것인데요. 이 주장은 다소 억지스러운 부분이 있는 것 같습니다. 사람이 작성한 문장도 오타가 없거나 완벽할 수 있는데 말이죠. 아무튼 오타는 사실 사람이 작성한 문장을 구별하는 좋은 지표이긴 한 것 같습니다.

 

2.3. 사람의 눈 훈련

앞서 말씀드린 구글 브레인의 연구원 '이폴리토'는 사람의 눈을 훈련시키면 AI가 작성한 문장을 더 잘 발견할 수 있다고도 말했는데요. 사람들에게 컴퓨터로 많은 문장을 보여주고 그 중에서 사람이 작성하지 않은 문장을 찾아내는 게임을 개발했고, 게임에 참여한 사람들이 점점 더 나은 결과를 보이는 것을 알아냈답니다. 예를 들어 커피 한 잔을 만드는데 60분이 걸린다고 하는 것처럼 타당하지 않은 내용을 찾아낸다는 것입니다. 이 주장도 다소 억지스러운 느낌이 있지만 현재로서는 이 정도가 현실적인 구별법인 것 같습니다.

 

3. 진행중인 연구

AI가 작성한 문장을 구별하는 가장 좋은 방법은 또 다른 AI가 사람이 작성한 문장과 AI가 작성한 문장을 놓고 다시 학습을 시키는 것이랍니다. 현재 어떤 연구들이 진행되고 있을까요?

 

3.1. 워터마크

챗GPT를 개발한 오픈AI의 객원 연구원인 '스콧 애런슨'은 GPT-3와 같은 언어 모델로 생성한 긴 문장에 삽입할 수 있는 워터마크(watermark)를 개발하고 있다고 합니다. 워터마크는 불법 복제를 막기 위해 개발된 복제 방기 기술로 사용자만이 알 수 있는 부호나 특정 코드 등을 삽입하는 것을 말하죠.

 

뭔가 확실한 구별법 같기는한데 현재 일반인들이 사용하기에는 다소 어려워 보입니다. 그리고 이러한 기술적 해결책의 문제점은 분석이 가능한 문장이 많을 때에만 잘 작동한다는 것입니다. 이메일 작성과 같이 짧은 문장들이지만 실제 많이 사용되는 현실에서는 효율성이 떨어진다는 것이죠.

 

3.2. 웹 브라우저 플러그인

위의 워터마크 기술보다는 일반인들에게 조금 더 현실적인 방법은 웹 브라우저 플러그인 듯싶습니다. 하버드 대학교와 IBM 연구원들은 인공지능이 작성했을 가능성이 있는 문장들을 표시해 주는 거대 언어 모델 테스트룸(Giant Language Model Test Room, GLTR)을 개발했다고 하는데요. GLTR은 AI가 실제 의미보다는 텍스트에 자주 등장하는 표현에서 패턴을 찾아 글을 쓴다는 점에 착안해서 AI가 쓴 글을 식별한다고 합니다. 이 기술이 하루빨리 웹브라우저에 기본으로 탑재된다면 좋겠네요.

 

4. 마치며

챗GPT의 등장으로 허위 내용을 담은 신뢰할 수 없는 글들이 빠르게 확산될 우려가 있습니다. 현재까지 나와있는 구별법 만으로는 많이 부족해 보이고 현재 연구 중인 기술들이 하루빨리 일반인들에게 배포되어 우려가 없어졌으면 하는 바람입니다. 오늘은 AI가 작성한 문장 구별법에 대해 포스팅해 보았습니다.

고맙습니다.

 

 

 

 

댓글