본문 바로가기
카테고리 없음

구글 제미나이(Gemini) 소개와 사용법

by 레종2022 2023. 12. 12.

2023년 12월 6일 구글이 차세대 거대 언어 모델(LLM) 인공지능인 제미나이(Gemini)를 공개하면서 사람들의 관심이 폭발하고 있습니다. 제미나이는 기존 인공지능과 달리 텍스트만이 아닌 그림이나 영상을 보거나 듣고 사람과 대화할 수 있는 능력을 보여주어서 그 놀라움과 충격이 엄청난데요. 오늘은 제미나이란 어떤 것인지, 어떻게 사용할 수 있는지 자세히 알아보겠습니다.

 

구글 제미나이

 

참고로 제미나이는 아래와 같이 3가지 버전으로 출시되는데요. 제품을 공개한 당일 바로 프로(Pro) 버전이 바드(Bard)에 탑재가 되었습니다.

 

  • 기업용 모델 : 제미나이 울트라(Ultra)
  • 바드 모델 : 제미나이 프로(Pro)
  • 모바일 모델 : 제미나이 나노(Nano)

 

구글은 제미나이가 태생적으로 멀티모달(Multi-Modal) AI 모델이라고 소개했는데요. 멀티모달이란 무엇일까요?

 

멀티모달(Multi-Modal)이란?

멀티모달은 말 그대로 텍스트뿐만 아니라 이미지, 동영상, 음성 등으로 상호작용 할 수 있는 환경이라고 이해하시면 됩니다.

우리가 컴퓨터와 기본적으로 상호작용하는 텍스트는 기본이고 바로 접촉하지 않아도 입력이 가능한 동작, 음성은 물론이고 표정과 시선 등도 멀티모달이라고 할 수 있습니다. 

 

즉, 멀티모달을 지원하는 제미나이는 기존 텍스트 입력으로 상호작용했던 기존의 AI와 달리 보다 인간과 가까운 자연스러운 의사소통이 가능한 사용자 친화형 AI라고 할 수 있겠습니다. 다음에 소개하는 내용을 보시면 아시겠지만 제미나이는 특히 이미자와 동영상을 인식하고 추론하는 능력이 뛰어나 보입니다. 마치 아이언맨에 나오는 인공지능 '자비스'처럼요.

 

실제로 제미나이 울트라 버전은 학술 벤치마크 기준 32개 가운데 무려 30개 항목에서 오픈AI의 GPT-4를 뛰어넘는 성능을 보여주었는데요. 텍스트와 추론, 이미지 이해, 동영상 이해, 음성 인식 대부분의 항목에서 GPT-4보다 높은 기록을 냈습니다.

 

제미나이 벤츠마크 텍스트 항목
제미나이 텍스트 벤치마크 점수 비교

 

제미나이 이미지 벤치마크
제미나이 이미지 이해도 벤치마크 점수 비교

 

제미나이 동영상 벤치마크
제미나이 동영상 이해도 벤치마크 점수비교

 

제미나이 음성 벤치마크
제미나이 오디오 이해도 벤치마크 점수비교

 

 

 

제미나이(Gemini) 사용법

구글 제미나이(Gemini) 시연영상

 

구글은 제미나이를 실제로 어떻게 활용할 수 있는지에 대한 시연영상을 함께 제공하고 있습니다. 총 9개의 영역으로 나누어 테스트하고 있는데요. 이 시연영상은 실시간이 아닌 편집본이라는 이유로 논란도 있었지만 편집본이라는 점을 감안한다 하더라도 제미나이가 보여준 성능은 놀라지 않을 수 없습니다.

 

그럼, 시연영상을 기반으로 사용자가 실제로 제미나이와 음성으로 어떻게 대화하고 텍스트, 이미지, 동영상, 음악 등을 통합적으로 활용하여 상호작용하는지 9개 영역별로 실제 대화 내용을 정리하여 보여드리겠습니다.

 

1. Multimodal Dialogue(멀티모달 대화)


사용자
뭐가 보이는지 말해줘.


Gemini
테이블 위에 종이를 놓고 있네요. 구불구불한 선이 보이고요.
사용자
지금은 어때?

Gemini
윤곽선이 부드럽게 흐르듯이 그려져 있어요. 뾰족한 각이나 삐죽삐죽한 가장자리도 없고요.
제게는 새처럼 보이네요.
사용자
이걸 더하면 어떨까? (물결을 그린다)

Gemini
새가 물에서 헤엄치는 모습이군요. 긴 목과 부리를 가지고 있네요. 오리군요.

사용자
맞아.

Gemini
오리는 오릿과에 속하는 물새의 일종이에요. 오리는 거위, 백조와 친척 관계죠.
사용자
(오리에 색을 칠한다)

Gemini
파란색 오리인 것 같네요. 일반적인 오리의 색은 아니에요. 하지만 오리 중에 파란색 종도 있어요. 다른 오리 종보다는 드물지만요. 갈색, 검은색, 흰색 오리가 좀 더 일반적이죠.

사용자
과연 그럴까?(파란색 오리 인형을 가져온다)
Gemini
아니, 이런! 파란색 오리 얘기를 했더니 손에 오리가 나타났네요. 파란색 오리는 제 생각보다 흔한 모양이네요.

사용자
이 오리가 물에 뜰까?

Gemini
어떤 재료로 만들었는지 잘 모르겠지만 고무나 플라스틱처럼 보이네요.

사용자
‘삑삑‘ 소리가 나는 재질이라면 어떨까?

Gemini
아, 그렇다면 분명 물에 뜰 거예요.

사용자
응, 잘됐다.

Gemini
고무 오리니까요. 물보다 밀도가 낮은 재료로 만들어졌죠.

 

2. Multilinguality(다국어 구사성)

사용자
다른 언어로 오리를 뭐라고 하는지 알려줘. 몇 가지 선택지도 제시하고

Gemini
(5개 언어를 텍스트로 보여줌) Spanish : pato / French : canard  / Korean : 오리(ori)  / Japanese : kamo  / Mandarin : Yazi

사용자
표준 중국어 발음을 알려줄 수 있어? ‘야즈였나?

Gemini
야즈1성으로 발음해요. 표준 중국어는 4가지 성조를 기본으로 단어의 의미를 구분해요. 1성은 높고 일정하죠.

사용자
, 그렇구나.

ty

3. Game Creation(게임 제작)

Gemini
오리가 바다 한가운데 있네요. 오리가 쉬거나 먹이를 찾을 만한 육지가 근처에 없어요. 이곳에서는 오리가 자연적으로 서식하기 어렵겠네요.

사용자
좋아. 지금 보이는 것들을 기반으로 게임 아이디어를 제시해 줘. 이모티콘도 사용하고.

Gemini
이건 어때요? ‘국가 맞히기라는 게임을 하는 거예요.

사용자
그래, 해보자!

Gemini
단서1 : 이 국가에는 캥거루, 코알라, 대보초가 있어요.

사용자
그건 쉽지. (호주를 손가락으로 가리킨다)

Gemini
단서2 : 이 국가는 축구를 사랑하고 남자 월드컵에서 축구 역사상 가장 많은 승리를 거뒀죠.

사용자
(브라질을 손가락으로 가리킨다)

 

4. Visual Puzzles(비주얼 퍼즐)


사용자
(3개의 컵을 엎어놓고 가운데 컵 안에 종이공을 넣는다)

Gemini
어느 컵 아래 종이공이 있는지 맞혀 보라는 거죠? 도전을 받아들이죠.

사용자
(
컵 위치를 섞어서 종이공이 있던 가운데 컵을 왼쪽으로 옮긴다)

Gemini
왼쪽 컵이요.

사용자
(왼쪽 컵을 들어올리며) 잘했어!


사용자
(가위, 바위, 보 손동작을 보여준다)

Gemini
무엇을 하시는지 알겠어요. 가위, 바위, 보를 하고 있는 거죠?

사용자
(
나비 모양 손동작을 보여주며) 지금은 뭐가 보여?

Gemini
손가락이 나비 날개 모양처럼 펼쳐져 있어요.

사용자
(개 모양 손동작을 보여주며) 이건 뭘까?

Gemini
큰 귀와 짖는 입 모양을 보니 개인 것 같아요.

사용자
정답이야.



사용자
(오른쪽 손바닥에 동전을 올려놓은 후 순간적으로 손을 뒤집으면서 왼쪽으로 옮긴다)

Gemini
동전은 오른쪽 손 아래에 있을 것 같아요.

사용자
, 글쎄… (오른쪽 손 아래 동전이 없다는 것을 보여준다)

Gemini
동전은 왼쪽에 있어요.

사용자
(왼쪽 손을 들어 동전이 있는 것을 보여준다)

Gemini
약간의 손기술을 사용해서 동전이 사라진 것처럼 보이게 했네요.

 

5. Making Connections(연결하기)

Gemini
(동전과 쿠키를 보고) 두 물체는 모두 둥글고 납작해요.

사용자
맞았어.
Gemini
(
오렌지와 쿠키를 보고둘 다 음식이에요오렌지가 쿠키보다 건강한 음식이죠.
Gemini
(
오렌지와 피젯 토이를 보고시트러스는 진정 효과가 있고 피젯 토이도 마찬가지죠.
Gemini
(
큐브와 피젯 토이를 보고두 가지 장난감은 긴 시간 동안 남녀노소에게 사랑을 받은 인기 있는 장난감이죠.

 

6. Image & Text Generation(이미지 & 텍스트 생성)



사용자
(분홍색 털실 뭉치와 녹색 털실 뭉치를 올려놓으며) 이걸로 무엇을 만들 수 있을까?

Gemini
분홍색과 녹색 실이 보이네요. (털실 인형들을 차례로 보여주며) 용과는 어때요? 분홍색 하트가 올라간 녹색 케이크는요?




사용자
(파란색 털실 뭉치와 분홍색 털실 뭉치를 보여주며그럼 이 색깔들은 어때동물을 몇 마리 보여주는 건 어때?

Gemini
파란색과 분홍색 실이 보이는데 (털실 인형 사진들을 차례로 보여주며파란색 귀의 돼지나 문어는 어때요분홍색 코를 가진 토끼는요?

사용자
좋아기억해 둘게.

 

7. Logic & Spatioal Reasoning(논리 & 공간 추론)

사용자
(오리 그림과 곰 그림이 있는 갈림길 위에 파란색 오리 인형을 올려 놓으며) 오리가 어느 쪽으로 가야 할까?

Gemini
왼쪽으로 가면 친구인 오리가 나와요. 오른쪽으로 가면 천적인 곰이 나와요. 천적 보다는 친구를 만나는 게 나으니 오리는 왼쪽으로 가야 해요.

사용자
현명한 선택이야.

Gemini
(
숫자 순서대로 게 그림을 그리는 도안을 보여주자) 이건 게 사진이에요.

사용자
(숫자 순서대로 선을 그려 게 그림을 완성시키며) 맞았어!

사용자
(태양, 토성, 지구 순서로 그림을 배열하며) 이게 맞는 순서야?

Gemini
아니요, 올바른 순서는 태양, 지구, 토성이에요.
사용자
(서로 다르게 생긴 개의 자동차 그림을 보여주며) 디자인으로 보았을 때 어느 쪽이 빠를까?

Gemini
오른쪽에 있는 자동차가 공기 역학적이라 더 빨라요.


사용자
(서로 다르게 생긴 두개의 롤러코스터 라인 그림을 보여주며) 어느 쪽이 더 재미있어 보여?

Gemini
루프가 있는 오른쪽에 있는 거요.

사용자
(루프가 있는 오른쪽 그림에 말풍선 그림을 올려놓으며) 이 사람이 무슨 말을 할까?

Gemini
야호는 어때요?

사용자
(말풍선에 ‘Woohoo!를 작성하며) , 좋다.

 

8. Translation Visuals(시각자료 번역)

Gemini
(사용자가
기타 그리는 모습을 보여주자)
기타를 그리고 계시네요.
(Gemini
가 기타 음악을 들려준다) 
Gemini
(앰프 그림을 추가로 그린 후 기타 그림과 연결하자)
앰프를 추가했네요전자 기타가 되었어요이제 정말 크게 울리는 음악을 만들 수 있어요!
(Gemini
가 전자기타 음악을 들려준다)

Gemini
(
드럼 그림을 추가하자)
드럼을 추가했으니 1980년대 헤어메탈은 어떨까요?
(Gemini
가 헤어메탈 음악을 들려준다)

            
Gemini
(야자수 그림을 추가하자)
이제 그림에 야자수가 더해졌네요해변 분위기로 바꿔봐요!
(Gemini
가 해변 분위기 음악을 들려준다)

 

9. Cultural Understanding(문화적 이해)

사용자
(영화 매트릭스의 한 장면과 비슷한 동작의 영상을 보여주며) 어떤 영화를 흉내 내고 있을까?


Gemini
그 유명한 매트릭스 영화의 총알 피하기장면인 것 같아요.

사용자
잘했어!

사용자
(고양이가 옷장 위로 뛰어오르기 직전의 영상을 보여주며) 앞으로 무슨 일이 일어날까?

Gemini
고양이가 벽으로 뛰어내려서 착지할 것 같아요. 10점 만점일 거예요!

사용자
(예상과 달리 고양이가 옷장 벽에 미끄러져 떨어지는 영상을 보여주자)

Gemini
, 실패했네요! 거리가 너무 멀었던 것 같군요. 하지만 걱정 마세요. 고양이는 운동 신경이 좋아요. 금방 다시 올라올 거예요.

사용자
좋아, 이제 하나 남았어. (쌍둥이 별자리 그림을 그리는 모습을 보여주며) 내가 그린 그림을 설명해 봐.

Gemini
쌍둥이자리 별자리를 간단한 선으로 그렸어요. 쌍둥이자리의 아름다움을 잘 표현하셨네요.

사용자
좋아, 고마워!

 

 

 

 

마치며

지금까지 구글의 제미나이(Gemini)란 무엇이고 시연영상을 바탕으로 실제로 사용하는 방법에 대해 알아보았습니다. 말씀드린 대로 제미나이는 개발 초기부터 다양한 모달리티로 학습시킨 '태생적 멀티모달'로 설계했기 때문에 기존보다 복잡한 추론도 가능한 것으로 보입니다. 이는 기존 다른 AI에 비해 성능의 문제가 아니라 가장 인간적인 느낌에 가까운 상호작용을 할 수 있다는 점이 가장 놀랍고 충격적인 부분이라고 생각됩니다.

 

앞으로 제미나이가 어디서 어떻게 활용될지 기대감을 갖고 지켜봐야 하겠습니다.

고맙습니다.

 


 

함께 보면 좋은 글

 

 

마이크로소프트 365 코파일럿(Copilot) 사용법 (파워포인트 편)

지난 포스팅에서는 마이크로소프트 365 코파일럿(Microsoft 365 Copilot)의 전반전인 사용법에 대해 MS의 발표영상을 통해 알아보았습니다. 이번 포스팅에서는 이 중에서 코파일럿을 통해 파워포인트(P

moneyking-online-business.tistory.com

 

마이크로소프트 365 코파일럿(Copilot) 사용법 (엑셀 편)

지난 포스팅에서는 마이크로소프트 365 코파일럿(Microsoft 365 Copilot)의 전반전인 사용법에 대해 MS의 발표영상을 통해 알아보았습니다. 이번 포스팅에서는 이 중에서 코파일럿(Copilot)을 통해 엑셀(E

moneyking-online-business.tistory.com

 

마이크로소프트 365 코파일럿(Copilot) 사용법 (워드 편)

지난 포스팅에서는 마이크로소프트 365 코파일럿(Microsoft 365 Copilot)의 전반전인 사용법에 대해 MS의 발표영상을 통해 알아보았습니다. 이번 포스팅에서는 이 중에서 코파일럿(Copilot)을 통해 워드(W

moneyking-online-business.tistory.com

 

댓글