본문 바로가기
AI와 비즈니스/개발 환경의 변화

보고 생각하고 말하는 AI - 의사결정 주권 전쟁의 시작

by 나암 2024. 5. 19.

GPT-4o가 대화의 맥락을 이해하고 사람처럼 대화하는 데모 (영상링크) 를 지켜보며,

많은 분들이 영화 her 에서 주인공을 즐겁게 해주던 AI 연인을 떠올렸을 것 같아요.

데모에 참가한 OpenAI의 천재 엔지니어들이 AI 와의 대화를 즐거워 하는 모습과 크게 다르지 않았기 때문이죠.  

 
물론 아직까지 AI가 '실시간'으로 학습을 하는 능력이 없기 때문에, her 와 같이 고도화된 몰입된 대화는 시기상조일 것으로 보여요. 과거에 학습된 스냅샷으로 현재 상황을 '추론'하는 정도라고 할 수 있지요.  

 

그럼에도 불구하고 확실히 AI가 상황(Context)을 인지하고, 최적의 방안을 답변하는 기능은 눈부신 속도로 발전하고 있습니다. 이는 사람이 하는 매우 중요한 기능, 의사결정 행위와 가까워지는 것이죠.

 

일반적인 상황에서 우리는 AI에게 의사결정의 주도권을 맡길 생각이 없습니다. 맡길 수도 없고 그래서도 안된다고 생각하지요. 하지만 자연재해와 같은 긴박한 상황이라면 어떨까요? 평소에 AI의 성능도 신뢰할 만 하고, 심지어 her 와 같은 인간적인 대화가 가능하다면? 

 

언젠가 AI 를  '나의 행동을 올바르게 가이드해 주는 똑똑한 인격체' 로 여기게 될 날이 올지도 모르겠습니다. 신기하고 재밌다고 마냥 웃고 있을 때가 아닐 수 있다는 것이죠. 좀더 차근차근 짚어볼까요?



불과 몇개월 전만 해도, AI 가 상황을 인식하는 기능은
입력 받은 이미지와 음성 속의 특징을 정의하고, 각각의 상관관계를 분석하여 추론하는 수준이었죠.


예를 들어 다음과 같은 형태로 활용될 수 있었습니다. (이것만 해도 대단한 혁신이지만요)
 
·       종이에 적은 수학문제를 인식하여 답을 도출하기
·       마케팅 결과  트렌드를 보여주고, 개선 방법 찾기
·       종이에 그린 이미지로 웹사이트 개발 코드 제시하기
·       음식 이미지를 넣고 재료가 무엇인지 물어보기
 
GPT-4o는 좀 더 나아가, 음성과 영상 등 멀티모달 정보를 이용해 맥락(Context)를 이해하는 수준을 향상시켰습니다
 
영상 속 이미지 프레임에는 이전에 어떤 정보에서 이어졌는지 또는, 앞으로 어떻게 상황이 전개 될 지에 대한 단서를 내재하고 있습니다. 한 장의 사진 만으로는 전 후 사정을 파악하기 어려운 것에 비해, 영상에서은 더 많은 정보를 추론할 수 있는 것이죠
 
이해를 돕기 위해 쓰나미 상황을 인지하고, 대피를 촉구하는 AI를 GPT 4vision 으로 만들어 보았슴니다
※ 80 Line도 안되는 간단한 예제입니다. 누구나 손쉽게 만들 수 있지요. 소스 코드는 링크를 참고해 주세요

1. 쓰나미와 관련된 영상

tsunami.mp4
6.84MB

 

 

 

쓰나미와 관련된 영상은 영화해운대의 주요 장면을 이용하였습니다. AI는 이 영상을 수십개의 프레임으로 나눠서 각각의 이미지를 분석하고, 앞뒤의 상관 관계를 추론하여 재난 상황에 적합한 경고 메시지를 생성합니다. 예시의 영상의 앞뒤 이미지 프레임에는 높은 파도가 밀려오고, 아이를 들고 도망치는 모습이 담겨있어 쓰나미가 발생했다고 추론할 수 있는 것이죠.
 

2. 프롬프트를 정교화 하여 감정을 표현

쓰나미 경고 메시지는 일본인 뉴스 나레이터 스타일로, 재난 상황에 대해 청자의 즉각적인 행동을 촉구하도록 짧고 단호한 말투로 경고하도록 프롬프트 합니다.

특히, 강조해야 하는 내용은 대문자 표시나 느낌표(!)를 사용하도록 하여TTS로 음성화 할 때, 좀더 격정적인 말투를 이끌어낼 수 있었습니다. 아래는 사용한 프롬프트입니다.

Create a super-excited Japanese news narrator-style voiceover script that warns the listener about the disaster situation seen in the video so they can be on high alert and evacuate quickly. He must explain what the current situation is and tell citizens what specific actions to take and what to watch out for. When a disaster situation becomes serious, short and strong warning messages must be shouted several times. Use capital letters and exclamation points where necessary to convey excitement. Include only narration, and output must be in English

 

3. 쓰나미 경보 AI

위와 같은 쓰나미 전조 증세와, 해일이 밀어닥치는 영상(상황)을 인식하여 결과적으로 아래 내용의 ‘쓰나미 경보 AI’를 만들 수 있습니다.

output.mp3
0.52MB

 

ATTENTION! ATTENTION! Citizens of the coastal area, URGENCY ALERT! A colossal wave is approaching the city with immense force, putting all residents in immediate danger! A MEGA TSUNAMI WARNING IS NOW IN EFFECT! EVACUATE NOW! EVACUATE NOW!Current situation: a massive wave is visible on the horizon, moving fast towards the coast! This is NOT a drill! The tsunami could hit within MINUTES, causing catastrophic destruction! EXPECT EXTREME FLOOD

 
토큰 사이즈를 100만 더 올려도 (=크레딧을 더 쓰면) 시민들에게 현재 상황이 어떤지, 특정 행동을 하도록 강구하고 주의할 점이 무엇인지 짧고 강력하며 반복적인 말투로 아래와 같이 말하게 됩니다.

Attention, citizens! A MAJOR DISASTER IS UNFOLDING! We are currently witnessing an ENORMOUS TSUNAMI BARRELING TOWARD THE COASTLINE! This is an EXTREME EMERGENCY BROADCAST! Please, take IMMEDIATE ACTION!EVACUATE IMMEDIATELY! FIND HIGHER GROUND! Do NOT delay! This is a matter of life and death! MOVE AWAY FROM THE BEACH! ABANDON YOUR BELONGINGS! Your safety is the utmost priority!EVACUATION ROUTES are being overwhelmed! Follow the EMERGENCY SIGNS and head inland or to designated shelters! Do NOT use elevators! Use stairs and remain calm! FOLLOW OFFICIAL INSTRUCTIONS! KEEP AN EYE ON THE ELDERLY AND CHILDREN! Ensure they’re moving to safety! If you see anyone stranded, HELP THEM ESCAPE!STAY INFORMED through official channels! UPDATE YOURSELF with the latest weather conditions and emergency instructions! Remain vigilant and ready to move at a moment’s notice!REPEAT: TSUNAMI APPROACHING! EVACUATE NOW! HIGHER GROUND IMMEDIATELY! STAY SAFE! Do NOT underestimate the speed and power of the water! EVERY SECOND COUNTS!THIS IS NOT A DRILL! EVACUATE! EVACUATE! EVACUATE!

4. 생각해 볼 임팩트

앞선 포스팅에서는 감정과 말투까지 코딩하는 신세계를 소개 드렸다면, 이번에는 AI가

  1. 상황과 맥락을 이해하고,
  2. 어떤일이 일어날 지 추론하며,
  3. 사람들에게 어떻게 대처해야 하는지 알려주는 기능을 살펴 보았습니다.


이러한 기능은 우리 일상에 어떤 영향을 미치게 될까요? AI에 의해 ‘사람이 추론하는 비용’이 줄어들면 지금까지 일반적으로 추론하지 않았던 상황들도 앞으로는 AI에게 맡기는 사례가 증가할 수 있습니다.
 
사람의 표정 변화를 인식하고 적절한 대화 스크립트를 생성하거나, 항구의 콘테이너 갯수의 변화를 인식하여 수출입 경제 상황을 추론할 수도 있습니다. 그리고 AI가 영상을 인식한 이후의 조치를 자동화 하거나, 사람들에게 특정한 행동을 하도록 가이드를 할 수도 있겠지요(쓰나미에서 도망치세요! 처럼)
 
문제는 AI가 주는 가이드가 (말투와 감정까지) 정교해지고, 대부분 옳은 가이드라면, 이에 대한 의존성이 심해져 결국 AI의 가이드에 따라야만 하는 세상이 될 수 있다는 것입니다.
 
창고에 불이 난 것을 인식한 AI가 작업자에게 조치할 것을 가이드 했는데 이를 처리하지 않는다면 해당 작업자는 처벌을 받게 될까요? 그렇다면 해당 작업자의 관리자는 사람일까요 AI 일까요?
 
또한, AI가 주는 가이드의 진위 여부를 판단하는 문제도 있습니다. 바닷물이 들어오고 있습니다! 하지만 잠시 대기하세요! 라고 AI가 가이드를 준다면 어떻게 해야 할까요? 최종 판단의 주체를 인간에게서 AI로 넘길 수 없는 이유입니다.
 


이에 대해서는 다음 포스팅에서 좀 더 자세히 살펴 보겠습니다.

반응형