AI와 비즈니스/개발 환경의 변화

자연어로 감정까지 코딩하는 시대

나암 2024. 5. 12. 22:37

AI 개발의 대중화는 코딩 작업 자체가 이전과는 비교하기 어려울 정도로 쉬워지는 근본적인 변화를 맞이하고 있습니다. Github Code Assistant 도구를 통해 필요한 코드를 AI가 만들어주고, 테스트하거나, 버그 등 수정이 필요한 내용을 제안하는 자동화 혁신이 이미 많은 프로그래머들이 사용하고 있으며, 이제는 코딩 자체가 자연어로 대체되며 기존의 복잡한 알고리즘 구현이 필요 없어지는 단계에 이르렀습니다.

 

이해를 돕기위해, 지금부터 여러분이개발자가 되었고, 지진 등의 재난 상황을 알리는 프로그램을 만들어야 한다고 생각해 보세요. , ‘사실만을 전달하는 것이 아닌, ‘감정까지 전달해야 합니다. 지진 상황을 알리는 일본 아나운서 처럼 ‘긴박한 목소리로 촉구하든 "지금 당장 도망쳐!!!!!" 라는 식으로 말이죠.

 

음? 긴박한 목소리로 절규를 한다고? ‘긴박한목소리는 어떻게 알고리즘을 짤 것이며, 절규를 한다니요. 이걸 어떻게 코딩으로 표현하지? 라고 (적어도 저는) 생각하게 될 것 같습니다. 최근 이러한 기능들을 손쉽게 구현하는 다양한 실험들이 진행되고 있습니다.

 

우선, 오픈AI에서는 'GPT를 통해 비디오를 해석하고 음성을 말해주는 기능’을 공식 사이트에 배포하였습니다.

 

1) 영상을 여러개의 이미지 프레임으로 나누고

2) 각 이미지를 해석하는 Text를 만들어서

3)이를 음성(TTS, Text-to-Speech)으로 말해주는 기능인데요

 

이를 이용해 Gonzalo.E.Graha은 GPT-4비전과 TTS로 구현한 축구 경기를 중계하는 AI 나레이터(링크)를 개발하였습니다. 관련 영상을 보면, 축구 선수 메시가 단독으로 드리블하여 골을 넣는 영상을 AI가 이해하고, 장면마다 음성을 생성하여 해설하고 있습니다.

 

흥미로운 점은, 단순히 상황을 해설하는 것을 넘어, 매우 흥분한 브라질 스포츠 해설가 톤으로설명하도록 AI 코드에 설정하여, 각 장면마다 마치 실제 축구 경기의 해설자처럼 흥분하고 소리치며 해설하는 것을 들어볼 수 있다는 점입니다.

 

흥분한 해설가 톤으로 나래이션하는 기능은 어떻게 프로그래밍 할 수 있었을까요? 개발자가 오픈한 코드를 보면 필요한 나레이터의 행동 패턴을 자연어로 입력하고, 특히in the style of a super excited라는 표현을 그대로 입력 값으로 사용한 것을 볼 수 있습니다.

자연어 문장으로 된 지시어(Prompt)가 복잡한 코딩을 대체한 것이죠. 과거의 개발 방식에서는 상상하기 어려운 편리한 기법입니다

 

AI 나레이터에 사용된 원본 축구 비디오는 모든 프레임을 GPT-4 Vision preview API에 전달하여 이미지 상태로 이해한 후, 이를 해석하고, 역시 오픈AI TTS API 기능을 이용하여 음성으로 변환하였습니다.

 

본 기능을 개발한 Gonzalo 219줄 분량의 간단한 소스 코드를 공유하며 TTS API를 합치는데 10분 정도 소요되었으며, 특별히 코딩에 대한 전문적인 지식이 필요 없음을 강조하였습니다.

 

아직까지 실시간으로 영상을 해설하는 기능은 없어 실험적인 단계이지만, 이는 영상을 다루는 모든 산업에서 ChatGPT 4의 보고, 듣고, 말할 수 있게 된 멀티모달(Multi-modal) 기능과 다양한 API 연계의 가능성을 보여준 사례라 할 수 있습니다.

감정을 손쉽게 코딩하는 것은 아래의 예처럼, 다양한 방면에서 활용되고 그 가치가 확대될 것으로 보입니다.

  • 화재 등의 위급상황을 인지하고 조치 방송하는 아나운서
  • 문제를 잘 풀면 극도의 칭찬을 하며 동기부여하는 선생님
  • 장난스럽고 다정한 말투로 어린이 고객들과 소통하는 캐릭터

어떤가요? 이제 재난상황을 긴박하고 경각심 충만하게 표현하는 코딩을 짤 수 있을 것 같은가요? 이후 포스팅에서는 실제 위급상황을 인지하고 조치방송하는 아나운서를 만들어 보겠습니다. 

반응형