TTS (Text to Speech) 음성합성

TTS (Text to Speech) 음성합성

성우라는 직업, 아직 괜찮은 건가?  

 

아래에 링크 해놓은 유튜브 영상의 시작 구간 에는 김정은 북한 국무위원장과 미국의 버락 오바마 전 대통령이 등장합니다. 실제 촬영/녹음 된 영상이 아니고 딥페이크와 음성합성으로 만들어진 영상입니다.

TTS(Text to Speech)는 특정 텍스트를 입력 했을때, 미리 녹음된 성우 목소리를 조합하여 결과물을 만들어 주는 형태의 기술입니다.  

 

약간 다른 형태로 설명 하자면, TTS 서비스를 하는 “A”라는 사이트에 접속해서 텍스트 입력 항목에 “안녕하세요” 라는 텍스트를 기입 하면, 음성으로 “안녕하세요” 라는 음성 파일이 생성(wav, mp3 등) 되어 재생 하거나 다운로드 받을 수 있도록 구현한 기술입니다.

 

1950년대 흑백 TV가 보급되기 전까지, 라디오를 통해 다양한 보이스 컬러를 갖은 성우들이 활발하게 활동했습니다. TV에서 일일 드라마를 하듯이 라디오를 통해 방송되는 라디오 드라마가 있었습니다. 

라디오 외에 TV, 인터넷을 통한 OTT, 게임 등 다양한 형태의 컨텐츠들이 많아 짐에 따라 성우들이 활동 가능한 시장이 커지는 듯하다가 최근 TTS관련 기술의 발전과 제작사들의 낮은 제작 비용, 짧은 제작 기간과 같은 장점 때문에 성우들은 직업으로서 설 자리가 점점 작아지는 듯 합니다.

 

물론 성우로 활동하는 사람들이 감소함에 따라 오히려 부가가치가 높은 직업이 될 수 도 있겠지만… 그리 긍정적으로 보이진 않습니다.

TTS(Text to Speech)는 특정 텍스트를 입력 했을때, 미리 녹음된 성우 목소리를 조합하여 결과물을 만들어 주는 형태의 기술입니다.  

 

약간 다른 형태로 설명 하자면, TTS 서비스를 하는 “A”라는 사이트에 접속해서 텍스트 입력 항목에 “안녕하세요” 라는 텍스트를 기입 하면, 음성으로 “안녕하세요” 라는 음성 파일이 생성(wav, mp3 등) 되어 재생 하거나 다운로드 받을 수 있도록 구현한 기술입니다.

 

1950년대 흑백 TV가 보급되기 전까지, 라디오를 통해 다양한 보이스 컬러를 갖은 성우들이 활발하게 활동했습니다. TV에서 일일 드라마를 하듯이 라디오를 통해 방송되는 라디오 드라마가 있었습니다. 

라디오 외에 TV, 인터넷을 통한 OTT, 게임 등 다양한 형태의 컨텐츠들이 많아 짐에 따라 성우들이 활동 가능한 시장이 커지는 듯하다가 최근 TTS관련 기술의 발전과 제작사들의 낮은 제작 비용, 짧은 제작 기간과 같은 장점 때문에 성우들은 직업으로서 설 자리가 점점 작아지는 듯 합니다.

 

물론 성우로 활동하는 사람들이 감소함에 따라 오히려 부가가치가 높은 직업이 될 수 도 있겠지만… 그리 긍정적으로 보이진 않습니다.

성우와 TTS 어떤 차이가 있을까?

예를 들어, 30초짜리 제품 광고 영상을 제작 하려고 하는데, 영상에 사용할 성우 내레이션 녹음이 필요하다는 가정하에 어떤 이슈들이 있는지 살펴 보겠습니다.

 

성우 녹음으로 제작 할 경우 :

성우 섭외 (성우 선정, 비용 산정, 일정 조율)
녹음실 섭외 및 녹음 (녹음실 선정, 비용 산정, 일정 조율)
디렉터(또는 담당자)의 요구 사항에 맞게 녹음

장점:
제작자의 요구사항 (리딩속도, 딕션, 감정표현 등)을 잘 수용하여 디테일한 표현이 가능.

단점:
성우-녹음실-디렉터에 대한 계약서 및 비용처리를 위한 서류 작업이 조금은 번거로움이 있고, 일정 조율 작업도 만만치 않음.
녹음 당일 성우의 컨디션에 따라 결과물의 퀄리티가 약간씩 차이가 있을 수 있음
녹음 원고가 변경 될 경우 번거로운 작업들을 대부분 반복해야 함.

* TTS에 비해 비용이 많이 발생. 제작 기간도 오래 걸리지만 디테일한 성우의 연기로 결과물의 퀄리티가 높아 질 수 있음.

 

TTS로 제작 할 경우 :

TTS 제작 하는 솔루션 (웹사이트 및 제작용 앱)을 통해 텍스트 입력 및 라이브러리로 준비된 성우를 선택하여 제작

장점 :
제작 공정이 단순하고 빠르게 제작 가능. 수정도 빠르게 가능.

단점 :
디렉터의 의도 대로 디테일한 감정 표현은 아직 부족함.

* 적은 제작비용. 짧은 제작 기간. 제작과정 또한 수월하지만 성우 연기의 디테일한 표현이 아직은 (약간) 아쉽다. 미래에 더욱 발전할 가능성이 있다.

방송국을 비롯한 영상제작 관련 업체는 프로젝트 진행시 시간과 비용을 단축 할 수 있는 장점 때문에 앞으로 더 많이 활용 할 것입니다. 여러가지 이유로 TTS 관련 시장은 더욱 발전 할 것입니다.

(약간 맥락이 다를 수 있지만) LP, 카세트 테이프와 같이 많은 대중들이 사용하는 매체라면 관련 시장이 거의 소멸 할 수 있습니다.

TTS나 성우와 같이 비슷한 형태의 시장을 참고해 보면 악기 연주자와 가상악기 라는 구도가 있습니다.

실제 연주자보다 더욱 정확한 속도, 음정, 테크닉들을 구사할 수 있습니다.

** < VSTi(Virtual Studio Technology Instrument)>

가상 악기는 작곡을 할 때 사용하는, 일종의 사람이 연주하는 악기소리를 컴퓨터 소프트웨어응 이용해 사람이 연주한 것처럼 구현한 기술이(소프트웨어) 있는데, 연주자의 역할을 대신해 음반 앨범 제작에 많이 사용되고 있습니다.

점점 좋은 퀄리티의 VSTi가 나올 때마나 악기 연주자라는 직업이 없어 질 것이라는 얘기들이 있었습니다.
소위 말하는 세션맨 이라 불리는 사람들은 줄었지만 전문적인 연주자라는 직업은 여전히 건재합니다.

TTS는 성우라는 전문성을 갖고 있는 사람이 주체가 되는 형태의 직업이기 때문에 성우라는 직업이 없어지지 않을것이라고 믿습니다.

Share this post

Comment (1)

Leave a Reply

Your email address will not be published. Required fields are marked *