엔비디아, 인터스피치 2021 행사서 최첨단 대화형 AI 모델 발표:: 보드나라

뉴스

단신뉴스

오늘의 주요뉴스

메인

전송 2021-09-01 10:33

[뉴스/보도자료]
엔비디아, 인터스피치 2021 행사서 최첨단 대화형 AI 모델 발표

엔비디아(CEO 젠슨 황)가 8월 30일부터 9월 3일까지 열리는 세계 최고 음성 언어 처리 학회 인터스피치 2021(INTERSPEECH 2021)에서 표현적 음성 합성(Expressive speech synthesis)을 위한 최첨단 대화형 AI 모델을 공개한다고 밝혔다. 해당 모델은 고품질에 제어 또한 가능한 음성 합성을 구현해 인간 음성의 풍부함을 잡음 없이 담아낸다.

엔비디아의 모델들은 은행과 소매업계의 음성 자동화 고객 서비스 라인을 지원하고 비디오 게임과 소설 속 캐릭터에 생동감을 불어넣는 한편, 디지털 아바타용 실시간 음성 합성을 지원한다. 엔비디아 크리에이티브 팀은 AI의 위력을 다루는 비디오 시리즈에 삽입돼 풍부한 표현력을 자랑하는 내레이션에도 음성 합성 기술을 사용하고 있다.

표현적 음성 합성은 엔비디아 연구진이 대화형 AI 분야에서 진행 중인 여러 연구의 일부이다. 대화형 AI는 음성 합성 외에도 자연어 처리, 자동 음성 인식, 키워드 검출, 오디오 개선 등 여러 요소를 포함한다.

엔비디아 GPU에서 효율적으로 실행되도록 최적화된 최첨단 연구의 일부는 엔비디아 NeMo 툴킷을 통해 오픈소스로 제작됐으며, 엔비디아의 NGC 컨테이너 허브와 기타 소프트웨어에서 제공된다.

엔비디아 연구진과 크리에이티브 전문가들은 음성 합성 기술을 실제 사례에 접목해 대화형 AI의 위력을 증명하고 있다. 그 일환으로 엔비디아는 아이엠 AI(I AM AI)의 제작에 혁신적 음성 합성 모델을 사용한다. 아이엠 AI는 산업 전반을 재편하는 세계적 혁신들을 소개하는 비디오 시리즈다.

얼마 전까지만 해도 해당 영상의 내레이션은 사람이 직접 담당했다. 기존 음성 합성 모델의 경우 합성된 음성의 속도와 음정 제어에 한계가 존재했다. 그 결과, AI를 활용한 내레이션은 인간 화자만큼 시청자의 정서적 반응을 강하게 이끌어내지 못했다.

이러한 경향은 엔비디아의 텍스트-투-스피치(text-to-speech) 연구진이 RAD-TTS처럼 보다 강력하고 제어 가능한 음성 합성 모델을 개발하면서 변화했다. RAD-TTS는 시그라프(SIGGRAPH) 2021의 실시간 라이브 쇼케이스에서 우승한 엔비디아의 데모에서도 소개된 바 있다. 해당 모델은 텍스트-투-스피치 모델을 개인의 음성으로 훈련시켜 텍스트 일체를 해당 화자의 목소리로 즉시 변환할 수 있다.

RAD-TTS의 또 다른 음성 변환 기능은 화자의 말 뿐 아니라 노래까지 다른 화자의 목소리로 전달한다. 인간의 목소리가 곧 악기라는 아이디어에 영감을 얻은 RAD-TTS 인터페이스는 합성된 목소리의 음정과 길이, 분위기 전반을 프레임 단위로 세밀히 제어하도록 돕는다.

아이엠 AI의 프로듀서는 RAD-TTS 인터페이스를 사용해 대본 내용을 직접 녹음한 다음, 자신의 음성을 여성 내레이터의 목소리로 변환했다. 이 기본 내레이션을 바탕으로 AI의 음성이 성우의 육성처럼 들리게 연출했다. 즉, 합성 음성을 수정해 특정 단어를 강조하고 영상의 분위기를 더욱 완벽히 표현하도록 내레이션의 속도를 변경했다.

RAD-TTS 모델의 기능은 내레이션을 덧입히는 수준을 넘어선다. 문자 음성 변환 프로그램은 게이밍, 발성 장애를 가진 개인의 지원, 사용자의 목소리로 언어 사이를 오가는 번역 등에 활용된다. 더 나아가 유명 가수의 공연도 재현할 수 있다. 곡의 멜로디 뿐 아니라 노래 너머의 감정도 표현 가능하다.

엔비디아 NeMo는 GPU 가속 대화형 AI를 위한 오픈소스 파이썬(Python) 툴킷이다. 연구자와 개발자, 크리에이터의 애플리케이션에 적합한 음성 모델의 신속한 실험과 미세 조정에 기여한다.

NeMo의 간편한 API와 사전 훈련된 모델들은 문자 음성 변환과 자연어 처리, 실시간 자동 음성 인식용 모델의 개발과 커스터마이징을 지원한다. 일부 모델은 엔비디아 DGX 시스템에서 수만 시간 분량의 오디오 데이터로 훈련된다. 또한 개발자들은 자신의 활용 사례에 맞춰 모델 일체를 미세 조정할 수 있다. 이때 엔비디아 텐서 코어(Tensor Core) GPU에서 혼합 정밀도 컴퓨팅을 사용해 훈련 속도를 높인다.

엔비디아 NeMo는 모질라 커먼 보이스(Mozilla Common Voice)로 훈련한 모델을 NGC 카탈로그를 통해 제공한다. 모질라 커먼 보이스는 76개 언어와 14,000시간 분량의 음성 데이터를 크라우드 소싱 방식으로 수집한 데이터세트다. 엔비디아는 해당 프로젝트에 대한 지원을 통해 세계 최대의 공개 데이터 음성 데이터세트를 구축하고 음성 기술을 대중화할 방침이다.

인터스피치는 1,000명 이상의 연구자가 한데 모여 음성 언어 처리 기술의 혁신을 선보이는 자리이다. 금주의 컨퍼런스에서 엔비디아 연구진은 대화형 AI 모델 아키텍처와 더불어 개발자를 위해 포맷팅을 완료한 음성 데이터세트를 소개한다.

NGC 카탈로그에서 엔비디아 NeMo 모델을 확인할 수 있으며, 인터스피치에서 엔비디아 연구진의 세션을 시청할 수 있다.

태그(Tag) : 엔비디아, AI

관련 기사 보기

[영상] 석 달째 횡보하는 PC시장 메모리 가격, 하반기 메모리 모듈 가격의 향방은?
[영상] 비싼 메모리 시대에 램버스 실패로 알아보는, AI 시대 메모리 확보 전쟁의 끝은? [PC흥망사 17-2]
[영상] 엔비디아 지싱크 펄사(Pulsar)는 어떻게 잔상을 근본적으로 없애는가?, 펄사 지원 모니터 ASUS ROG Strix Pulsar XG27AQNG
[영상] 메모리 가격 폭등 부추기는 공포 마케팅과 대형 PC 제조사들, [메모리 가격 폭등 3부]
[영상] PC 게이밍의 미래는 더 빠른 GPU가 아니라 DLSS가 될 것, [엔비디아 젠슨 황 CES Q&A 분석]
[영상] PC는 사라지고 가전은 AI 로봇으로, 감자나무가 해설해드리는 CES 2026
태그(Tags) : 엔비디아, AI 관련기사 더보기

편집부 /

press@bodnara.co.kr

이기사와 사진은 업체에서 제공받은 보도자료와 사진으로, 보드나라의 논조와는 다르다는 점을 알려드립니다.

보드나라 많이본 기사

MSI, 최초의 ‘엔비디아 RTX 스파크’ 탑재 노트북 ‘프레스티지 N16 Flip AI+’ 전격 공개

인텔 아크 G3 익스트림 전성비, AMD 라이젠 Z2 익스트림 두 배

넷마블, AMD와 협업해 <몬길: STAR DIVE> 에디션 그래픽카드 정식 출시

소니코리아, 풀프레임 고해상도 카메라 'Alpha 7R VI' 국내 정식 출시

엔비디아 DGX Spark와 애플 맥미니 겨냥, AMD 미니 AI 워크스테이션 라이젠 AI 헤일로 공개

환율 상승 및 반도체 대란에도 다시 떨어지는 PC부품 가격, 그 이유는?

게임과 AI 모두 가성비 높은 선택, 인텔 데스크탑 성능 워크샵

사용자 경험이 향상된 핸드헬드 짐벌 카메라, DJI OSMO POCKET 4

이 기사의 의견 보기

닉네임

웹봇방지

2026년 06월

주간 히트 랭킹

엔비디아 DGX Spark와 애플 맥미니 겨냥, AMD 미니 AI 워

환율 상승 및 반도체 대란에도 다시 떨어지는 PC부품 가

게임과 AI 모두 가성비 높은 선택, 인텔 데스크탑 성능

사용자 경험이 향상된 핸드헬드 짐벌 카메라, DJI OSMO P

맥 사용자를 위한 합리적 레티나급 모니터, 벤큐 MA270S

제미나이와 안드로이드 ChromeOS의 결합, 인텔과 함께하

포르자 호라이즌 6와 프래그마타를 즐길 때, 라데온 RX 9

레이 트레이싱과 함께 쾌속 질주,포르자 호라이즌 6

메모리 폭등 시대 더 비싼 삼성 시금치 메모리, 돈 더 주

브라보텍, 미니멀에 감각적	BURSON AUDIO 헤드폰 앰프	브리츠, 'BZ-YM10’ CD 플



넷앱-구글 클라우드, 통합	한국레노버, 차세대 요가	브라보텍, 펌프 디스플레이



AMD 라데온 그래픽카드 신	소니코리아, 풀프레임 고해	오픈AI 최신 프론티어 모델