Spark TTS,openSource,자연스러운 음성 합성

인공지능

Spark TTS,openSource,자연스러운 음성 합성

aiproductmanager 2025. 3. 9. 22:27

728x90

https://sparkaudio.github.io/spark-tts/

Spark-TTS

Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens Xinsheng Wang1,2, Mingqi Jiang3, Ziyang Ma4,5, Ziyu Zhang6, Songxiang Liu7, Linqin Li3, Zheng Liang4, Qixi Zheng4, Rui Wang3, Xiaoqin Feng3, Weizhen Bian1, Zh

sparkaudio.github.io

https://github.com/SparkAudio/Spark-TTS

GitHub - SparkAudio/Spark-TTS: Spark-TTS Inference Code

Spark-TTS Inference Code. Contribute to SparkAudio/Spark-TTS development by creating an account on GitHub.

github.com

Spark-TTS는 대규모 언어 모델(LLM)의 성능을 활용하여 정확하고 자연스러운 음성 합성을 제공하는 고급 텍스트-투-스피치 시스템입니다. 이 모델은 BiCodec이라는 단일 스트림 음성 코덱을 기반으로 하여, 음성을 저비트율의 의미적 토큰과 화자 속성을 나타내는 고정 길이의 글로벌 토큰으로 분해합니다. 이를 통해 화자의 성별, 말하기 스타일, 정확한 피치 값, 말하기 속도 등 세밀한 제어가 가능하며, 제로샷 음성 합성도 지원합니다.aibase.com+4github.com+4arxiv.org+4aibase.com+1arxiv.org+1

주요 특징:

단순성과 효율성: Qwen2.5 언어 모델을 기반으로 구축되어, 추가적인 생성 모델 없이도 코드를 예측하여 직접 오디오를 재구성합니다. arxiv.org+2github.com+2arxiv.org+2
세밀한 제어: 화자의 성별, 말하기 스타일, 피치, 속도 등을 세밀하게 조정할 수 있어 다양한 음성 합성 요구 사항을 충족시킵니다.
제로샷 합성: 새로운 화자의 데이터 없이도 새로운 음성을 합성할 수 있는 제로샷 합성을 지원합니다.

설치 및 사용법:

Conda 설치: Miniconda를 다운로드하여 설치합니다. 설치 시 "Add Conda to PATH" 옵션을 선택합니다.github.com
Conda 환경 생성: 명령 프롬프트에서 다음 명령어를 실행하여 Python 3.12 환경을 생성하고 활성화합니다:
bash

복사편집

conda create -n sparktts python=3.12 -y conda activate sparktts

의존성 설치: Spark-TTS 폴더 내에서 다음 명령어를 실행하여 필요한 패키지를 설치합니다:
bash

복사편집

pip install -r requirements.txt

PyTorch 설치: CUDA 버전에 맞게 PyTorch를 설치합니다. 예를 들어, CUDA 12.1을 사용하는 경우:github.com
bash

복사편집

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

모델 다운로드: Hugging Face Hub에서 사전 학습된 모델을 다운로드하여 pretrained_models/Spark-TTS-0.5B 디렉토리에 저장합니다.github.com+1github.com+1
웹 인터페이스 실행: webui.py 스크립트를 실행하여 Gradio 기반의 웹 인터페이스를 통해 텍스트 입력 및 음성 합성을 수행할 수 있습니다.github.com

참고: 설치 과정에서 발생할 수 있는 문제나 추가적인 설정에 대해서는 GitHub 이슈 페이지를 참고하시기 바랍니다.

Spark-TTS는 음성 합성 분야에서의 연구 및 생산 환경 모두에 적합한 효율적이고 유연한 솔루션을 제공합니다. 자세한 내용과 최신 업데이트는 Spark-TTS GitHub 페이지를 통해 확인할 수 있습니다.

728x90

'인공지능' 카테고리의 다른 글

NWDAF,Slice Load Level (0)	2025.03.12
3GPP TS 23.288, 5G 코어 네트워크 내에서 네트워크 데이터 분석 기능(NWDAF) (0)	2025.03.12
Alibaba Cloud는 2025년 3월 6일, 최신 AI 모델인 QwQ-32B를 공개 (0)	2025.03.09
Manus.im, (중국 Monica) 차세대 완전 자율형 AI 에이전트,2차 딥시크 (1)	2025.03.09
인공지능(AI) 시대에 맞는 노사 간 상생 임금협상 방안 (0)	2025.03.04

현재글Spark TTS,openSource,자연스러운 음성 합성

aiproductmanager 님의 블로그

aiproductmanager 님의 블로그 입니다.

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

aiproductmanager 님의 블로그