인공지능

Spark TTS,openSource,자연스러운 음성 합성

aiproductmanager 2025. 3. 9. 22:27
728x90
반응형

 

https://sparkaudio.github.io/spark-tts/

 

Spark-TTS

Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens Xinsheng Wang1,2, Mingqi Jiang3, Ziyang Ma4,5, Ziyu Zhang6, Songxiang Liu7, Linqin Li3, Zheng Liang4, Qixi Zheng4, Rui Wang3, Xiaoqin Feng3, Weizhen Bian1, Zh

sparkaudio.github.io

 

https://github.com/SparkAudio/Spark-TTS

 

GitHub - SparkAudio/Spark-TTS: Spark-TTS Inference Code

Spark-TTS Inference Code. Contribute to SparkAudio/Spark-TTS development by creating an account on GitHub.

github.com

 

Spark-TTS는 대규모 언어 모델(LLM)의 성능을 활용하여 정확하고 자연스러운 음성 합성을 제공하는 고급 텍스트-투-스피치 시스템입니다. 이 모델은 BiCodec이라는 단일 스트림 음성 코덱을 기반으로 하여, 음성을 저비트율의 의미적 토큰과 화자 속성을 나타내는 고정 길이의 글로벌 토큰으로 분해합니다. 이를 통해 화자의 성별, 말하기 스타일, 정확한 피치 값, 말하기 속도 등 세밀한 제어가 가능하며, 제로샷 음성 합성도 지원합니다.aibase.com+4github.com+4arxiv.org+4aibase.com+1arxiv.org+1

주요 특징:

  • 단순성과 효율성: Qwen2.5 언어 모델을 기반으로 구축되어, 추가적인 생성 모델 없이도 코드를 예측하여 직접 오디오를 재구성합니다.arxiv.org+2github.com+2arxiv.org+2
  • 세밀한 제어: 화자의 성별, 말하기 스타일, 피치, 속도 등을 세밀하게 조정할 수 있어 다양한 음성 합성 요구 사항을 충족시킵니다.
  • 제로샷 합성: 새로운 화자의 데이터 없이도 새로운 음성을 합성할 수 있는 제로샷 합성을 지원합니다.

설치 및 사용법:

  1. Conda 설치: Miniconda를 다운로드하여 설치합니다. 설치 시 "Add Conda to PATH" 옵션을 선택합니다.github.com
  2. Conda 환경 생성: 명령 프롬프트에서 다음 명령어를 실행하여 Python 3.12 환경을 생성하고 활성화합니다:
  3. bash
    복사편집
    conda create -n sparktts python=3.12 -y conda activate sparktts
  1. 의존성 설치: Spark-TTS 폴더 내에서 다음 명령어를 실행하여 필요한 패키지를 설치합니다:
  2. bash
    복사편집
    pip install -r requirements.txt
  1. PyTorch 설치: CUDA 버전에 맞게 PyTorch를 설치합니다. 예를 들어, CUDA 12.1을 사용하는 경우:github.com
  2. bash
    복사편집
    pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
  1. 모델 다운로드: Hugging Face Hub에서 사전 학습된 모델을 다운로드하여 pretrained_models/Spark-TTS-0.5B 디렉토리에 저장합니다.github.com+1github.com+1
  2. 웹 인터페이스 실행: webui.py 스크립트를 실행하여 Gradio 기반의 웹 인터페이스를 통해 텍스트 입력 및 음성 합성을 수행할 수 있습니다.github.com

참고: 설치 과정에서 발생할 수 있는 문제나 추가적인 설정에 대해서는 GitHub 이슈 페이지를 참고하시기 바랍니다.

Spark-TTS는 음성 합성 분야에서의 연구 및 생산 환경 모두에 적합한 효율적이고 유연한 솔루션을 제공합니다. 자세한 내용과 최신 업데이트는 Spark-TTS GitHub 페이지를 통해 확인할 수 있습니다.

728x90
반응형