Add Java and Koltin API for Kokoro TTS 1.0 (#1798)

2025-02-07 09:59:27 +08:00
parent c84a833863
commit 4372a7a7b0
9 changed files with 171 additions and 3 deletions
--- a/java-api-examples/NonStreamingTtsKokoroZhEn.java
+++ b/java-api-examples/NonStreamingTtsKokoroZhEn.java
@@ -0,0 +1,64 @@
+// Copyright 2025 Xiaomi Corporation
+
+// This file shows how to use a Kokoro multi-lingual model
+// to convert Chinese and English text to speech
+import com.k2fsa.sherpa.onnx.*;
+
+public class NonStreamingTtsKokoroZhEn {
+  public static void main(String[] args) {
+    // please visit
+    // https://k2-fsa.github.io/sherpa/onnx/tts/pretrained_models/kokoro.html
+    // to download model files
+    String model = "./kokoro-multi-lang-v1_0/model.onnx";
+    String voices = "./kokoro-multi-lang-v1_0/voices.bin";
+    String tokens = "./kokoro-multi-lang-v1_0/tokens.txt";
+    String dataDir = "./kokoro-multi-lang-v1_0/espeak-ng-data";
+    String dictDir = "./kokoro-multi-lang-v1_0/dict";
+    String lexicon =
+        "./kokoro-multi-lang-v1_0/lexicon-us-en.txt,./kokoro-multi-lang-v1_0/lexicon-zh.txt";
+    String text =
+        "中英文语音合成测试。This is generated by next generation Kaldi using Kokoro without Misaki."
+            + " 你觉得中英文说的如何呢？";
+
+    OfflineTtsKokoroModelConfig kokoroModelConfig =
+        OfflineTtsKokoroModelConfig.builder()
+            .setModel(model)
+            .setVoices(voices)
+            .setTokens(tokens)
+            .setDataDir(dataDir)
+            .setDictDir(dictDir)
+            .setLexicon(lexicon)
+            .build();
+
+    OfflineTtsModelConfig modelConfig =
+        OfflineTtsModelConfig.builder()
+            .setKokoro(kokoroModelConfig)
+            .setNumThreads(2)
+            .setDebug(true)
+            .build();
+
+    OfflineTtsConfig config = OfflineTtsConfig.builder().setModel(modelConfig).build();
+    OfflineTts tts = new OfflineTts(config);
+
+    int sid = 0; // this model has 53 speakers. You can use sid in the range 0-52
+    float speed = 1.0f;
+    long start = System.currentTimeMillis();
+    GeneratedAudio audio = tts.generate(text, sid, speed);
+    long stop = System.currentTimeMillis();
+
+    float timeElapsedSeconds = (stop - start) / 1000.0f;
+
+    float audioDuration = audio.getSamples().length / (float) audio.getSampleRate();
+    float real_time_factor = timeElapsedSeconds / audioDuration;
+
+    String waveFilename = "tts-kokoro-zh-en.wav";
+    audio.save(waveFilename);
+    System.out.printf("-- elapsed : %.3f seconds\n", timeElapsedSeconds);
+    System.out.printf("-- audio duration: %.3f seconds\n", timeElapsedSeconds);
+    System.out.printf("-- real-time factor (RTF): %.3f\n", real_time_factor);
+    System.out.printf("-- text: %s\n", text);
+    System.out.printf("-- Saved to %s\n", waveFilename);
+
+    tts.release();
+  }
+}
--- a/java-api-examples/run-non-streaming-tts-kokoro-zh-en.sh
+++ b/java-api-examples/run-non-streaming-tts-kokoro-zh-en.sh
@@ -0,0 +1,40 @@
+#!/usr/bin/env bash
+
+set -ex
+
+if [[ ! -f ../build/lib/libsherpa-onnx-jni.dylib  && ! -f ../build/lib/libsherpa-onnx-jni.so ]]; then
+  mkdir -p ../build
+  pushd ../build
+  cmake \
+    -DSHERPA_ONNX_ENABLE_PYTHON=OFF \
+    -DSHERPA_ONNX_ENABLE_TESTS=OFF \
+    -DSHERPA_ONNX_ENABLE_CHECK=OFF \
+    -DBUILD_SHARED_LIBS=ON \
+    -DSHERPA_ONNX_ENABLE_PORTAUDIO=OFF \
+    -DSHERPA_ONNX_ENABLE_JNI=ON \
+    ..
+
+  make -j4
+  ls -lh lib
+  popd
+fi
+
+if [ ! -f ../sherpa-onnx/java-api/build/sherpa-onnx.jar ]; then
+  pushd ../sherpa-onnx/java-api
+  make
+  popd
+fi
+
+# please visit
+# https://k2-fsa.github.io/sherpa/onnx/tts/pretrained_models/kokoro.html
+# to download more models
+if [ ! -f ./kokoro-multi-lang-v1_0/model.onnx ]; then
+  curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/tts-models/kokoro-multi-lang-v1_0.tar.bz2
+  tar xf kokoro-multi-lang-v1_0.tar.bz2
+  rm kokoro-multi-lang-v1_0.tar.bz2
+fi
+
+java \
+  -Djava.library.path=$PWD/../build/lib \
+  -cp ../sherpa-onnx/java-api/build/sherpa-onnx.jar \
+  NonStreamingTtsKokoroZhEn.java