enginex-mr_series-sherpa-onnx/kotlin-api-examples/Main.kt

package com.k2fsa.sherpa.onnx

import android.content.res.AssetManager

fun callback(samples: FloatArray): Unit {
  println("callback got called with ${samples.size} samples");
}

fun main() {
  testSpeakerRecognition()
  testTts()
  testAsr("transducer")
  testAsr("zipformer2-ctc")
}

fun computeEmbedding(extractor: SpeakerEmbeddingExtractor, filename: String): FloatArray {
    var objArray = WaveReader.readWaveFromFile(
        filename = filename,
    )
    var samples: FloatArray = objArray[0] as FloatArray
    var sampleRate: Int = objArray[1] as Int

    val stream = extractor.createStream()
    stream.acceptWaveform(sampleRate = sampleRate, samples=samples)
    stream.inputFinished()
    check(extractor.isReady(stream))

    val embedding = extractor.compute(stream)

    stream.release()

    return embedding
}

fun testSpeakerRecognition() {
    val config = SpeakerEmbeddingExtractorConfig(
        model="./3dspeaker_speech_eres2net_large_sv_zh-cn_3dspeaker_16k.onnx",
        )
    val extractor = SpeakerEmbeddingExtractor(config = config)

    val embedding1a = computeEmbedding(extractor, "./speaker1_a_cn_16k.wav")
    val embedding2a = computeEmbedding(extractor, "./speaker2_a_cn_16k.wav")
    val embedding1b = computeEmbedding(extractor, "./speaker1_b_cn_16k.wav")

    var manager = SpeakerEmbeddingManager(extractor.dim())
    var ok = manager.add(name = "speaker1", embedding=embedding1a)
    check(ok)

    manager.add(name = "speaker2", embedding=embedding2a)
    check(ok)

    var name = manager.search(embedding=embedding1b, threshold=0.5f)
    check(name == "speaker1")

    manager.release()

    manager = SpeakerEmbeddingManager(extractor.dim())
    val embeddingList = mutableListOf(embedding1a, embedding1b)
    ok = manager.add(name = "s1", embedding=embeddingList.toTypedArray())
    check(ok)

    name = manager.search(embedding=embedding1b, threshold=0.5f)
    check(name == "s1")

    name = manager.search(embedding=embedding2a, threshold=0.5f)
    check(name.length == 0)

    manager.release()
}

fun testTts() {
  // see https://github.com/k2-fsa/sherpa-onnx/releases/tag/tts-models
  // https://github.com/k2-fsa/sherpa-onnx/releases/download/tts-models/vits-piper-en_US-amy-low.tar.bz2
  var config = OfflineTtsConfig(
    model=OfflineTtsModelConfig(
      vits=OfflineTtsVitsModelConfig(
        model="./vits-piper-en_US-amy-low/en_US-amy-low.onnx",
        tokens="./vits-piper-en_US-amy-low/tokens.txt",
        dataDir="./vits-piper-en_US-amy-low/espeak-ng-data",
      ),
      numThreads=1,
      debug=true,
    )
  )
  val tts = OfflineTts(config=config)
  val audio = tts.generateWithCallback(text="“Today as always, men fall into two groups: slaves and free men. Whoever does not have two-thirds of his day for himself, is a slave, whatever he may be: a statesman, a businessman, an official, or a scholar.”", callback=::callback)
  audio.save(filename="test-en.wav")
}

fun testAsr(type: String) {
    var featConfig = FeatureConfig(
        sampleRate = 16000,
        featureDim = 80,
    )

    var waveFilename: String
    var modelConfig: OnlineModelConfig = when (type) {
      "transducer" -> {
        waveFilename = "./sherpa-onnx-streaming-zipformer-en-2023-02-21/test_wavs/0.wav"
        // please refer to
        // https://k2-fsa.github.io/sherpa/onnx/pretrained_models/index.html
        // to dowload pre-trained models
        OnlineModelConfig(
            transducer = OnlineTransducerModelConfig(
                encoder = "./sherpa-onnx-streaming-zipformer-en-2023-02-21/encoder-epoch-99-avg-1.onnx",
                decoder = "./sherpa-onnx-streaming-zipformer-en-2023-02-21/decoder-epoch-99-avg-1.onnx",
                joiner = "./sherpa-onnx-streaming-zipformer-en-2023-02-21/joiner-epoch-99-avg-1.onnx",
            ),
            tokens = "./sherpa-onnx-streaming-zipformer-en-2023-02-21/tokens.txt",
            numThreads = 1,
            debug = false,
        )
      }
      "zipformer2-ctc" -> {
        waveFilename = "./sherpa-onnx-streaming-zipformer-ctc-multi-zh-hans-2023-12-13/test_wavs/DEV_T0000000000.wav"
        OnlineModelConfig(
            zipformer2Ctc = OnlineZipformer2CtcModelConfig(
                model = "./sherpa-onnx-streaming-zipformer-ctc-multi-zh-hans-2023-12-13/ctc-epoch-20-avg-1-chunk-16-left-128.onnx",
            ),
            tokens = "./sherpa-onnx-streaming-zipformer-ctc-multi-zh-hans-2023-12-13/tokens.txt",
            numThreads = 1,
            debug = false,
        )
      }
      else -> throw IllegalArgumentException(type)
    }

    var endpointConfig = EndpointConfig()

    var lmConfig = OnlineLMConfig()

    var config = OnlineRecognizerConfig(
        modelConfig = modelConfig,
        lmConfig = lmConfig,
        featConfig = featConfig,
        endpointConfig = endpointConfig,
        enableEndpoint = true,
        decodingMethod = "greedy_search",
        maxActivePaths = 4,
    )

    var model = SherpaOnnx(
        config = config,
    )

    var objArray = WaveReader.readWaveFromFile(
        filename = waveFilename,
    )
    var samples: FloatArray = objArray[0] as FloatArray
    var sampleRate: Int = objArray[1] as Int

    model.acceptWaveform(samples, sampleRate = sampleRate)
    while (model.isReady()) {
        model.decode()
    }

    var tailPaddings = FloatArray((sampleRate * 0.5).toInt()) // 0.5 seconds
    model.acceptWaveform(tailPaddings, sampleRate = sampleRate)
    model.inputFinished()
    while (model.isReady()) {
        model.decode()
    }

    println("results: ${model.text}")
}
Add JNI (#57) 2023-02-22 21:14:57 +08:00			`package com.k2fsa.sherpa.onnx`

			`import android.content.res.AssetManager`

Support playing as it is generating for Android (#477) 2023-12-09 16:36:38 +08:00			`fun callback(samples: FloatArray): Unit {`
			`println("callback got called with ${samples.size} samples");`
			`}`

Add JNI (#57) 2023-02-22 21:14:57 +08:00			`fun main() {`
Add Android demo for speaker recognition (#536) See pre-built Android APKs at https://k2-fsa.github.io/sherpa/onnx/speaker-identification/apk.html 2024-01-23 16:50:52 +08:00			`testSpeakerRecognition()`
Add jni interface and kotlin API examples for TTS. (#381) 2023-10-23 12:31:54 +08:00			`testTts()`
Support streaming zipformer CTC (#496) * Support streaming zipformer CTC * test online zipformer2 CTC * Update doc of sherpa-onnx.cc * Add Python APIs for streaming zipformer2 ctc * Add Python API examples for streaming zipformer2 ctc * Swift API for streaming zipformer2 CTC * NodeJS API for streaming zipformer2 CTC * Kotlin API for streaming zipformer2 CTC * Golang API for streaming zipformer2 CTC * C# API for streaming zipformer2 CTC * Release v1.9.6 2023-12-22 13:46:33 +08:00			`testAsr("transducer")`
			`testAsr("zipformer2-ctc")`
Add jni interface and kotlin API examples for TTS. (#381) 2023-10-23 12:31:54 +08:00			`}`

Add Android demo for speaker recognition (#536) See pre-built Android APKs at https://k2-fsa.github.io/sherpa/onnx/speaker-identification/apk.html 2024-01-23 16:50:52 +08:00			`fun computeEmbedding(extractor: SpeakerEmbeddingExtractor, filename: String): FloatArray {`
			`var objArray = WaveReader.readWaveFromFile(`
			`filename = filename,`
			`)`
			`var samples: FloatArray = objArray[0] as FloatArray`
			`var sampleRate: Int = objArray[1] as Int`

			`val stream = extractor.createStream()`
			`stream.acceptWaveform(sampleRate = sampleRate, samples=samples)`
			`stream.inputFinished()`
			`check(extractor.isReady(stream))`

			`val embedding = extractor.compute(stream)`

			`stream.release()`

			`return embedding`
			`}`

			`fun testSpeakerRecognition() {`
			`val config = SpeakerEmbeddingExtractorConfig(`
			`model="./3dspeaker_speech_eres2net_large_sv_zh-cn_3dspeaker_16k.onnx",`
			`)`
			`val extractor = SpeakerEmbeddingExtractor(config = config)`

			`val embedding1a = computeEmbedding(extractor, "./speaker1_a_cn_16k.wav")`
			`val embedding2a = computeEmbedding(extractor, "./speaker2_a_cn_16k.wav")`
			`val embedding1b = computeEmbedding(extractor, "./speaker1_b_cn_16k.wav")`

			`var manager = SpeakerEmbeddingManager(extractor.dim())`
			`var ok = manager.add(name = "speaker1", embedding=embedding1a)`
			`check(ok)`

			`manager.add(name = "speaker2", embedding=embedding2a)`
			`check(ok)`

			`var name = manager.search(embedding=embedding1b, threshold=0.5f)`
			`check(name == "speaker1")`

			`manager.release()`

			`manager = SpeakerEmbeddingManager(extractor.dim())`
			`val embeddingList = mutableListOf(embedding1a, embedding1b)`
			`ok = manager.add(name = "s1", embedding=embeddingList.toTypedArray())`
			`check(ok)`

			`name = manager.search(embedding=embedding1b, threshold=0.5f)`
			`check(name == "s1")`

			`name = manager.search(embedding=embedding2a, threshold=0.5f)`
			`check(name.length == 0)`

			`manager.release()`
			`}`

Add jni interface and kotlin API examples for TTS. (#381) 2023-10-23 12:31:54 +08:00			`fun testTts() {`
Use piper-phonemize to convert text to token IDs (#453) 2023-11-30 23:57:43 +08:00			`// see https://github.com/k2-fsa/sherpa-onnx/releases/tag/tts-models`
			`// https://github.com/k2-fsa/sherpa-onnx/releases/download/tts-models/vits-piper-en_US-amy-low.tar.bz2`
Add jni interface and kotlin API examples for TTS. (#381) 2023-10-23 12:31:54 +08:00			`var config = OfflineTtsConfig(`
			`model=OfflineTtsModelConfig(`
			`vits=OfflineTtsVitsModelConfig(`
Use piper-phonemize to convert text to token IDs (#453) 2023-11-30 23:57:43 +08:00			`model="./vits-piper-en_US-amy-low/en_US-amy-low.onnx",`
			`tokens="./vits-piper-en_US-amy-low/tokens.txt",`
			`dataDir="./vits-piper-en_US-amy-low/espeak-ng-data",`
Add jni interface and kotlin API examples for TTS. (#381) 2023-10-23 12:31:54 +08:00			`),`
			`numThreads=1,`
			`debug=true,`
			`)`
			`)`
			`val tts = OfflineTts(config=config)`
Support playing as it is generating for Android (#477) 2023-12-09 16:36:38 +08:00			`val audio = tts.generateWithCallback(text="“Today as always, men fall into two groups: slaves and free men. Whoever does not have two-thirds of his day for himself, is a slave, whatever he may be: a statesman, a businessman, an official, or a scholar.”", callback=::callback)`
Use piper-phonemize to convert text to token IDs (#453) 2023-11-30 23:57:43 +08:00			`audio.save(filename="test-en.wav")`
Add jni interface and kotlin API examples for TTS. (#381) 2023-10-23 12:31:54 +08:00			`}`

Support streaming zipformer CTC (#496) * Support streaming zipformer CTC * test online zipformer2 CTC * Update doc of sherpa-onnx.cc * Add Python APIs for streaming zipformer2 ctc * Add Python API examples for streaming zipformer2 ctc * Swift API for streaming zipformer2 CTC * NodeJS API for streaming zipformer2 CTC * Kotlin API for streaming zipformer2 CTC * Golang API for streaming zipformer2 CTC * C# API for streaming zipformer2 CTC * Release v1.9.6 2023-12-22 13:46:33 +08:00			`fun testAsr(type: String) {`
Support Android (#59) 2023-02-24 13:57:03 +08:00			`var featConfig = FeatureConfig(`
Fix modified beam search for iOS and android (#76) * Use Int type for sampling rate * Fix swift * Fix iOS 2023-03-03 15:18:31 +08:00			`sampleRate = 16000,`
Support Android (#59) 2023-02-24 13:57:03 +08:00			`featureDim = 80,`
			`)`

Support streaming zipformer CTC (#496) * Support streaming zipformer CTC * test online zipformer2 CTC * Update doc of sherpa-onnx.cc * Add Python APIs for streaming zipformer2 ctc * Add Python API examples for streaming zipformer2 ctc * Swift API for streaming zipformer2 CTC * NodeJS API for streaming zipformer2 CTC * Kotlin API for streaming zipformer2 CTC * Golang API for streaming zipformer2 CTC * C# API for streaming zipformer2 CTC * Release v1.9.6 2023-12-22 13:46:33 +08:00			`var waveFilename: String`
			`var modelConfig: OnlineModelConfig = when (type) {`
			`"transducer" -> {`
			`waveFilename = "./sherpa-onnx-streaming-zipformer-en-2023-02-21/test_wavs/0.wav"`
			`// please refer to`
			`// https://k2-fsa.github.io/sherpa/onnx/pretrained_models/index.html`
			`// to dowload pre-trained models`
			`OnlineModelConfig(`
			`transducer = OnlineTransducerModelConfig(`
			`encoder = "./sherpa-onnx-streaming-zipformer-en-2023-02-21/encoder-epoch-99-avg-1.onnx",`
			`decoder = "./sherpa-onnx-streaming-zipformer-en-2023-02-21/decoder-epoch-99-avg-1.onnx",`
			`joiner = "./sherpa-onnx-streaming-zipformer-en-2023-02-21/joiner-epoch-99-avg-1.onnx",`
			`),`
			`tokens = "./sherpa-onnx-streaming-zipformer-en-2023-02-21/tokens.txt",`
			`numThreads = 1,`
			`debug = false,`
			`)`
			`}`
			`"zipformer2-ctc" -> {`
			`waveFilename = "./sherpa-onnx-streaming-zipformer-ctc-multi-zh-hans-2023-12-13/test_wavs/DEV_T0000000000.wav"`
			`OnlineModelConfig(`
			`zipformer2Ctc = OnlineZipformer2CtcModelConfig(`
			`model = "./sherpa-onnx-streaming-zipformer-ctc-multi-zh-hans-2023-12-13/ctc-epoch-20-avg-1-chunk-16-left-128.onnx",`
			`),`
			`tokens = "./sherpa-onnx-streaming-zipformer-ctc-multi-zh-hans-2023-12-13/tokens.txt",`
			`numThreads = 1,`
			`debug = false,`
			`)`
			`}`
			`else -> throw IllegalArgumentException(type)`
			`}`
Support Android (#59) 2023-02-24 13:57:03 +08:00
			`var endpointConfig = EndpointConfig()`

Add lm rescore to online-modified-beam-search (#133) 2023-05-05 21:23:54 +08:00			`var lmConfig = OnlineLMConfig()`

Support Android (#59) 2023-02-24 13:57:03 +08:00			`var config = OnlineRecognizerConfig(`
			`modelConfig = modelConfig,`
Add lm rescore to online-modified-beam-search (#133) 2023-05-05 21:23:54 +08:00			`lmConfig = lmConfig,`
Support Android (#59) 2023-02-24 13:57:03 +08:00			`featConfig = featConfig,`
			`endpointConfig = endpointConfig,`
			`enableEndpoint = true,`
Fix modified beam search for iOS and android (#76) * Use Int type for sampling rate * Fix swift * Fix iOS 2023-03-03 15:18:31 +08:00			`decodingMethod = "greedy_search",`
			`maxActivePaths = 4,`
Support Android (#59) 2023-02-24 13:57:03 +08:00			`)`

			`var model = SherpaOnnx(`
			`config = config,`
			`)`
Fix modified beam search for iOS and android (#76) * Use Int type for sampling rate * Fix swift * Fix iOS 2023-03-03 15:18:31 +08:00
Add examples for Kotlin API (#124) 2023-04-19 17:29:35 +08:00			`var objArray = WaveReader.readWaveFromFile(`
Support streaming zipformer CTC (#496) * Support streaming zipformer CTC * test online zipformer2 CTC * Update doc of sherpa-onnx.cc * Add Python APIs for streaming zipformer2 ctc * Add Python API examples for streaming zipformer2 ctc * Swift API for streaming zipformer2 CTC * NodeJS API for streaming zipformer2 CTC * Kotlin API for streaming zipformer2 CTC * Golang API for streaming zipformer2 CTC * C# API for streaming zipformer2 CTC * Release v1.9.6 2023-12-22 13:46:33 +08:00			`filename = waveFilename,`
Support Android (#59) 2023-02-24 13:57:03 +08:00			`)`
Support multilingual whisper models (#274) 2023-08-16 00:28:52 +08:00			`var samples: FloatArray = objArray[0] as FloatArray`
			`var sampleRate: Int = objArray[1] as Int`
Support Android (#59) 2023-02-24 13:57:03 +08:00
Support multilingual whisper models (#274) 2023-08-16 00:28:52 +08:00			`model.acceptWaveform(samples, sampleRate = sampleRate)`
Fix modified beam search for iOS and android (#76) * Use Int type for sampling rate * Fix swift * Fix iOS 2023-03-03 15:18:31 +08:00			`while (model.isReady()) {`
Support multilingual whisper models (#274) 2023-08-16 00:28:52 +08:00			`model.decode()`
Fix modified beam search for iOS and android (#76) * Use Int type for sampling rate * Fix swift * Fix iOS 2023-03-03 15:18:31 +08:00			`}`
Support Android (#59) 2023-02-24 13:57:03 +08:00
Add examples for Kotlin API (#124) 2023-04-19 17:29:35 +08:00			`var tailPaddings = FloatArray((sampleRate * 0.5).toInt()) // 0.5 seconds`
Support multilingual whisper models (#274) 2023-08-16 00:28:52 +08:00			`model.acceptWaveform(tailPaddings, sampleRate = sampleRate)`
Support Android (#59) 2023-02-24 13:57:03 +08:00			`model.inputFinished()`
Fix modified beam search for iOS and android (#76) * Use Int type for sampling rate * Fix swift * Fix iOS 2023-03-03 15:18:31 +08:00			`while (model.isReady()) {`
Support multilingual whisper models (#274) 2023-08-16 00:28:52 +08:00			`model.decode()`
Fix modified beam search for iOS and android (#76) * Use Int type for sampling rate * Fix swift * Fix iOS 2023-03-03 15:18:31 +08:00			`}`

Support Android (#59) 2023-02-24 13:57:03 +08:00			`println("results: ${model.text}")`
Add JNI (#57) 2023-02-22 21:14:57 +08:00			`}`