Support German TTS (#394)

2023-10-27 11:12:45 +08:00
parent 93ef4ee4bc
commit fbf4c903e1
3 changed files with 15 additions and 12 deletions
--- a/sherpa-onnx/csrc/lexicon.cc
+++ b/sherpa-onnx/csrc/lexicon.cc
@@ -129,10 +129,12 @@ std::vector<int64_t> Lexicon::ConvertTextToTokenIds(
  switch (language_) {
    case Language::kEnglish:
      return ConvertTextToTokenIdsEnglish(text);
+    case Language::kGerman:
+      return ConvertTextToTokenIdsGerman(text);
    case Language::kChinese:
      return ConvertTextToTokenIdsChinese(text);
    default:
-      SHERPA_ONNX_LOGE("Unknonw language: %d", static_cast<int32_t>(language_));
+      SHERPA_ONNX_LOGE("Unknown language: %d", static_cast<int32_t>(language_));
      exit(-1);
  }

@@ -246,6 +248,8 @@ void Lexicon::InitLanguage(const std::string &_lang) {
  ToLowerCase(&lang);
  if (lang == "english") {
    language_ = Language::kEnglish;
+  } else if (lang == "german") {
+    language_ = Language::kGerman;
  } else if (lang == "chinese") {
    language_ = Language::kChinese;
  } else {
@@ -269,8 +273,8 @@ void Lexicon::InitLexicon(std::istream &is) {
    ToLowerCase(&word);

    if (word2ids_.count(word)) {
-      SHERPA_ONNX_LOGE("Duplicated word: %s", word.c_str());
-      return;
+      SHERPA_ONNX_LOGE("Duplicated word: %s. Ignore it.", word.c_str());
+      continue;
    }

    while (iss >> phone) {
--- a/sherpa-onnx/csrc/lexicon.h
+++ b/sherpa-onnx/csrc/lexicon.h
@@ -36,6 +36,11 @@ class Lexicon {
  std::vector<int64_t> ConvertTextToTokenIds(const std::string &text) const;

 private:
+  std::vector<int64_t> ConvertTextToTokenIdsGerman(
+      const std::string &text) const {
+    return ConvertTextToTokenIdsEnglish(text);
+  }
+
  std::vector<int64_t> ConvertTextToTokenIdsEnglish(
      const std::string &text) const;

@@ -50,6 +55,7 @@ class Lexicon {
 private:
  enum class Language {
    kEnglish,
+    kGerman,
    kChinese,
    kUnknown,
  };