Python API for speaker diarization. (#1400)

2024-10-09 14:13:26 +08:00
parent 59407edcad
commit 8535b1d3bb
14 changed files with 315 additions and 9 deletions
--- a/sherpa-onnx/csrc/offline-speaker-diarization-pyannote-impl.h
+++ b/sherpa-onnx/csrc/offline-speaker-diarization-pyannote-impl.h
@@ -103,7 +103,7 @@ class OfflineSpeakerDiarizationPyannoteImpl
    auto chunk_speaker_samples_list_pair = GetChunkSpeakerSampleIndexes(labels);
    Matrix2D embeddings =
        ComputeEmbeddings(audio, n, chunk_speaker_samples_list_pair.second,
-                          callback, callback_arg);
+                          std::move(callback), callback_arg);

    std::vector<int32_t> cluster_labels = clustering_.Cluster(
        &embeddings(0, 0), embeddings.rows(), embeddings.cols());
--- a/sherpa-onnx/csrc/offline-speaker-diarization-result.h
+++ b/sherpa-onnx/csrc/offline-speaker-diarization-result.h
@@ -28,6 +28,8 @@ class OfflineSpeakerDiarizationSegment {
  const std::string &Text() const { return text_; }
  float Duration() const { return end_ - start_; }

+  void SetText(const std::string &text) { text_ = text; }
+
  std::string ToString() const;

 private:
--- a/sherpa-onnx/csrc/offline-speaker-diarization.h
+++ b/sherpa-onnx/csrc/offline-speaker-diarization.h
@@ -34,10 +34,13 @@ struct OfflineSpeakerDiarizationConfig {
  OfflineSpeakerDiarizationConfig(
      const OfflineSpeakerSegmentationModelConfig &segmentation,
      const SpeakerEmbeddingExtractorConfig &embedding,
-      const FastClusteringConfig &clustering)
+      const FastClusteringConfig &clustering, float min_duration_on,
+      float min_duration_off)
      : segmentation(segmentation),
        embedding(embedding),
-        clustering(clustering) {}
+        clustering(clustering),
+        min_duration_on(min_duration_on),
+        min_duration_off(min_duration_off) {}

  void Register(ParseOptions *po);
  bool Validate() const;