First Commit

2025-08-05 19:09:06 +08:00
commit d236601521
7 changed files with 498 additions and 0 deletions
--- a/14
+++ b/14
@@ -0,0 +1,14 @@
+FROM zibo.harbor.iluvatar.com.cn:30000/saas/bi100-3.2.1-x86-ubuntu20.04-py3.10-poc-llm-infer:v1.2.2
+
+RUN pip install --no-cache-dir torch==2.1.0+corex.3.2.1 torchaudio==2.1.0+corex.3.2.1 pyannote.audio av
+
+COPY ./pyannote_models/pyannote-wespeaker-voxceleb-resnet34-LM /model
+
+COPY ./src/filesystem_storage.py /workspace/filesystem_storage.py
+COPY ./src/speaker_identification.py /workspace/speaker_identification.py
+COPY ./src/iflytek_interface_server.py /workspace/iflytek_interface_server.py
+COPY ./launch_service /workspace/launch_service
+
+WORKDIR /workspace/
+
+ENTRYPOINT ["./launch_service"]
--- a/9
+++ b/9
@@ -0,0 +1,9 @@
+#!/bin/bash
+
+date
+cat /proc/cpuinfo | tail -n 50
+ixsmi
+export
+date
+
+python3 iflytek_interface_server.py
--- a/pyannote_models/pyannote-wespeaker-voxceleb-resnet34-LM/.gitattributes
+++ b/pyannote_models/pyannote-wespeaker-voxceleb-resnet34-LM/.gitattributes
@@ -0,0 +1,35 @@
+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
--- a/src/.iflytek_interface_server.py.swp
+++ b/src/.iflytek_interface_server.py.swp
--- a/src/filesystem_storage.py
+++ b/src/filesystem_storage.py
@@ -0,0 +1,56 @@
+import os
+import shutil
+import logging
+
+logger = logging.getLogger(__name__)
+
+BASE_DIRECTORY = './embedding_data'
+
+class FileSystemStorage:
+    def __init__(self, base_directory=BASE_DIRECTORY):
+        self.base_dir = base_directory
+
+    def create_group(self, auth_token, group_id):
+        path = os.path.join(self.base_dir, group_id)
+        if os.path.exists(path):
+            raise FileExistsError(f"{group_id}")
+        else:
+            try:
+                os.makedirs(path)
+            except OSError as e:
+                logger.error(f"Error creating directory {path}: {e}")
+                raise
+
+    def get(self, auth_token, group_id, item_id):
+        try:
+            path = os.path.join(self.base_dir, group_id, item_id)
+            with open(path, 'rb') as f:
+                return f.read()
+        except Exception as e:
+            logger.error(f"Error reading from {path}: {e}")
+            raise
+
+    def save(self, auth_token, group_id, item_id, content):
+        try:
+            path = os.path.join(self.base_dir, group_id, item_id)
+            with open(path, 'wb') as f:
+                f.write(content)
+        except Exception as e:
+            logger.error(f"Error saving to {path}: {e}")
+            raise
+            
+    def remove(slef, auth_token, group_id, item_id):
+        try:
+            path = os.path.join(self.base_dir, group_id, item_id)
+            os.remove(path)
+        except Exception as e:
+            logger.error(f"Error remove item {path}: {e}")
+            raise
+            
+    def remove_group(self, auth_token, group_id):
+        try:
+            path = os.path.join(self.base_dir, group_id)
+            shutil.rmtree(path)
+        except Exception as e:
+            logger.error(f"Error remove group {path}: {e}")
+            raise
--- a/src/iflytek_interface_server.py
+++ b/src/iflytek_interface_server.py
@@ -0,0 +1,212 @@
+import av
+import io
+import time
+import json
+import uuid
+import torch
+import numpy
+import base64
+import logging
+from flask import Flask, request, jsonify
+
+format_str = '%(asctime)s - %(levelname)s - %(name)s - %(message)s'
+datefmt= '%Y-%m-%d %H:%M:%S'
+logging.basicConfig(level=logging.WARNING, format=format_str, datefmt=datefmt)
+
+from speaker_identification import init_embedding_model, create_group, enroll_speaker, identify_speaker, calc_similarity, list_speakers, remove_speaker, remove_group
+
+logger = logging.getLogger(__name__)
+logger.setLevel(logging.DEBUG)
+
+init_embedding_model()
+app = Flask(__name__)
+
+def samples_from_raw_bytes(data):
+    ret = numpy.frombuffer(data, dtype=numpy.int16).astype(numpy.float32) / 32768.0
+    return ret
+
+def samples_from_lame_bytes(data):
+    input_buffer = io.BytesIO(data)
+    with av.open(input_buffer, mode='r') as container:
+        stream = next(s for s in container.streams if s.type == 'audio')
+        resampler = av.AudioResampler(
+            format='fltp',
+            layout='mono',
+            rate=16000
+        )
+        frame_chunks = []
+        for packet in container.demux(stream):
+            for frame in packet.decode():
+                for resampled_frame in resampler.resample(frame):
+                    frame_chunks.append(resampled_frame.to_ndarray().flatten())
+        for resampled_frame in resampler.resample(None):
+            frame_chunks.append(resampled_frame.to_ndarray().flatten())
+        if not frame_chunks:
+            return numpy.array([], dtype=numpy.float32)
+        return numpy.concatenate(frame_chunks)
+
+def waveform_input_from_b64_audio(audio_b64, audio_format):
+    audio_data = base64.b64decode(audio_b64)
+    if audio_format == 'lame':
+        samples = samples_from_lame_bytes(audio_data)
+    else:
+        samples = samples_from_raw_bytes(audio_data)
+    waveform = torch.from_numpy(numpy.expand_dims(samples, axis=0))
+    ret = {'waveform': waveform, 'sample_rate': 16000}
+    return ret
+
+def conv_group_id(aid, gid):
+    group_id = f'{aid}_____{gid}'
+    return group_id
+
+def process_create_group(req_json):
+    params = req_json['parameter']['s782b4996']
+    aid = req_json['header']['app_id']
+    gid = params['groupId']
+    group_id = conv_group_id(aid, gid)
+    create_group(group_id)
+    resp = {
+        'groupName': f'{gid} (groupId)',
+        'groupId': gid,
+        'groupInfo': f'{gid} (groupId)'
+    }
+    return resp
+
+def process_create_feature(req_json):
+    params = req_json['parameter']['s782b4996']
+    aid = req_json['header']['app_id']
+    gid = params['groupId']
+    group_id = conv_group_id(aid, gid)
+    speaker_id = params['featureId']
+    audio_b64 = req_json['payload']['resource']['audio']
+    audio_format = req_json['payload']['resource']['encoding']
+    audio = waveform_input_from_b64_audio(audio_b64, audio_format)
+    enroll_speaker(group_id, speaker_id, audio)
+    resp = {'featureId': speaker_id}
+    return resp
+
+def process_feature_list(req_json):
+    params = req_json['parameter']['s782b4996']
+    aid = req_json['header']['app_id']
+    gid = params['groupId']
+    group_id = conv_group_id(aid, gid)
+    speaker_ids = list_speakers(group_id)
+    resp = [{'featureInfo': f'{speaker_id} (featureId)',
+             'featureId': sid}
+            for sid in speaker_ids]
+    return resp
+
+def process_score_feature(req_json):
+    params = req_json['parameter']['s782b4996']
+    aid = req_json['header']['app_id']
+    gid = params['groupId']
+    group_id = conv_group_id(aid, gid)
+    speaker_id = params['dstFeatureId']
+    audio_b64 = req_json['payload']['resource']['audio']
+    audio_format = req_json['payload']['resource']['encoding']
+    audio = waveform_input_from_b64_audio(audio_b64, audio_format)
+    similarity = calc_similarity(audio, group_id, speaker_id)
+    resp = {
+        'score': similarity,
+        'featureInfo': f'{speaker_id} (featureId)',
+        'featureId': speaker_id,
+    }
+    return resp
+
+def process_search_feature(req_json):
+    params = req_json['parameter']['s782b4996']
+    aid = req_json['header']['app_id']
+    gid = params['groupId']
+    group_id = conv_group_id(aid, gid)
+    top_k = params['topK']
+    audio_b64 = req_json['payload']['resource']['audio']
+    audio_format = req_json['payload']['resource']['encoding']
+    audio = waveform_input_from_b64_audio(audio_b64, audio_format)
+    iden_res = identify_speaker(audio, group_id, top_k)
+    score_list = []
+    for score, speaker_id in iden_res:
+        score_item = {
+            'score': score,
+            'featureInfo': f'{speaker_id} (featureId)',
+            'featureId': speaker_id
+        }
+        score_list.append(score_item)
+    resp = {'scoreList': score_list}
+    return resp
+
+def process_delete_feature(req_json):
+    params = req_json['parameter']['s782b4996']
+    aid = req_json['header']['app_id']
+    gid = params['groupId']
+    group_id = conv_group_id(aid, gid)
+    speaker_id = params['featureId']
+    remove_speaker(group_id, speaker_id)
+    resp = {"msg": "success"}
+    return resp
+
+def process_delete_group(req_json):
+    params = req_json['parameter']['s782b4996']
+    aid = req_json['header']['app_id']
+    gid = params['groupId']
+    group_id = conv_group_id(aid, gid)
+    remove_group(group_id, speaker_id)
+    resp = {"msg": "success"}
+    return resp
+
+def generate_interface_response(success, resp, req_id):
+    resp_b64 = base64.b64encode(json.dumps(resp).encode('utf-8')).decode('utf-8')
+    ret = {
+        "header": {
+            "code": 0 if success else 10009,
+            "message": "success",
+            "sid": req_id,
+        },
+        "payload": {
+            "updateFeatureRes": {
+                "status": "3",
+                "text": resp_b64
+            }
+       },
+    }
+    return ret
+
+@app.route('/v1/private/s782b4996', methods=['POST'])
+def s782b4996():
+    req_id = str(uuid.uuid4())
+    try:
+        req_json = request.json
+        func = req_json['parameter']['s782b4996']['func']
+        logger.info(f'Processing request {func=}, {req_id=}...')
+        resp = None
+        ts_beg = time.time()
+        if func == 'createGroup':
+            resp = process_create_group(req_json)
+        elif func == 'createFeature':
+            resp = process_create_feature(req_json)
+        elif func == 'queryFeatureList':
+            resp = process_feature_list(req_json)
+        elif func == 'searchScoreFea':
+            resp = process_score_feature(req_json)
+        elif func == 'searchFea':
+            resp = process_search_feature(req_json)
+        elif func == 'deleteFeature':
+            resp = process_delete_feature(req_json)
+        elif func == 'deleteGroup':
+            resp = process_delete_group(req_json)
+        elapsed = time.time() - ts_beg
+        logger.debug(f'{elapsed=:.3f}s Result = {resp}')
+        logger.info(f'Request {req_id} completed.')
+        ret = generate_interface_response(True, resp, req_id)
+    except Exception as e:
+        logger.warning(f'Exception {e}', exc_info=True)
+        msg = {'error_msg': str(e)}
+        ret = generate_interface_response(False, msg, req_id)
+    return ret
+
+@app.route('/health')
+@app.route('/health_check')
+def health():
+    return {'status': 'ok'}
+
+if __name__ == '__main__':
+    app.run(host='0.0.0.0', port=80)
--- a/src/speaker_identification.py
+++ b/src/speaker_identification.py
@@ -0,0 +1,172 @@
+import time
+import torch
+import pickle
+import logging
+import hashlib
+import numpy as np
+from pyannote.audio import Model, Inference
+from filesystem_storage import FileSystemStorage
+
+logger = logging.getLogger(__name__)
+
+STOR_AUTH_TOKEN = ''
+EMB_MODEL_PATH = "/model/pytorch_model.bin"
+embedding_model = None
+storage = FileSystemStorage()
+
+class SpeakerIDException(Exception):
+    def get_err_msg(self):
+        return str(self)
+
+def _safe_id(id):
+    original_id = str(id)
+    allowed_chars = set('abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789_')
+    cleaned_chars = (c if c in allowed_chars else '_' for c in original_id)
+    cleaned_id = "".join(cleaned_chars)
+    truncated_id = cleaned_id[:300]
+    
+    hasher = hashlib.sha256()
+    hasher.update(original_id.encode('utf-8'))
+    full_hash = hasher.hexdigest()
+    short_hash = full_hash[:16]
+    
+    final_id = f"{truncated_id}_{short_hash}"
+    return final_id
+    
+def _calc_embedding(audio):
+    global embedding_model
+    try:
+        embedding = embedding_model(audio)
+    except Exception as e:
+        logger.error(f'Could not calc embedding: inference audio error {e}')
+        raise
+    return embedding
+    
+def _cosine_similarity(u, v):
+    u = np.asarray(u)
+    v = np.asarray(v)
+
+    if np.linalg.norm(u) == 0 or np.linalg.norm(v) == 0:
+         logger.warning("Warning: One or both vectors are zero vectors. Cosine distance is undefined.")
+         return 1.0
+
+    dot_product = np.dot(u, v)
+    norm_u = np.linalg.norm(u)
+    norm_v = np.linalg.norm(v)
+
+    similarity = float(dot_product / (norm_u * norm_v))
+    similarity = max(0.0, min(similarity, 1.0))
+    return similarity
+
+def _load_group(group_id):
+    try:
+        emb_content = storage.get(STOR_AUTH_TOKEN, group_id, 'embeddings')
+        embeddings = pickle.loads(emb_content)
+    except Exception as e:
+        logger.error(f'Could not load group with id {group_id}, err = {e}')
+        raise
+    return embeddings
+    
+def _save_group(group_id, embeddings):
+    global storage
+    try:
+        emb_content = pickle.dumps(embeddings)
+        storage.save(STOR_AUTH_TOKEN, group_id, 'embeddings', emb_content)
+    except Exception as e:
+        logger.error(f'Could not save group with id {group_id}, err = {e}')
+        raise
+
+def _create_group(group_id):
+    try:
+        storage.create_group(STOR_AUTH_TOKEN, group_id_s)
+        _save_group(group_id_s, {})
+    except Exception as e:
+        logger.error(f'Could not create group with id {group_id}, err = {e}')
+        raise
+
+# Public Functions
+def init_embedding_model():
+    global embedding_model
+    model = Model.from_pretrained(EMB_MODEL_PATH)
+    embedding_model = Inference(model, window="whole")
+    embedding_model.to(torch.device('cuda'))
+
+def create_group(group_id):
+    global storage
+    try:
+        group_id_s = _safe_id(group_id)
+        storage.create_group(STOR_AUTH_TOKEN, group_id_s)
+        _save_group(group_id_s, {})
+    except Exception as e:
+        logger.error(f'Could not create group with id {group_id}, err = {e}')
+        raise SpeakerIDException(f'Create Group failed')
+
+def enroll_speaker(group_id, speaker_id, audio):
+    try:
+        group_id_s = _safe_id(group_id)
+        speaker_id_s = _safe_id(speaker_id)
+        embeddings = _load_group(group_id_s)
+        speaker_emb = _calc_embedding(audio)
+        embeddings[speaker_id_s] = (speaker_id, speaker_emb)
+        _save_group(group_id_s, embeddings)
+    except Exception as e:
+        logger.error(f'Could enroll speaker with {group_id=} {speaker_id=}, err = {e}')
+        raise SpeakerIDException(f'Enroll Speaker failed')
+        
+def list_speakers(group_id):
+    try:
+        group_id_s = _safe_id(group_id)
+        embeddings = _load_group(group_id_s)
+        speaker_ids = [x[0] for x in embeddings.values()]
+        return speaker_ids
+    except Exception as e:
+        logger.error(f'Could not list speakers. {group_id=}, err = {e}')
+        raise SpeakerIDException(f'List Speakers failed')
+
+def remove_speaker(group_id, speaker_id):
+    try:
+        group_id_s = _safe_id(group_id)
+        speaker_id_s = _safe_id(speaker_id)
+        embeddings = _load_group(group_id_s)
+        embeddings.pop(speaker_id_s)
+        _save_group(group_id_s, embeddings)
+    except Exception as e:
+        logger.error(f'Could not remove speaker. {group_id=} {speaker_id = }, err = {e}')
+        raise SpeakerIDException(f'Remove Speaker failed')
+          
+def remove_group(group_id):
+    try:
+        group_id_s = _safe_id(group_id)
+        storage.remove_group(STOR_AUTH_TOKEN, group_id_s)
+    except Exception as e:
+        logger.error(f'Could not remove group {group_id}, err = {e}')
+        raise SpeakerIDException(f'Remove Group failed')
+        
+def calc_similarity(audio, group_id, speaker_id):
+    try:
+        group_id_s = _safe_id(group_id)
+        speaker_id_s = _safe_id(speaker_id)
+        embeddings = _load_group(group_id_s)
+        speaker_emb = embeddings[speaker_id_s][1]
+        audio_emb = _calc_embedding(audio)
+        similarity = _cosine_similarity(speaker_emb, audio_emb)
+        return similarity
+    except Exception as e:
+        logger.error(f'Could not calculate similarity. {group_id=} {speaker_id=}: {e}')
+        raise SpeakerIDException(f'Calculate Similarity failed')
+
+def identify_speaker(audio, group_id, top_k):
+    try:
+        group_id_s = _safe_id(group_id)
+        embeddings = _load_group(group_id_s)
+        audio_emb = _calc_embedding(audio)
+        ret_lst = []
+        for i, e in embeddings.values():
+            similarity = _cosine_similarity(audio_emb, e)
+            ret_lst.append((similarity, i))
+        ret_lst.sort(reverse=True)
+        ret_lst = ret_lst[:top_k]
+        return ret_lst
+    except Exception as e:
+        logger.error(f'Could not identify speaker. {group_id=}: {e}')
+        raise SpeakerIDException(f'Identify Speaker failed')