[Lint]Style: Convert example to ruff format (#5863)

### What this PR does / why we need it? This PR fixes linting issues in the `example/` to align with the project's Ruff configuration. - vLLM version: v0.13.0 - vLLM main: bde38c11df Signed-off-by: root <root@LAPTOP-VQKDDVMG.localdomain> Co-authored-by: root <root@LAPTOP-VQKDDVMG.localdomain>
2026-01-13 20:46:50 +08:00
parent f7b904641e
commit 78d5ce3e01
23 changed files with 678 additions and 1037 deletions
--- a/examples/prompt_embedding_inference.py
+++ b/examples/prompt_embedding_inference.py
@@ -1,8 +1,7 @@
 import os

 import torch
-from transformers import (AutoModelForCausalLM, AutoTokenizer,
-                          PreTrainedTokenizer)
+from transformers import AutoModelForCausalLM, AutoTokenizer, PreTrainedTokenizer
 from vllm import LLM

 os.environ["VLLM_USE_MODELSCOPE"] = "True"
@@ -17,27 +16,21 @@ def init_tokenizer_and_llm(model_name: str):
    return tokenizer, embedding_layer, llm


-def get_prompt_embeds(chat: list[dict[str,
-                                      str]], tokenizer: PreTrainedTokenizer,
-                      embedding_layer: torch.nn.Module):
-    token_ids = tokenizer.apply_chat_template(chat,
-                                              add_generation_prompt=True,
-                                              return_tensors='pt')
+def get_prompt_embeds(chat: list[dict[str, str]], tokenizer: PreTrainedTokenizer, embedding_layer: torch.nn.Module):
+    token_ids = tokenizer.apply_chat_template(chat, add_generation_prompt=True, return_tensors="pt")
    prompt_embeds = embedding_layer(token_ids).squeeze(0)
    return prompt_embeds


-def single_prompt_inference(llm: LLM, tokenizer: PreTrainedTokenizer,
-                            embedding_layer: torch.nn.Module):
-    chat = [{
-        "role": "user",
-        "content": "Please tell me about the capital of France."
-    }]
+def single_prompt_inference(llm: LLM, tokenizer: PreTrainedTokenizer, embedding_layer: torch.nn.Module):
+    chat = [{"role": "user", "content": "Please tell me about the capital of France."}]
    prompt_embeds = get_prompt_embeds(chat, tokenizer, embedding_layer)

-    outputs = llm.generate({
-        "prompt_embeds": prompt_embeds,
-    })
+    outputs = llm.generate(
+        {
+            "prompt_embeds": prompt_embeds,
+        }
+    )

    print("\n[Single Inference Output]")
    print("-" * 30)
@@ -46,34 +39,22 @@ def single_prompt_inference(llm: LLM, tokenizer: PreTrainedTokenizer,
    print("-" * 30)


-def batch_prompt_inference(llm: LLM, tokenizer: PreTrainedTokenizer,
-                           embedding_layer: torch.nn.Module):
-    chats = [[{
-        "role": "user",
-        "content": "Please tell me about the capital of France."
-    }],
-             [{
-                 "role": "user",
-                 "content": "When is the day longest during the year?"
-             }],
-             [{
-                 "role": "user",
-                 "content": "Where is bigger, the moon or the sun?"
-             }]]
-
-    prompt_embeds_list = [
-        get_prompt_embeds(chat, tokenizer, embedding_layer) for chat in chats
+def batch_prompt_inference(llm: LLM, tokenizer: PreTrainedTokenizer, embedding_layer: torch.nn.Module):
+    chats = [
+        [{"role": "user", "content": "Please tell me about the capital of France."}],
+        [{"role": "user", "content": "When is the day longest during the year?"}],
+        [{"role": "user", "content": "Where is bigger, the moon or the sun?"}],
    ]

-    outputs = llm.generate([{
-        "prompt_embeds": embeds
-    } for embeds in prompt_embeds_list])
+    prompt_embeds_list = [get_prompt_embeds(chat, tokenizer, embedding_layer) for chat in chats]
+
+    outputs = llm.generate([{"prompt_embeds": embeds} for embeds in prompt_embeds_list])

    print("\n[Batch Inference Outputs]")
    print("-" * 30)
    for i, o in enumerate(outputs):
-        print(f"Q{i+1}: {chats[i][0]['content']}")
-        print(f"A{i+1}: {o.outputs[0].text}\n")
+        print(f"Q{i + 1}: {chats[i][0]['content']}")
+        print(f"A{i + 1}: {o.outputs[0].text}\n")
    print("-" * 30)