[问与答] 本地部署的小 LLM 模型不会自动停止输出，怎么解决？

发表于 2024年8月27日1年前

想用 langchain + huggingface 上的一些小模型做一些 rag 的测试，随便尝试了 2 个 Qwen/Qwen2-7B-Instruct 和 microsoft/Phi-3.5-mini-instruct，但我发现他们好像都不知道什么时候应该停止输出。下面举了一些例子

模型和 prompt 的代码，检索器的就不放了：

llm_model = AutoModelForCausalLM.from_pretrained(
    model_name, device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
pipe = pipeline(
    "text-generation",
    model=llm_model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    return_full_text=False,
    do_sample=False,
    temperature=None,
    top_k=None,
    top_p=None,
)

prompt = ChatPromptTemplate.from_template(
    "你是问答任务的助手。使用以下检索到的相关规定来回答问题。如果你不知道答案，就说你不知道。\n\n"
    "问题：{input} \n\n"
    "上下文：\n{context}\n\n"
    "回答："
)

这个 prompt 我是希望他在回答后面直接回答就可以了，很直接，但是这些模型有时候就很蠢。比如它会往后面补充：

根据上下文，..........

问题：.....
答案：.....

问题：.....
答案：.....

问题：.....
答案：......

就十分容易出现上面这种情况，明明直接回答就好了，但是它一定要把能用的 token 用完才结束，这些小模型的输出 token 里面没有指定什么时候结束的吗？有没有什么解决办法。

登录

[问与答] 本地部署的小 LLM 模型不会自动停止输出，怎么解决？

Featured Replies

创建帐户或登录来提出意见

游客注册

游客注册

类似的内容

会员

最近查看 0

Account

导航

搜索

Configure browser push notifications

Chrome (Android)

Chrome (Desktop)

Safari (iOS 16.4+)

Safari (macOS)

Edge (Android)

Edge (Desktop)

Firefox (Android)

Firefox (Desktop)

登录

创建帐户或登录来提出意见

游客注册

游客注册

[问与答] 4060 本地部署 LLM 求推荐？

[问与答] 怎么可以有效利用 LLM 分析开源项目，如 Vue/React？

[酷工作] [字节 LLM 大模型平台方向后端招聘]

[问与答] 所以 Xcode LLM 好用吗？

[酷工作] [北京/上海] 清华系大模型独角兽 LLM/多模态算法/语音/aigc/推理/训练研发

Configure browser push notifications

Chrome (Android)

Chrome (Desktop)

Safari (iOS 16.4+)

Safari (macOS)

Edge (Android)

Edge (Desktop)

Firefox (Android)

Firefox (Desktop)