FastChat Vicuna

FastChat Vicuna

2023-05-29. Category & Tags: AIGC, GPT, ChatGPT, LLAMA, LLM, FastChat, Vicuna

public: 2025-04-19

See also the main item: /LLM.

Official GitHub.

Follow this CSDN blog for the 1st time run: CSDN, (bak 2023-04-18).

Note about timing (on Tesla V100 16G):

  1. convert_llama_weights_to_hf.py for LLAMA-7B uses <10min.
  2. python -m fastchat.model.apply_delta for LLAMA-7B uses <10min.
  3. GPTQ-for-LLaMA for LLAMA-13B to 4bit .pt uses 0.75 hour.

Vicuna GPTQ Models (量化模型) Comparison & WebUI Tutorial. ref: medium

See also FastChat for WebUI & RESTful API: FastChat GitHub Home.

【NOT finished, CJK causes crash】

用 wikipedia 的英文文章(很长),做问答的效果还是挺不错的,基本都可以从文本里拿到相关的段落,然后做 qa。但是在中文上的效果十分差,主要原因是因为 langchain 内部的 agent 会有一套思考流程,这个流程是全英文的,所以会导致问的问题被翻译成英文,然后用英文的 embedding 在 vectordb 里搜索,必然导致出来的结果非常不理想,最后一步还因为语言问题会有一个 exception,crash 掉整个 app. 有两个解决办法,第一个进去 langchain 看看逻辑,修改一下 agent 的交互界面,第二个用这个项目:https://github.com/yanqiangmiffy/Chinese-LangChain

Ref Credits: @Zac.