FastChat Vicuna

FastChat Vicuna

2023-05-29. Category & Tags: AIGC, GPT, ChatGPT, LLAMA, LLM, FastChat, Vicuna

public: 2025-04-19

See also the main item: /LLM.

Official GitHub.

Follow this CSDN blog for the 1st time run: CSDN, (bak 2023-04-18).

Note about timing (on Tesla V100 16G):

convert_llama_weights_to_hf.py for LLAMA-7B uses <10min.
python -m fastchat.model.apply_delta for LLAMA-7B uses <10min.
GPTQ-for-LLaMA for LLAMA-13B to 4bit .pt uses 0.75 hour.

Vicuna GPTQ Models (量化模型) Comparison & WebUI Tutorial. ref: medium

See also FastChat for WebUI & RESTful API: FastChat GitHub Home.

【NOT finished, CJK causes crash】

用 wikipedia 的英文文章(很长)，做问答的效果还是挺不错的，基本都可以从文本里拿到相关的段落，然后做 qa。但是在中文上的效果十分差，主要原因是因为 langchain 内部的 agent 会有一套思考流程，这个流程是全英文的，所以会导致问的问题被翻译成英文，然后用英文的 embedding 在 vectordb 里搜索，必然导致出来的结果非常不理想，最后一步还因为语言问题会有一个 exception，crash 掉整个 app. 有两个解决办法，第一个进去 langchain 看看逻辑，修改一下 agent 的交互界面，第二个用这个项目：https://github.com/yanqiangmiffy/Chinese-LangChain

Ref Credits: @Zac.