发现一个很不错的大模型

2023/11/13更新：
实测 llama.cpp-python 没问题，webui还没更新，所以依旧不能使用，我写了两个运行在kaggle和colab上的脚本，本地跑不了的可以试试看：
https://summer-plus.net/read.php?tid=2003973

2023/11/07更新：

对话问题已解决，text-generation-webview的Prompt Template已新增ChatML。
选择后set default，然后开启一个新对话即可

这个模型的vocab太大，老的llama.cpp加载时只能纯CPU，最近llama.cpp修好调用GPU，但webui使用的llama.cpp-python还没修复，所以目前似乎只能通过命令行使用。继续等待修复。目前一定要在tgwebui加载的话，请用gptq版本。

————————

先震撼一下。~~【但我不知道怎么跟它上下文对话，目前只能一问一答，有懂的老哥请不吝赐教】~~

此帖售价 0 SP币,已有 1604 人购买

若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!

这个模型叫CausalLM/14B

此帖售价 0 SP币,已有 1604 人购买

若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!

【继续求上下文对话方法】

顶端

B1F 2023-11-04 13:38

（当你凝视深渊时，深渊也在凝视你。）

全看 | | 小中大

没有上下文是因为你只提出了问题，模型给出答案，使用模板就解决了，
另外怎样让ai段落说的完整一点hxd，每次回复继续是可以，但是太繁琐了！
有没有model页最佳配置

参考，跟你一样的ui

顶端

B2F 2023-11-04 14:22

（当你凝视深渊时，深渊也在凝视你。）

全看 | | 小中大

回 25楼(Mni) 的帖子

回溯（最近一次调用最后一次）：

文件“/content/text- Generation-webui/modules/ui_model_menu.py”，第 206 行，位于 load_model_wrapper 中

shared.model, shared.tokenizer = load_model(shared.model_name, loader)
文件“/content/text- Generation-webui/modules/models.py”，第 84 行，位于 load_model 中

output = load_func_map[loader](model_name)
文件“/content/text- Generation-webui/modules/models.py”，第 356 行，在 ExLlamav2_HF_loader 中

return Exllamav2HF.from_pretrained(model_name)
文件“/content/text- Generation-webui/modules/exllamav2_hf.py”，第 156 行，from_pretrained

return Exllamav2HF(config)
文件“/content/text- Generation-webui/modules/exllamav2_hf.py”，第 43 行，在init中

self.ex_cache = ExLlamaV2Cache(self.ex_model)
文件“/usr/local/lib/python3.10/dist-packages/exllamav2/cache.py”，第 106 行，在init中

self.cached = Cache16Bit(model, self.batch_size, self.max_seq_len, num_key_value_heads, head_dim, num_hidden_layers, copy_from)
文件“/usr/local/lib/python3.10/dist-packages/exllamav2/cache.py”，第 35 行，在init中

p_key_states = torch.zeros(self.batch_size, self.max_seq_len, num_key_value_heads, head_dim, dtype = torch.float16, device = self.model.cache_map)

torch.cuda.OutOfMemoryError：CUDA 内存不足。尝试分配 70.00 MiB。GPU 0 的总容量为 14.75 GiB，其中 32.81 MiB 是免费的。进程 25734 有 14.71 GiB 内存正在使用。在已分配的内存中，13.73 GiB 由 PyTorch 分配，75.96 MiB 由 PyTorch 保留但未分配。如果保留但未分配的内存很大，请尝试设置 max_split_size_mb 以避免碎片。请参阅内存管理和 PYTORCH_CUDA_ALLOC_CONF 的文档

这个怎么搞，Colab环境

顶端

B3F 2023-11-04 15:23

（当你凝视深渊时，深渊也在凝视你。）

全看 | | 小中大

回 27楼(Mni) 的帖子

TheBloke/CausalLM-14B-GPTQ

顶端

漫区特设

蜜柑计划

综合交流

人民囧府

发现一个很不错的大模型

此帖售价 0 SP币,已有 1604 人购买

此帖售价 0 SP币,已有 1604 人购买

回 25楼(Mni) 的帖子

回 27楼(Mni) 的帖子