发现一个很不错的大模型AI交流 (beta) 南+ South Plus

2f8f17bd - 2023-10-31 03:05 [GF]

2023/11/13更新：
实测 llama.cpp-python 没问题，webui还没更新，所以依旧不能使用，我写了两个运行在kaggle和colab上的脚本，本地跑不了的可以试试看：
https://summer-plus.net/read.php?tid=2003973

2023/11/07更新：

对话问题已解决，text-generation-webview的Prompt Template已新增ChatML。
选择后set default，然后开启一个新对话即可

这个模型的vocab太大，老的llama.cpp加载时只能纯CPU，最近llama.cpp修好调用GPU，但webui使用的llama.cpp-python还没修复，所以目前似乎只能通过命令行使用。继续等待修复。目前一定要在tgwebui加载的话，请用gptq版本。

————————

先震撼一下。~~【但我不知道怎么跟它上下文对话，目前只能一问一答，有懂的老哥请不吝赐教】~~

此帖售价 0 SP币,已有 1604 人购买

若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!

这个模型叫CausalLM/14B

此帖售价 0 SP币,已有 1604 人购买

若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!

【继续求上下文对话方法】

困兽 - 2023-10-31 03:38 [B1F]

没玩过楼主这个，但是玩过claude，自己也写了不少模板- -你可以更详细的写一些具体的要求，比如设定一个角色，然后你是另一个角色，这样就能在的预设的框架下发展剧情了

ksmi - 2023-10-31 04:59 [B2F]

不错

2f8f17bd - 2023-10-31 10:45 [B3F]

我是从chatgpt bing claude一路玩过来的，现在是在实现模型自由

XP收集者 - 2023-10-31 13:26 [B4F]

搜不到这个模型啊，CasulLM

真红 - 2023-10-31 14:05 [B5F]

应该是CausalLM/14B吧

2f8f17bd - 2023-10-31 14:42 [B6F]

CausalLM/14B，我看错词了，下面有人替我纠正了

2f8f17bd - 2023-10-31 14:42 [B7F]

是的是的，感谢纠正

小强少爷 - 2023-11-01 17:35 [B8F]

14B的模型得要12G显存才能玩吧，楼主用的是什么显卡？

2f8f17bd - 2023-11-02 00:39 [B9F]

白嫖colab

好人李向阳 - 2023-11-02 04:49 [B10F]

跪求楼主出教程

XP收集者 - 2023-11-02 11:08 [B11F]

刚刚使用了一下，确实非常不错！楼主太棒了，发现了这么好的无审查支持中文的模型，还有其他的吗，谢谢楼主！
ps读取模型时需要关闭exllama

creix - 2023-11-03 07:49 [B12F]

试试

瓦尔基利 - 2023-11-03 08:18 [B13F]

抱脸被墙了。。。。自用的梯没法下这么大的东西。。。能不能网盘上发一下。。

rabbit-0585 - 2023-11-03 14:17 [B14F]

感谢分享！！

2f8f17bd - 2023-11-03 23:58 [B15F]

目前最强的话就CausalLM-14B，但是还可以看一下LocalNSFW/RWKV-Claude，这个模型用大家共享的Claude记录，融合成了7B模型，专注瑟瑟
因为RWKV对显存的消耗是线性的，比Transformer二次方的消耗更有连续对话的潜力，值得关注

2f8f17bd - 2023-11-04 00:07 [B16F]

你能在本地跑，说明显卡很不错，稍微花点钱升级下梯子嘛
AI模型更新太快也太大了，我本地根本跑不动，都是在colab上运行的

Mni - 2023-11-04 00:39 [B17F]

huggingface上不是有很多大模型么都可以试试。有34B的大模型也有70B的模型

24GB显存就可以部署量化的34B模型了速度还挺快的

2f8f17bd - 2023-11-04 01:08 [B18F]

Steam的数据，大部分人最多就12G
最重要的是，我只有1060 6G显卡

你可以参考两个中文排行：
https://cevalbenchmark.com/static/leaderboard.html
https://opencompass.org.cn/leaderboard-llm

Qwen-14B算很拔尖了，一定要挑战显存的话，最近有个Yi-34B。其实ChatGLM3-6B反倒更有潜力，而不是向上追求规模。

Mni - 2023-11-04 08:51 [B19F]

我去试试我是用云端跑的我看的是这个排行榜
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
现在排行榜有好多啊哪个比较权威些

瓦尔基利 - 2023-11-04 09:31 [B20F]

花了点工夫下下来了。。ex跑不起来，但用exhf可以跑。。

试了下效果是不错，主要是回复的内容比较丰富，但是时不时的会拒绝。
用这个之前我一直是用Nous-Hermes-13b-Chinese-plus-GPTQ和Chinese-plus-Pygmalion-13b-GPTQ这二个的，有兴趣的话你们也可以试用一下看看

Mni - 2023-11-04 09:54 [B21F]

可以试试用GGUF后缀的模型这个模型支持用内存跑就是速度慢些我70B的模型就是这么跑的

2f8f17bd - 2023-11-04 12:42 [B22F]

我用过同系的Chinese-Wizard-Vicuna-13B-GPTQ，介绍里说底模是Wizard-Vicuna-13B-Uncensored-HF，但加了中文lora出现了一些的道德钢印
你试的那两个有这种副作用吗？

2f8f17bd - 2023-11-04 12:44 [B23F]

谢谢，我先用kaggle试一下

　 - 2023-11-04 13:38 [B24F]

没有上下文是因为你只提出了问题，模型给出答案，使用模板就解决了，
另外怎样让ai段落说的完整一点hxd，每次回复继续是可以，但是太繁琐了！
有没有model页最佳配置

参考，跟你一样的ui

Mni - 2023-11-04 13:49 [B25F]

是不是ai回答老是被截断？更改模型输出设置就行在webui的Parameters→Generation 把 max_new_tokens拉高就行

　 - 2023-11-04 14:22 [B26F]

回溯（最近一次调用最后一次）：

文件“/content/text- Generation-webui/modules/ui_model_menu.py”，第 206 行，位于 load_model_wrapper 中

shared.model, shared.tokenizer = load_model(shared.model_name, loader)
文件“/content/text- Generation-webui/modules/models.py”，第 84 行，位于 load_model 中

output = load_func_map[loader](model_name)
文件“/content/text- Generation-webui/modules/models.py”，第 356 行，在 ExLlamav2_HF_loader 中

return Exllamav2HF.from_pretrained(model_name)
文件“/content/text- Generation-webui/modules/exllamav2_hf.py”，第 156 行，from_pretrained

return Exllamav2HF(config)
文件“/content/text- Generation-webui/modules/exllamav2_hf.py”，第 43 行，在init中

self.ex_cache = ExLlamaV2Cache(self.ex_model)
文件“/usr/local/lib/python3.10/dist-packages/exllamav2/cache.py”，第 106 行，在init中

self.cached = Cache16Bit(model, self.batch_size, self.max_seq_len, num_key_value_heads, head_dim, num_hidden_layers, copy_from)
文件“/usr/local/lib/python3.10/dist-packages/exllamav2/cache.py”，第 35 行，在init中

p_key_states = torch.zeros(self.batch_size, self.max_seq_len, num_key_value_heads, head_dim, dtype = torch.float16, device = self.model.cache_map)

torch.cuda.OutOfMemoryError：CUDA 内存不足。尝试分配 70.00 MiB。GPU 0 的总容量为 14.75 GiB，其中 32.81 MiB 是免费的。进程 25734 有 14.71 GiB 内存正在使用。在已分配的内存中，13.73 GiB 由 PyTorch 分配，75.96 MiB 由 PyTorch 保留但未分配。如果保留但未分配的内存很大，请尝试设置 max_split_size_mb 以避免碎片。请参阅内存管理和 PYTORCH_CUDA_ALLOC_CONF 的文档

这个怎么搞，Colab环境

Mni - 2023-11-04 15:12 [B27F]

显存不够你跑的什么模型

　 - 2023-11-04 15:23 [B28F]

TheBloke/CausalLM-14B-GPTQ

Mni - 2023-11-04 15:50 [B29F]

你试试TheBloke/CausalLM-14B-GGUF模型可以用内存跑只要下载一个.gguf后缀的模型就行了启动参数加个--n-gpu-layers 20 试试
model loader就是llama.cpp了加载模型应该是自动选择的

爱次零食的人 - 2023-11-04 16:45 [B30F]

大佬，能帮我扫个盲吗？这些模型的后缀都是什么意思？

1
2
3

回复

桌面版

2f8f17bd - 2023-10-31 03:05 [GF]

此帖售价 0 SP币,已有 1604 人购买

此帖售价 0 SP币,已有 1604 人购买

困兽 - 2023-10-31 03:38 [B1F]

ksmi - 2023-10-31 04:59 [B2F]

2f8f17bd - 2023-10-31 10:45 [B3F]

XP收集者 - 2023-10-31 13:26 [B4F]

真红 - 2023-10-31 14:05 [B5F]

2f8f17bd - 2023-10-31 14:42 [B6F]

2f8f17bd - 2023-10-31 14:42 [B7F]

小强少爷 - 2023-11-01 17:35 [B8F]

2f8f17bd - 2023-11-02 00:39 [B9F]

好人李向阳 - 2023-11-02 04:49 [B10F]

XP收集者 - 2023-11-02 11:08 [B11F]

creix - 2023-11-03 07:49 [B12F]

瓦尔基利 - 2023-11-03 08:18 [B13F]

rabbit-0585 - 2023-11-03 14:17 [B14F]

2f8f17bd - 2023-11-03 23:58 [B15F]

2f8f17bd - 2023-11-04 00:07 [B16F]

Mni - 2023-11-04 00:39 [B17F]

2f8f17bd - 2023-11-04 01:08 [B18F]

Mni - 2023-11-04 08:51 [B19F]

瓦尔基利 - 2023-11-04 09:31 [B20F]

Mni - 2023-11-04 09:54 [B21F]

2f8f17bd - 2023-11-04 12:42 [B22F]

2f8f17bd - 2023-11-04 12:44 [B23F]

- 2023-11-04 13:38 [B24F]

Mni - 2023-11-04 13:49 [B25F]

- 2023-11-04 14:22 [B26F]

Mni - 2023-11-04 15:12 [B27F]

- 2023-11-04 15:23 [B28F]

Mni - 2023-11-04 15:50 [B29F]

爱次零食的人 - 2023-11-04 16:45 [B30F]