Responsive image

2f8f17bd - 2023-10-31 03:05 [GF]
2023/11/13更新:
实测 llama.cpp-python 没问题,webui还没更新,所以依旧不能使用,我写了两个运行在kaggle和colab上的脚本,本地跑不了的可以试试看:
https://summer-plus.net/read.php?tid=2003973

2023/11/07更新:

对话问题已解决,text-generation-webview的Prompt Template已新增ChatML。
选择后set default,然后开启一个新对话即可

这个模型的vocab太大,老的llama.cpp加载时只能纯CPU,最近llama.cpp修好调用GPU,但webui使用的llama.cpp-python还没修复,所以目前似乎只能通过命令行使用。继续等待修复。目前一定要在tgwebui加载的话,请用gptq版本。

————————

先震撼一下。【但我不知道怎么跟它上下文对话,目前只能一问一答,有懂的老哥请不吝赐教】
此帖售价 0 SP币,已有 1604 人购买
若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!

这个模型叫CausalLM/14B

此帖售价 0 SP币,已有 1604 人购买
若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!


【继续求上下文对话方法】


困兽 - 2023-10-31 03:38 [B1F]
没玩过楼主这个,但是玩过claude,自己也写了不少模板- -你可以更详细的写一些具体的要求,比如设定一个角色,然后你是另一个角色,这样就能在的预设的框架下发展剧情了


ksmi - 2023-10-31 04:59 [B2F]
不错


2f8f17bd - 2023-10-31 10:45 [B3F]
我是从chatgpt bing claude一路玩过来的,现在是在实现模型自由


XP收集者 - 2023-10-31 13:26 [B4F]
搜不到这个模型啊,CasulLM


真红 - 2023-10-31 14:05 [B5F]
应该是CausalLM/14B吧


2f8f17bd - 2023-10-31 14:42 [B6F]
CausalLM/14B,我看错词了,下面有人替我纠正了


2f8f17bd - 2023-10-31 14:42 [B7F]
是的是的,感谢纠正


小强少爷 - 2023-11-01 17:35 [B8F]
14B的模型得要12G显存才能玩吧,楼主用的是什么显卡?


2f8f17bd - 2023-11-02 00:39 [B9F]
白嫖colab


好人李向阳 - 2023-11-02 04:49 [B10F]
跪求楼主出教程


XP收集者 - 2023-11-02 11:08 [B11F]
刚刚使用了一下,确实非常不错!楼主太棒了,发现了这么好的无审查支持中文的模型,还有其他的吗,谢谢楼主!
ps读取模型时需要关闭exllama


creix - 2023-11-03 07:49 [B12F]
试试


瓦尔基利 - 2023-11-03 08:18 [B13F]
抱脸被墙了。。。。自用的梯没法下这么大的东西。。。能不能网盘上发一下。。


rabbit-0585 - 2023-11-03 14:17 [B14F]
感谢分享!!


2f8f17bd - 2023-11-03 23:58 [B15F]
目前最强的话就CausalLM-14B,但是还可以看一下LocalNSFW/RWKV-Claude,这个模型用大家共享的Claude记录,融合成了7B模型,专注瑟瑟
因为RWKV对显存的消耗是线性的,比Transformer二次方的消耗更有连续对话的潜力,值得关注


2f8f17bd - 2023-11-04 00:07 [B16F]
  你能在本地跑,说明显卡很不错,稍微花点钱升级下梯子嘛
AI模型更新太快也太大了,我本地根本跑不动,都是在colab上运行的


Mni - 2023-11-04 00:39 [B17F]
huggingface上不是有很多大模型么 都可以试试。有34B的大模型 也有70B的模型 24GB显存就可以部署量化的34B模型了 速度还挺快的


2f8f17bd - 2023-11-04 01:08 [B18F]
Steam的数据,大部分人最多就12G
最重要的是,我只有1060 6G显卡  

你可以参考两个中文排行:
https://cevalbenchmark.com/static/leaderboard.html
https://opencompass.org.cn/leaderboard-llm

Qwen-14B算很拔尖了,一定要挑战显存的话,最近有个Yi-34B。其实ChatGLM3-6B反倒更有潜力,而不是向上追求规模。


Mni - 2023-11-04 08:51 [B19F]
我去试试 我是用云端跑的 我看的是这个排行榜
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
现在排行榜有好多啊 哪个比较权威些


瓦尔基利 - 2023-11-04 09:31 [B20F]
花了点工夫下下来了。。ex跑不起来,但用exhf可以跑。。
试了下效果是不错,主要是回复的内容比较丰富,但是时不时的会拒绝。
用这个之前我一直是用Nous-Hermes-13b-Chinese-plus-GPTQ和Chinese-plus-Pygmalion-13b-GPTQ这二个的,有兴趣的话你们也可以试用一下看看


Mni - 2023-11-04 09:54 [B21F]
可以试试用GGUF后缀的模型 这个模型支持用内存跑 就是速度慢些 我70B的模型就是这么跑的


2f8f17bd - 2023-11-04 12:42 [B22F]
我用过同系的Chinese-Wizard-Vicuna-13B-GPTQ,介绍里说底模是Wizard-Vicuna-13B-Uncensored-HF,但加了中文lora出现了一些的道德钢印
你试的那两个有这种副作用吗?


2f8f17bd - 2023-11-04 12:44 [B23F]
谢谢,我先用kaggle试一下


  - 2023-11-04 13:38 [B24F]
没有上下文是因为你只提出了问题,模型给出答案,使用模板就解决了,
另外怎样让ai段落说的完整一点hxd,每次回复继续是可以,但是太繁琐了!
有没有model页最佳配置 参考,跟你一样的ui


Mni - 2023-11-04 13:49 [B25F]
是不是ai回答老是被截断?更改模型输出设置就行 在webui的Parameters→Generation 把 max_new_tokens拉高就行


  - 2023-11-04 14:22 [B26F]
回溯(最近一次调用最后一次):

文件“/content/text- Generation-webui/modules/ui_model_menu.py”,第 206 行,位于 load_model_wrapper 中


shared.model, shared.tokenizer = load_model(shared.model_name, loader)
文件“/content/text- Generation-webui/modules/models.py”,第 84 行,位于 load_model 中


output = load_func_map[loader](model_name)
文件“/content/text- Generation-webui/modules/models.py”,第 356 行,在 ExLlamav2_HF_loader 中


return Exllamav2HF.from_pretrained(model_name)
文件“/content/text- Generation-webui/modules/exllamav2_hf.py”,第 156 行,from_pretrained


return Exllamav2HF(config)
文件“/content/text- Generation-webui/modules/exllamav2_hf.py”,第 43 行,在init中


self.ex_cache = ExLlamaV2Cache(self.ex_model)
文件“/usr/local/lib/python3.10/dist-packages/exllamav2/cache.py”,第 106 行,在init中


self.cached = Cache16Bit(model, self.batch_size, self.max_seq_len, num_key_value_heads, head_dim, num_hidden_layers, copy_from)
文件“/usr/local/lib/python3.10/dist-packages/exllamav2/cache.py”,第 35 行,在init中


p_key_states = torch.zeros(self.batch_size, self.max_seq_len, num_key_value_heads, head_dim, dtype = torch.float16, device = self.model.cache_map)

torch.cuda.OutOfMemoryError:CUDA 内存不足。尝试分配 70.00 MiB。GPU 0 的总容量为 14.75 GiB,其中 32.81 MiB 是免费的。进程 25734 有 14.71 GiB 内存正在使用。在已分配的内存中,13.73 GiB 由 PyTorch 分配,75.96 MiB 由 PyTorch 保留但未分配。如果保留但未分配的内存很大,请尝试设置 max_split_size_mb 以避免碎片。请参阅内存管理和 PYTORCH_CUDA_ALLOC_CONF 的文档


这个怎么搞,Colab环境


Mni - 2023-11-04 15:12 [B27F]
显存不够 你跑的什么模型


  - 2023-11-04 15:23 [B28F]
TheBloke/CausalLM-14B-GPTQ


Mni - 2023-11-04 15:50 [B29F]
你试试TheBloke/CausalLM-14B-GGUF模型 可以用内存跑 只要下载一个.gguf后缀的模型就行了 启动参数加个--n-gpu-layers 20 试试
model loader就是llama.cpp了 加载模型应该是自动选择的


爱次零食的人 - 2023-11-04 16:45 [B30F]
大佬,能帮我扫个盲吗?这些模型的后缀都是什么意思?






桌面版


Powered by SP Project v1.0 © 2010-2019
Time 0.002642 second(s),query:3 Gzip enabled


Top