none.gif

2f8f17bd

GF  2023-10-31 03:05

发现一个很不错的大模型

2023/11/13更新:
实测 llama.cpp-python 没问题,webui还没更新,所以依旧不能使用,我写了两个运行在kaggle和colab上的脚本,本地跑不了的可以试试看:
https://summer-plus.net/read.php?tid=2003973

2023/11/07更新:

对话问题已解决,text-generation-webview的Prompt Template已新增ChatML。
选择后set default,然后开启一个新对话即可

这个模型的vocab太大,老的llama.cpp加载时只能纯CPU,最近llama.cpp修好调用GPU,但webui使用的llama.cpp-python还没修复,所以目前似乎只能通过命令行使用。继续等待修复。目前一定要在tgwebui加载的话,请用gptq版本。

————————

先震撼一下。【但我不知道怎么跟它上下文对话,目前只能一问一答,有懂的老哥请不吝赐教】
此帖售价 0 SP币,已有 1604 人购买
若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!

这个模型叫CausalLM/14B

此帖售价 0 SP币,已有 1604 人购买
若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!


【继续求上下文对话方法】

1235390.jpg

 

B1F  2023-11-04 13:38
(当你凝视深渊时,深渊也在凝视你。)
没有上下文是因为你只提出了问题,模型给出答案,使用模板就解决了,
另外怎样让ai段落说的完整一点hxd,每次回复继续是可以,但是太繁琐了!
有没有model页最佳配置 参考,跟你一样的ui

1235390.jpg

 

B2F  2023-11-04 14:22
(当你凝视深渊时,深渊也在凝视你。)

回 25楼(Mni) 的帖子

回溯(最近一次调用最后一次):

文件“/content/text- Generation-webui/modules/ui_model_menu.py”,第 206 行,位于 load_model_wrapper 中


shared.model, shared.tokenizer = load_model(shared.model_name, loader)
文件“/content/text- Generation-webui/modules/models.py”,第 84 行,位于 load_model 中


output = load_func_map[loader](model_name)
文件“/content/text- Generation-webui/modules/models.py”,第 356 行,在 ExLlamav2_HF_loader 中


return Exllamav2HF.from_pretrained(model_name)
文件“/content/text- Generation-webui/modules/exllamav2_hf.py”,第 156 行,from_pretrained


return Exllamav2HF(config)
文件“/content/text- Generation-webui/modules/exllamav2_hf.py”,第 43 行,在init中


self.ex_cache = ExLlamaV2Cache(self.ex_model)
文件“/usr/local/lib/python3.10/dist-packages/exllamav2/cache.py”,第 106 行,在init中


self.cached = Cache16Bit(model, self.batch_size, self.max_seq_len, num_key_value_heads, head_dim, num_hidden_layers, copy_from)
文件“/usr/local/lib/python3.10/dist-packages/exllamav2/cache.py”,第 35 行,在init中


p_key_states = torch.zeros(self.batch_size, self.max_seq_len, num_key_value_heads, head_dim, dtype = torch.float16, device = self.model.cache_map)

torch.cuda.OutOfMemoryError:CUDA 内存不足。尝试分配 70.00 MiB。GPU 0 的总容量为 14.75 GiB,其中 32.81 MiB 是免费的。进程 25734 有 14.71 GiB 内存正在使用。在已分配的内存中,13.73 GiB 由 PyTorch 分配,75.96 MiB 由 PyTorch 保留但未分配。如果保留但未分配的内存很大,请尝试设置 max_split_size_mb 以避免碎片。请参阅内存管理和 PYTORCH_CUDA_ALLOC_CONF 的文档


这个怎么搞,Colab环境

1235390.jpg

 

B3F  2023-11-04 15:23
(当你凝视深渊时,深渊也在凝视你。)

回 27楼(Mni) 的帖子

TheBloke/CausalLM-14B-GPTQ