• «
  • 1
  • 2
  • 3
  • »
  • Pages: 1/3     Go

none.gif

2f8f17bd

发现一个很不错的大模型

2023/11/13更新:
实测 llama.cpp-python 没问题,webui还没更新,所以依旧不能使用,我写了两个运行在kaggle和colab上的脚本,本地跑不了的可以试试看:
https://summer-plus.net/read.php?tid=2003973

2023/11/07更新:

对话问题已解决,text-generation-webview的Prompt Template已新增ChatML。
选择后set default,然后开启一个新对话即可

这个模型的vocab太大,老的llama.cpp加载时只能纯CPU,最近llama.cpp修好调用GPU,但webui使用的llama.cpp-python还没修复,所以目前似乎只能通过命令行使用。继续等待修复。目前一定要在tgwebui加载的话,请用gptq版本。

————————

先震撼一下。【但我不知道怎么跟它上下文对话,目前只能一问一答,有懂的老哥请不吝赐教】
此帖售价 0 SP币,已有 1602 人购买
若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!

这个模型叫CausalLM/14B

此帖售价 0 SP币,已有 1602 人购买
若发现会员采用欺骗的方法获取财富,请立刻举报,我们会对会员处以2-N倍的罚金,严重者封掉ID!


【继续求上下文对话方法】

826658.png

困兽

B1F  2023-10-31 03:38
(目之所及的星辰比大海边茫茫无尽的沙粒还要多。)
没玩过楼主这个,但是玩过claude,自己也写了不少模板- -你可以更详细的写一些具体的要求,比如设定一个角色,然后你是另一个角色,这样就能在的预设的框架下发展剧情了

692767.jpg

ksmi

不错

none.gif

2f8f17bd

回 1楼(困兽) 的帖子

我是从chatgpt bing claude一路玩过来的,现在是在实现模型自由

1880443.jpg

XP收集者

搜不到这个模型啊,CasulLM

none.gif

真红

应该是CausalLM/14B吧

none.gif

2f8f17bd

回 4楼(9ca0bae0) 的帖子

CausalLM/14B,我看错词了,下面有人替我纠正了

none.gif

2f8f17bd

回 5楼(真红) 的帖子

是的是的,感谢纠正

none.gif

小强少爷

14B的模型得要12G显存才能玩吧,楼主用的是什么显卡?

none.gif

2f8f17bd

回 8楼(小强少爷) 的帖子

白嫖colab

none.gif

好人李向阳

跪求楼主出教程

1880443.jpg

XP收集者

刚刚使用了一下,确实非常不错!楼主太棒了,发现了这么好的无审查支持中文的模型,还有其他的吗,谢谢楼主!
ps读取模型时需要关闭exllama

none.gif

creix

试试

a3.gif

瓦尔基利

抱脸被墙了。。。。自用的梯没法下这么大的东西。。。能不能网盘上发一下。。

139183.png

rabbit-0585

B14F  2023-11-03 14:17
(蘑蘑姑姑大大大)
感谢分享!!

none.gif

2f8f17bd

回 11楼(9ca0bae0) 的帖子

目前最强的话就CausalLM-14B,但是还可以看一下LocalNSFW/RWKV-Claude,这个模型用大家共享的Claude记录,融合成了7B模型,专注瑟瑟
因为RWKV对显存的消耗是线性的,比Transformer二次方的消耗更有连续对话的潜力,值得关注

none.gif

2f8f17bd

回 13楼(瓦尔基利) 的帖子

  你能在本地跑,说明显卡很不错,稍微花点钱升级下梯子嘛
AI模型更新太快也太大了,我本地根本跑不动,都是在colab上运行的

none.gif

Mni

B17F  2023-11-04 00:39
(快乐炼丹人)

回 15楼(2f8f17bd) 的帖子

huggingface上不是有很多大模型么 都可以试试。有34B的大模型 也有70B的模型 24GB显存就可以部署量化的34B模型了 速度还挺快的

none.gif

2f8f17bd

回 17楼(Mni) 的帖子

Steam的数据,大部分人最多就12G
最重要的是,我只有1060 6G显卡  

你可以参考两个中文排行:
https://cevalbenchmark.com/static/leaderboard.html
https://opencompass.org.cn/leaderboard-llm

Qwen-14B算很拔尖了,一定要挑战显存的话,最近有个Yi-34B。其实ChatGLM3-6B反倒更有潜力,而不是向上追求规模。

none.gif

Mni

B19F  2023-11-04 08:51
(快乐炼丹人)

回 18楼(2f8f17bd) 的帖子

我去试试 我是用云端跑的 我看的是这个排行榜
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
现在排行榜有好多啊 哪个比较权威些

a3.gif

瓦尔基利

花了点工夫下下来了。。ex跑不起来,但用exhf可以跑。。
试了下效果是不错,主要是回复的内容比较丰富,但是时不时的会拒绝。
用这个之前我一直是用Nous-Hermes-13b-Chinese-plus-GPTQ和Chinese-plus-Pygmalion-13b-GPTQ这二个的,有兴趣的话你们也可以试用一下看看

none.gif

Mni

B21F  2023-11-04 09:54
(快乐炼丹人)
可以试试用GGUF后缀的模型 这个模型支持用内存跑 就是速度慢些 我70B的模型就是这么跑的

none.gif

2f8f17bd

回 20楼(瓦尔基利) 的帖子

我用过同系的Chinese-Wizard-Vicuna-13B-GPTQ,介绍里说底模是Wizard-Vicuna-13B-Uncensored-HF,但加了中文lora出现了一些的道德钢印
你试的那两个有这种副作用吗?

none.gif

2f8f17bd

回 21楼(Mni) 的帖子

谢谢,我先用kaggle试一下

1235390.jpg

 

B24F  2023-11-04 13:38
(当你凝视深渊时,深渊也在凝视你。)
没有上下文是因为你只提出了问题,模型给出答案,使用模板就解决了,
另外怎样让ai段落说的完整一点hxd,每次回复继续是可以,但是太繁琐了!
有没有model页最佳配置 参考,跟你一样的ui

none.gif

Mni

B25F  2023-11-04 13:49
(快乐炼丹人)

回 24楼( ) 的帖子

是不是ai回答老是被截断?更改模型输出设置就行 在webui的Parameters→Generation 把 max_new_tokens拉高就行

1235390.jpg

 

B26F  2023-11-04 14:22
(当你凝视深渊时,深渊也在凝视你。)

回 25楼(Mni) 的帖子

回溯(最近一次调用最后一次):

文件“/content/text- Generation-webui/modules/ui_model_menu.py”,第 206 行,位于 load_model_wrapper 中


shared.model, shared.tokenizer = load_model(shared.model_name, loader)
文件“/content/text- Generation-webui/modules/models.py”,第 84 行,位于 load_model 中


output = load_func_map[loader](model_name)
文件“/content/text- Generation-webui/modules/models.py”,第 356 行,在 ExLlamav2_HF_loader 中


return Exllamav2HF.from_pretrained(model_name)
文件“/content/text- Generation-webui/modules/exllamav2_hf.py”,第 156 行,from_pretrained


return Exllamav2HF(config)
文件“/content/text- Generation-webui/modules/exllamav2_hf.py”,第 43 行,在init中


self.ex_cache = ExLlamaV2Cache(self.ex_model)
文件“/usr/local/lib/python3.10/dist-packages/exllamav2/cache.py”,第 106 行,在init中


self.cached = Cache16Bit(model, self.batch_size, self.max_seq_len, num_key_value_heads, head_dim, num_hidden_layers, copy_from)
文件“/usr/local/lib/python3.10/dist-packages/exllamav2/cache.py”,第 35 行,在init中


p_key_states = torch.zeros(self.batch_size, self.max_seq_len, num_key_value_heads, head_dim, dtype = torch.float16, device = self.model.cache_map)

torch.cuda.OutOfMemoryError:CUDA 内存不足。尝试分配 70.00 MiB。GPU 0 的总容量为 14.75 GiB,其中 32.81 MiB 是免费的。进程 25734 有 14.71 GiB 内存正在使用。在已分配的内存中,13.73 GiB 由 PyTorch 分配,75.96 MiB 由 PyTorch 保留但未分配。如果保留但未分配的内存很大,请尝试设置 max_split_size_mb 以避免碎片。请参阅内存管理和 PYTORCH_CUDA_ALLOC_CONF 的文档


这个怎么搞,Colab环境

none.gif

Mni

B27F  2023-11-04 15:12
(快乐炼丹人)

回 26楼( ) 的帖子

显存不够 你跑的什么模型

1235390.jpg

 

B28F  2023-11-04 15:23
(当你凝视深渊时,深渊也在凝视你。)

回 27楼(Mni) 的帖子

TheBloke/CausalLM-14B-GPTQ

none.gif

Mni

B29F  2023-11-04 15:50
(快乐炼丹人)

回 28楼( ) 的帖子

你试试TheBloke/CausalLM-14B-GGUF模型 可以用内存跑 只要下载一个.gguf后缀的模型就行了 启动参数加个--n-gpu-layers 20 试试
model loader就是llama.cpp了 加载模型应该是自动选择的

3.gif

爱次零食的人

B30F  2023-11-04 16:45
(XXX)

回 29楼(Mni) 的帖子

大佬,能帮我扫个盲吗?这些模型的后缀都是什么意思?
  • «
  • 1
  • 2
  • 3
  • »
  • Pages: 1/3     Go