• «
  • 1
  • 2
  • »
  • Pages: 1/2     Go

310419.jpg

澪夏

本地化识别同人音声日语字幕,导出音声字幕汉化教程,无需网络[仅限N卡]

#large识别模型已更新V2版本,比本帖提供的large模型准确率更高,修复识别bug,请自行寻找#

本教程针对不提供字幕文件、以及只提供台本的同人音声,无繁琐步骤,教你利用工具便捷导出音声字幕文件,导出来就是字幕格式,自带时间轴!有了字幕文件汉化的办法就非常多了,这个AI识别能力有多强?本人非日语掌握者,借助AI识别后的字幕能理解音声90%内容。

来自OpenAI公司开发的Introducing whisper,完全开源,利用N卡独家技术,AI识别导出字幕文件,汉化的几种方法后面介绍。只有N卡能用,核显独显都行,不是N卡不用下载了

项目地址:
WhisperDesktop:https://github.com/Const-me/Whisper

whisper可以利用语言模型简单的把视频、音频里的音轨导出为字幕文件,自动添加时间轴,导出来就能用,十分强大,并且支持识别多国语言,该软件需要用到GPU进行运算,所以显卡越强,识别速度越快。只需把语言模型文件下载到本地,即可无需联网无需上传文件,实现本地化语音识别,但是显卡占用率非常高,建议单开whisper使用

软件本体以及字幕模型文件,下载链接放在最后。接下来讲解软件怎么用。

选择要识别的音声时,尽量选择无效果音版本,杂音越少识别准确率越高


现在开始介绍用法
下载好软件和模型以后解压zip,运行WhisperDesktop.exe

第一步:
界面说明:


选择.bin模型文件,体积越大的模型识别准确率越高,运行速度也越慢,按需选择即可


Model Implementation--选择GPU,这个工具是用显卡来运算识别字幕的。

点OK下一步

第二步:
界面说明:


Transcribe File--选择你希望导出字幕的音频,


下面的框也√上


Output Format--可选多种字幕文件格式,推荐3和4


最后点击Transcribe开始识别字幕【此时,显卡功率会拉满,风扇狂转正常现象】

字幕导完了,看看成果



稍微提一下如何汉化音声文本
1、PotPlayer自带实时翻译:




2、搜狗翻译APP
超强免费文档翻译,对我来说相当够用



下载链接:(除了秒传别的链接带有另一款AI识别软件BUZZ,只下whisper desktop就行)
123云盘:https://www.123pan.com/s/RiyA-qSS03.html

夸克网盘:https://pan.quark.cn/s/6a7dc6288637
百度网盘:https://pan.baidu.com/s/1MXHevSF_RuUOOGk6AToX6w?pwd=hjhj提取码: hjhj

秒传:
引用

e026168491feaddce20a61a62586927b#418593#WhisperDesktop.zip
ab7280bbcf29e334f7e3b2a9ac0ca386#77691713#ggml-model-whisper-tiny.bin
e428ac3ab827de7b1a37328101eaf1ea#487601967#ggml-model-whisper-small.bin
84d6237ed581ac2ddbe616610f6de256#1533763059#ggml-model-whisper-medium.bin
94967a3307ecc7de1a497a43a2bd4103#3094623691#ggml-model-whisper-large.bin
335f34f382e396519b6359d32c786317#147951465#ggml-model-whisper-base.bin

1119738.jpg

0916537b

握草,真的NB。感谢大佬

none.gif

是小不点吖

我记得当时还有个buzz,都是OpenAI的项目,那个操作貌似更简单,有人试过嘛

FEWI


310419.jpg

澪夏

回 2楼(是小不点吖) 的帖子

BUZZ用法跟这个一样的,而且BUZZ用cpu跑,速度比whisper用显卡跑慢很多

1650088.jpg

BigBigWolf

这也太强了吧

616266.jpg

女体化太赞

B6F  2023-04-05 13:37
(长门号一声炮响,革命的水兵冲过了樱田门,占领了皇居,宣告了 ..)
可惜没字幕也没台本的音声了

none.gif

鱼鱼的鱼

B7F  2023-04-05 13:50
(vwxyz12300)
感谢分享,这很有用

9.png

海牙

请问楼主,这个效果音太多,水声太多会导出来乱码吗,我刚刚试了一下没有字幕呢

1425871.png

orangesoup

B9F  2023-04-05 14:51
(唔。。。NTR真的是太棒了。)
小笔记本跑的动这个吗

5ae8ec5994611850.jpg

变态老司机

B10F  2023-04-05 17:09
(解压码就是我头像昵称)
太强了,虽然翻译的不尽人意。但是整体是可以理解的,

310419.jpg

澪夏

回 8楼(海牙) 的帖子

识别字幕的时候当然是杂音越少越好,如果只是水声,直接用no se版本去跑识别就行了,一般音声都会分有效果音版本和无效果音版本

没有no se版本也没事,因为whisper只识别人声,水声啪啪声它会转换成“.......”,不影响字幕体验

none.gif

dark

B12F  2023-04-06 19:32
(backdark)
请问有没有免费的在线翻译文档的工具推荐
百度有免费额度已经用完了,搜狐翻译完下载需要VIP

none.gif

4fb6ffa4

翻译动作片有点看运气,运气好能翻译80%,不好的话大半部分都是一句话

none.gif

suxi

描述:1
图片:
为啥我的是这样

310419.jpg

澪夏

回 12楼(dark) 的帖子

用手机搜狗翻译APP

none.gif

2cec8389

试了一下,很强,但是那种一大堆的H效果音中间夹杂的几句话那种基本识别不出来

none.gif

2cec8389

换了最大那个模型,识别率一下子高了一大截。但是慢也是真的慢了

none.gif

2cec8389

回 15楼(澪夏) 的帖子

楼主没遇到长音频后面全部翻译成一句话的问题吗,没有的话请问如何避免

310419.jpg

澪夏

回 14楼(suxi) 的帖子

A卡不能用

1037684.jpg

Dough

B20F  2023-04-08 01:36
(noonee)
在有台本的情况下怎么把时间轴放入台本中呢,毕竟语音识别的字幕还是没有给的台本准确
现在有时间轴,有台本,怎么把他们两个结合在一起给我难住了

310419.jpg

澪夏

回 20楼(Dough) 的帖子

导出来的时间轴跟台本文字的位置是不对齐的,台本有巨量拟声词,看着乱的很

3.gif

论坛新手

B22F  2023-04-08 09:08
(New bee)
太牛了吧

none.gif

871153f6

我测试过了,结果出乎我的意料,最大的那个模型识别日语的准确度远超过微软的语音字幕,以及youtube的自动字幕。这就很离谱,而且速度比他们还快,艹,太TM离谱了

1411039.jpg

b305f25c

B24F  2023-04-28 23:56
(这下蝉)
卧槽,牛逼了

none.gif

a6875a5b

B25F  2023-04-29 00:00
(压力马瑟ne)
好好好

23271.jpg

苛政

B26F  2023-04-29 04:40
(学习退化的学生)

1690029.png

Wilberwoods

B27F  2023-04-29 18:37
(nothing here)
mark!!

310419.jpg

澪夏

识别AV,识别生肉视频,音频,都是可以的,看你怎么用了,我只介绍我自己用的方法

none.gif

63bdf991

回 楼主(澪夏) 的帖子

感谢大佬

9.png

鸡儿放假?

B30F  2023-05-02 23:00
(出来嗨呀出来嗨呀出来嗨呀。)
太牛了
  • «
  • 1
  • 2
  • »
  • Pages: 1/2     Go