RuntimeError: Expected tensor for argument #1 'indices' to have one of the follo wing scalar types: Long, Int; but got torch.cuda.DoubleTensor instead (while che cking arguments for embedding) 0%|| 0/2 [00:00<?, ?it/s] 0%|| 0/2 [00:00<?, ?it/s] rtf_avg_per_sample: 0.041, time_speech_total_per_sample: 3.890, time_escape_to 20%|███████▉ | 977/4766 [04:40<18:07, 3.49it/s] 语音识别失败 预处理失败 这里是不是提到了传入类型错误。我听完素材没感觉有哪部分很奇怪的。而且这个也没法定位到素材的哪个片段识别错误
上面是在语音识别阶段报错,提供的错误信息不够。还要看看上面的是否有报错。
你首先检查 音频里面是否有杂声或者多人声音导致无法语音识别。或者 重启软件再试。有时候连不上网
先使用分离人声和背景音后再处理仍然会这样。听着处理完的感觉很清晰没问题但是就是预处理不出来
会不会是vits的文件包就有缺失
上面在语音识别的时候其他到没有什么报错。看来现在的问题应该是 识别到某一段 声音的时候。没有识别出来导致报错。 要么你换一个音频试试。或者仔细听一下音频的内容。看是否有奇怪的地方
RuntimeError: Expected tensor for argument #1 'indices' to have one of the follo
wing scalar types: Long, Int; but got torch.cuda.DoubleTensor instead (while che
cking arguments for embedding)
0%|| 0/2 [00:00<?, ?it/s]
0%|| 0/2 [00:00<?, ?it/s]
rtf_avg_per_sample: 0.041, time_speech_total_per_sample: 3.890, time_escape_to
20%|███████▉ | 977/4766 [04:40<18:07, 3.49it/s]
语音识别失败
预处理失败
这里是不是提到了传入类型错误。我听完素材没感觉有哪部分很奇怪的。而且这个也没法定位到素材的哪个片段识别错误
你加我qq。我给你看看
- 1
前往