如果视频中有人说话,会生成听不懂的语音。我尝试在提示词开头或结尾加入“Do not generate sound of voice."或"No sound of voice.",以及在负面提示词中加入"voice, sound of voice",都无法避免。 有什么办法能避免生成听不懂的语音呢?