FFmpeg 中的样本精确音频切割?

5

我需要将一个.wav格式的音频文件切割成10秒的块。

这些块需要严格为10秒,而不是10.04799988232秒。

目前我正在使用的代码如下:

ffmpeg -i test.wav -ss 0 -to 10 -c:a libfdk_aac -b:a 80k aac/test.aac

ffmpeg version 3.2.2 Copyright (c) 2000-2016 the FFmpeg developers
  built with Apple LLVM version 8.0.0 (clang-800.0.42.1)
  configuration: --prefix=/usr/local/Cellar/ffmpeg/3.2.2 --enable-shared --enable-pthreads --enable-gpl --enable-version3 --enable-hardcoded-tables --enable-avresample --cc=clang --host-cflags= --host-ldflags= --enable-ffplay --enable-libass --enable-libfdk-aac --enable-libfreetype --enable-libmp3lame --enable-libopus --enable-libvorbis --enable-libvpx --enable-libx264 --enable-libx265 --enable-libxvid --enable-opencl --disable-lzma --enable-nonfree --enable-vda
  libavutil      55. 34.100 / 55. 34.100
  libavcodec     57. 64.101 / 57. 64.101
  libavformat    57. 56.100 / 57. 56.100
  libavdevice    57.  1.100 / 57.  1.100
  libavfilter     6. 65.100 /  6. 65.100
  libavresample   3.  1.  0 /  3.  1.  0
  libswscale      4.  2.100 /  4.  2.100
  libswresample   2.  3.100 /  2.  3.100
  libpostproc    54.  1.100 / 54.  1.100
Guessed Channel Layout for Input Stream #0.0 : stereo
Input #0, wav, from '/Users/chris/Repos/mithc/client/assets/audio/wav/test.wav':
  Duration: 00:04:37.62, bitrate: 2307 kb/s
    Stream #0:0: Audio: pcm_s24le ([1][0][0][0] / 0x0001), 48000 Hz, stereo, s32 (24 bit), 2304 kb/s
Output #0, adts, to '/Users/chris/Repos/mithc/client/assets/audio/aac/test.aac':
  Metadata:
    encoder         : Lavf57.56.100
    Stream #0:0: Audio: aac (libfdk_aac), 48000 Hz, stereo, s16, 80 kb/s
    Metadata:
      encoder         : Lavc57.64.101 libfdk_aac
Stream mapping:
  Stream #0:0 -> #0:0 (pcm_s24le (native) -> aac (libfdk_aac))
Press [q] to stop, [?] for help
size=     148kB time=00:00:15.01 bitrate=  80.6kbits/s speed=40.9x    
video:0kB audio:148kB subtitle:0kB other streams:0kB global headers:0kB muxing overhead: 0.000000%

这段代码无法精确地切割,有什么办法可以实现吗?


命令:ffmpeg -i test.wav -ss 0 -to 10 -c:a libfdk_aac -b:a 80k aac/test.aac输出: http://pastebin.com/nYeh2Xar还应该提到,我正在切割一系列文件,以便使用Web音频API按顺序播放,因此避免弹出噪声非常关键。 - Chris Coniglio
1个回答

6

不可能*。AAC音频存储在解码为1024个样本的帧中。因此,对于48000 Hz的输入,每个帧的持续时间为0.02133秒。

如果您将音频存储在像M4A这样指示每个数据包持续时间的容器中,则最后一帧的持续时间会调整以满足指定的t/ss-to。但是,最后一帧仍然包含完整的1024个样本。请参见下面的读出,其中包含在M4A中指定为10秒的静音流的最后3帧。比较数据包大小和持续时间。

stream #0:
  keyframe=1
  duration=0.021
  dts=9.941  pts=9.941
  size=213
stream #0:
  keyframe=1
  duration=0.021
  dts=9.963  pts=9.963
  size=213
stream #0:
  keyframe=1
  duration=0.016
  dts=9.984  pts=9.984
  size=214

如果这个流最初是存储在.aac中,总时长将不会是10.00秒。现在M4A是否适合您取决于您的播放器。
*有一种AAC变体解码为960个样本。因此,48 kHz音频可以编码为恰好10秒的流。FFmpeg没有这样的AAC编码器。据我所知,包括itunes在内的许多应用程序无法正确播放这样的文件。如果您想要编码到这个规格,请使用https://github.com/Opendigitalradio/ODR-AudioEnc提供的编码器。

你是怎么从采样率中获取帧时长的?如果我将1秒除以48000,我得不到0.2133。 - v010dya
1
样本被分组成帧,每个AAC帧有1024个样本。 - Gyan
啊哈,所以1 / 帧速率 * 1024。然后我确实得到了0.0213(3),就像你说的一样。谢谢。 - v010dya

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接