使用FFmpeg将VP9 Vaapi编码成.mp4或.webm容器,使用给定的官方FFmpeg示例。

6
我正在尝试实现vp9硬件加速编码。我按照ffmpeg官方github的示例(这里->vaapi_encode.c)进行操作。
但是该示例仅将.yuv文件保存为.h264文件,我想将帧保存到.mp4或.webm容器中,并具有控制质量等能力。
我不是从文件中读取帧,而是从实时源收集帧。当获得完整的5秒帧来自实时源,使用vp9_vaapi将这些帧编码成5秒.mp4文件。
我能够将所有来自实时源的5秒帧保存到.mp4或.webm文件中,但无法正确播放(更精确地说:加载缓慢,无法打开)。
官方网站示例的结果:

enter image description here

处理器编码的vp9 .mp4文件结果:

enter image description here

编辑: 结果 在此输入图片描述

1个回答

4

您需要直接使用FFmpeg,如果启用vp9_vaapi编码器中的B帧,则可以在同一条命令行中选择性地添加vp9_superframevp9_raw_reorder 比特流过滤器

示例:

ffmpeg -threads 4 -vaapi_device /dev/dri/renderD128 \
-hwaccel vaapi -hwaccel_output_format vaapi \
-i http://server:port \
-c:v vp9_vaapi -global_quality 50 -bf 1 \
-bsf:v vp9_raw_reorder,vp9_superframe \
-f segment -segment_time 5 -segment_format_options movflags=+faststart output%03d.mp4

请根据需要调整输入和输出路径/ URL。 此命令的作用: 它将通过片段复用器创建5秒长的mp4片段。 请参阅movflags=+faststart的用法,以及如何通过上面的-segment_format_options标志将其作为格式选项传递给底层mp4复用器。
由于每个片段都以关键帧开头(被切割),因此片段长度可能不完全为5秒。
然而,我不建议在该编码器中启用B帧,因为这些比特流过滤器会产生其他不良影响,比如与编码器的速率控制搞混触发这样的错误。这在生产环境中是不可取的。这就是为什么下面的脚本没有启用该选项,而是直接在编码器选项中定义了一组速率控制模式的原因。
如果您需要利用VAAPI的1:N编码功能,请使用以下代码片段:
1.如果您需要去交错,请调用deinterlace_vaapi过滤器:
    ffmpeg -loglevel debug -threads 4 \
    -init_hw_device vaapi=va:/dev/dri/renderD128 -hwaccel vaapi \
    -hwaccel_device va -filter_hw_device va \
    -hwaccel_output_format vaapi \
    -i 'http://server:port' \
    -filter_complex "[0:v]deinterlace_vaapi,split=3[n0][n1][n2]; \
    [n0]scale_vaapi=1152:648[v0]; \
    [n1]scale_vaapi=848:480[v1];
    [n2]scale_vaapi=640:360[v2]" \
    -b:v:0 2250k -maxrate:v:0 2250k -bufsize:v:0 360k -c:v:0 vp9_vaapi -g:v:0 50 -r:v:0 25 -rc_mode:v:0 2 \
    -b:v:1 1750k -maxrate:v:1 1750k -bufsize:v:1 280k -c:v:1 vp9_vaapi -g:v:1 50 -r:v:1 25 -rc_mode:v:1 2 \
    -b:v:2 1000k -maxrate:v:2 1000k -bufsize:v:2 160k -c:v:2 vp9_vaapi -g:v:2 50 -r:v:2 25 -rc_mode:v:2 2 \
    -c:a aac -b:a 128k -ar 48000 -ac 2 \
    -flags -global_header -f tee -use_fifo 1 \
    -map "[v0]" -map "[v1]" -map "[v2]" -map 0:a \
    "[select=\'v:0,a\':f=segment:segment_time=5:segment_format_options=movflags=+faststart]$output_path0/output%03d.mp4| \
     [select=\'v:1,a\':f=segment:segment_time=5:segment_format_options=movflags=+faststart]$output_path1/output%03d.mp4| \
     [select=\'v:2,a\':f=segment:segment_time=5:segment_format_options=movflags=+faststart]$output_path2/output%03d.mp4"
  1. 没有去交错:
    ffmpeg -loglevel debug -threads 4 \
    -init_hw_device vaapi=va:/dev/dri/renderD128 -hwaccel vaapi \
    -hwaccel_device va -filter_hw_device va -hwaccel_output_format vaapi \
    -i 'http://server:port' \
    -filter_complex "[0:v]split=3[n0][n1][n2]; \
    [n0]scale_vaapi=1152:648[v0]; \
    [n1]scale_vaapi=848:480[v1];
    [n2]scale_vaapi=640:360[v2]" \
    -b:v:0 2250k -maxrate:v:0 2250k -bufsize:v:0 2250k -c:v:0 vp9_vaapi -g:v:0 50 -r:v:0 25 -rc_mode:v:0 2  \
    -b:v:1 1750k -maxrate:v:1 1750k -bufsize:v:1 1750k -c:v:1 vp9_vaapi -g:v:1 50 -r:v:1 25 -rc_mode:v:1 2  \
    -b:v:2 1000k -maxrate:v:2 1000k -bufsize:v:2 1000k -c:v:2 vp9_vaapi -g:v:2 50 -r:v:2 25 -rc_mode:v:2 2  \
    -c:a aac -b:a 128k -ar 48000 -ac 2 \
    -flags -global_header -f tee -use_fifo 1 \
    -map "[v0]" -map "[v1]" -map "[v2]" -map 0:a \
    "[select=\'v:0,a\':f=segment:segment_time=5:segment_format_options=movflags=+faststart]$output_path0/output%03d.mp4| \
     [select=\'v:1,a\':f=segment:segment_time=5:segment_format_options=movflags=+faststart]$output_path1/output%03d.mp4| \
     [select=\'v:2,a\':f=segment:segment_time=5:segment_format_options=movflags=+faststart]$output_path2/output%03d.mp4"
  1. 使用英特尔的QuickSync(在支持的平台上):

在英特尔Icelake及以上版本中,您可以使用vp9_qsv编码器包装器,但存在以下已知限制(目前为止):

(a) 现在只有VDENC解码路径是由驱动程序公开的,因此必须启用low_power mode

(b) MSDK不支持编码选项1和extra_data。

(c) 默认情况下,MSDK将插入IVF头,但FFmpeg不需要它,并且默认情况下禁用。

请参阅以下示例:

  1. 如果需要去隔行扫描,请调用vpp_qsv过滤器:
    ffmpeg -nostdin -y -fflags +genpts \
    -init_hw_device vaapi=va:/dev/dri/renderD128,driver=iHD \
    -filter_hw_device va -hwaccel vaapi -hwaccel_output_format vaapi
    -threads 4 -vsync 1 -async 1 \
    -i 'http://server:port' \
    -filter_complex "[0:v]hwmap=derive_device=qsv,format=qsv,vpp_qsv=deinterlace=2:async_depth=4,split[n0][n1][n2]; \
    [n0]vpp_qsv=w=1152:h=648:async_depth=4[v0]; \
    [n1]vpp_qsv=w=848:h=480:async_depth=4[v1];
    [n2]vpp_qsv=w=640:h=360:async_depth=4[v2]" \
    -b:v:0 2250k -maxrate:v:0 2250k -bufsize:v:0 360k -c:v:0 vp9_qsv -g:v:0 50 -r:v:0 25 -low_power:v:0 2 \
    -b:v:1 1750k -maxrate:v:1 1750k -bufsize:v:1 280k -c:v:1 vp9_qsv -g:v:1 50 -r:v:1 25 -low_power:v:1 2 \
    -b:v:2 1000k -maxrate:v:2 1000k -bufsize:v:2 160k -c:v:2 vp9_qsv -g:v:2 50 -r:v:2 25 -low_power:v:2 2 \
    -c:a aac -b:a 128k -ar 48000 -ac 2 \
    -flags -global_header -f tee -use_fifo 1 \
    -map "[v0]" -map "[v1]" -map "[v2]" -map 0:a \
    "[select=\'v:0,a\':f=segment:segment_time=5:segment_format_options=movflags=+faststart]$output_path0/output%03d.mp4| \
     [select=\'v:1,a\':f=segment:segment_time=5:segment_format_options=movflags=+faststart]$output_path1/output%03d.mp4| \
     [select=\'v:2,a\':f=segment:segment_time=5:segment_format_options=movflags=+faststart]$output_path2/output%03d.mp4"
  1. 不进行去隔行:
    ffmpeg -nostdin -y -fflags +genpts \
    -init_hw_device vaapi=va:/dev/dri/renderD128,driver=iHD \
    -filter_hw_device va -hwaccel vaapi -hwaccel_output_format vaapi
    -threads 4 -vsync 1 -async 1 \
    -i 'http://server:port' \
    -filter_complex "[0:v]hwmap=derive_device=qsv,format=qsv,split=3[n0][n1][n2]; \
    [n0]vpp_qsv=w=1152:h=648:async_depth=4[v0]; \
    [n1]vpp_qsv=w=848:h=480:async_depth=4[v1];
    [n2]vpp_qsv=w=640:h=360:async_depth=4[v2]" \
    -b:v:0 2250k -maxrate:v:0 2250k -bufsize:v:0 2250k -c:v:0 vp9_qsv -g:v:0 50 -r:v:0 25 -low_power:v:0 2  \
    -b:v:1 1750k -maxrate:v:1 1750k -bufsize:v:1 1750k -c:v:1 vp9_qsv -g:v:1 50 -r:v:1 25 -low_power:v:1 2  \
    -b:v:2 1000k -maxrate:v:2 1000k -bufsize:v:2 1000k -c:v:2 vp9_qsv -g:v:2 50 -r:v:2 25 -low_power:v:2 2  \
    -c:a aac -b:a 128k -ar 48000 -ac 2 \
    -flags -global_header -f tee -use_fifo 1 \
    -map "[v0]" -map "[v1]" -map "[v2]" -map 0:a \
    "[select=\'v:0,a\':f=segment:segment_time=5:segment_format_options=movflags=+faststart]$output_path0/output%03d.mp4| \
     [select=\'v:1,a\':f=segment:segment_time=5:segment_format_options=movflags=+faststart]$output_path1/output%03d.mp4| \
     [select=\'v:2,a\':f=segment:segment_time=5:segment_format_options=movflags=+faststart]$output_path2/output%03d.mp4"

请注意,我们使用 vpp_qsv 过滤器,并将 async_depth 选项设置为 4。这大大提高了转码性能,而不是使用 scale_qsvdeinterlace_qsv。请参见 FFmpeg 的 git 上的 this commit
注意:如果您使用 QuickSync 路径,请注意,如果您的系统上的 Media SDK 库支持它,则默认情况下将启用 MFE(多帧编码模式)。
用于推导上面代码片段的公式:
Optimal bufsize:v = 目标比特率(-b:v 值)
将 GOP 大小设置为:2 * fps(GOP 间隔设置为 2 秒)。
我们通过 -threads:v 限制视频编码器的线程数,以防止 VBV 溢出。

使用的分辨率逐级降低:16:9 的 640p、480p 和 360p,详见this 链接。根据需要进行调整。

根据需要替换上述变量($output_path {0-2}、输入等)。

测试并反馈。

当前观察结果:

在我的系统上,使用Apple 推荐的 HEVC 编码 HLS 的分辨率和比特率 作为基准,我能够实时编码最多 5 个流 VP9。请参考下面关于系统负载等的图片。

system load and stats with 5 simultaneous VAAPI encodes in progress

平台细节:

我使用一台Coffee-lake系统,使用i965驱动程序进行此工作流程:

libva info: VA-API version 1.5.0
libva info: va_getDriverName() returns 0
libva info: User requested driver 'i965'
libva info: Trying to open /usr/lib/x86_64-linux-gnu/dri/i965_drv_video.so
libva info: Found init function __vaDriverInit_1_5
libva info: va_openDriver() returns 0
vainfo: VA-API version: 1.5 (libva 2.4.0.pre1)
vainfo: Driver version: Intel i965 driver for Intel(R) Coffee Lake - 2.4.0.pre1 (2.3.0-11-g881e67a)
vainfo: Supported profile and entrypoints
      VAProfileMPEG2Simple            : VAEntrypointVLD
      VAProfileMPEG2Simple            : VAEntrypointEncSlice
      VAProfileMPEG2Main              : VAEntrypointVLD
      VAProfileMPEG2Main              : VAEntrypointEncSlice
      VAProfileH264ConstrainedBaseline: VAEntrypointVLD
      VAProfileH264ConstrainedBaseline: VAEntrypointEncSlice
      VAProfileH264ConstrainedBaseline: VAEntrypointEncSliceLP
      VAProfileH264Main               : VAEntrypointVLD
      VAProfileH264Main               : VAEntrypointEncSlice
      VAProfileH264Main               : VAEntrypointEncSliceLP
      VAProfileH264High               : VAEntrypointVLD
      VAProfileH264High               : VAEntrypointEncSlice
      VAProfileH264High               : VAEntrypointEncSliceLP
      VAProfileH264MultiviewHigh      : VAEntrypointVLD
      VAProfileH264MultiviewHigh      : VAEntrypointEncSlice
      VAProfileH264StereoHigh         : VAEntrypointVLD
      VAProfileH264StereoHigh         : VAEntrypointEncSlice
      VAProfileVC1Simple              : VAEntrypointVLD
      VAProfileVC1Main                : VAEntrypointVLD
      VAProfileVC1Advanced            : VAEntrypointVLD
      VAProfileNone                   : VAEntrypointVideoProc
      VAProfileJPEGBaseline           : VAEntrypointVLD
      VAProfileJPEGBaseline           : VAEntrypointEncPicture
      VAProfileVP8Version0_3          : VAEntrypointVLD
      VAProfileVP8Version0_3          : VAEntrypointEncSlice
      VAProfileHEVCMain               : VAEntrypointVLD
      VAProfileHEVCMain               : VAEntrypointEncSlice
      VAProfileHEVCMain10             : VAEntrypointVLD
      VAProfileHEVCMain10             : VAEntrypointEncSlice
      VAProfileVP9Profile0            : VAEntrypointVLD
      VAProfileVP9Profile0            : VAEntrypointEncSlice
      VAProfileVP9Profile2            : VAEntrypointVLD

我的FFmpeg编译信息:

ffmpeg -buildconf
ffmpeg version N-93308-g1144d5c96d Copyright (c) 2000-2019 the FFmpeg developers
  built with gcc 7 (Ubuntu 7.3.0-27ubuntu1~18.04)
  configuration: --pkg-config-flags=--static --prefix=/home/brainiarc7/bin --bindir=/home/brainiarc7/bin --extra-cflags=-I/home/brainiarc7/bin/include --extra-ldflags=-L/home/brainiarc7/bin/lib --enable-cuda-nvcc --enable-cuvid --enable-libnpp --extra-cflags=-I/usr/local/cuda/include/ --extra-ldflags=-L/usr/local/cuda/lib64/ --enable-nvenc --extra-cflags=-I/opt/intel/mediasdk/include --extra-ldflags=-L/opt/intel/mediasdk/lib --extra-ldflags=-L/opt/intel/mediasdk/plugins --enable-libmfx --enable-libass --enable-vaapi --disable-debug --enable-libvorbis --enable-libvpx --enable-libdrm --enable-opencl --enable-gpl --cpu=native --enable-opengl --enable-libfdk-aac --enable-libx265 --enable-openssl --extra-libs='-lpthread -lm' --enable-nonfree
  libavutil      56. 26.100 / 56. 26.100
  libavcodec     58. 47.103 / 58. 47.103
  libavformat    58. 26.101 / 58. 26.101
  libavdevice    58.  6.101 / 58.  6.101
  libavfilter     7. 48.100 /  7. 48.100
  libswscale      5.  4.100 /  5.  4.100
  libswresample   3.  4.100 /  3.  4.100
  libpostproc    55.  4.100 / 55.  4.100

  configuration:
    --pkg-config-flags=--static
    --prefix=/home/brainiarc7/bin
    --bindir=/home/brainiarc7/bin
    --extra-cflags=-I/home/brainiarc7/bin/include
    --extra-ldflags=-L/home/brainiarc7/bin/lib
    --enable-cuda-nvcc
    --enable-cuvid
    --enable-libnpp
    --extra-cflags=-I/usr/local/cuda/include/
    --extra-ldflags=-L/usr/local/cuda/lib64/
    --enable-nvenc
    --extra-cflags=-I/opt/intel/mediasdk/include
    --extra-ldflags=-L/opt/intel/mediasdk/lib
    --extra-ldflags=-L/opt/intel/mediasdk/plugins
    --enable-libmfx
    --enable-libass
    --enable-vaapi
    --disable-debug
    --enable-libvorbis
    --enable-libvpx
    --enable-libdrm
    --enable-opencl
    --enable-gpl
    --cpu=native
    --enable-opengl
    --enable-libfdk-aac
    --enable-libx265
    --enable-openssl
    --extra-libs='-lpthread -lm'
    --enable-nonfree

从inxi输出:

inxi -F
System:    Host: cavaliere Kernel: 5.0.0 x86_64 bits: 64 Desktop: Gnome 3.28.3 Distro: Ubuntu 18.04.2 LTS
Machine:   Device: laptop System: ASUSTeK product: Zephyrus M GM501GS v: 1.0 serial: N/A
           Mobo: ASUSTeK model: GM501GS v: 1.0 serial: N/A
           UEFI: American Megatrends v: GM501GS.308 date: 10/01/2018
Battery    BAT0: charge: 49.3 Wh 100.0% condition: 49.3/55.0 Wh (90%)
CPU:       6 core Intel Core i7-8750H (-MT-MCP-) cache: 9216 KB
           clock speeds: max: 4100 MHz 1: 2594 MHz 2: 3197 MHz 3: 3633 MHz 4: 3514 MHz 5: 3582 MHz 6: 3338 MHz
           7: 3655 MHz 8: 3684 MHz 9: 1793 MHz 10: 3651 MHz 11: 3710 MHz 12: 3662 MHz
Graphics:  Card-1: Intel Device 3e9b
           Card-2: NVIDIA GP104M [GeForce GTX 1070 Mobile]
           Display Server: x11 (X.Org 1.19.6 ) drivers: modesetting,nvidia (unloaded: fbdev,vesa,nouveau)
           Resolution: 1920x1080@144.03hz
           OpenGL: renderer: GeForce GTX 1070/PCIe/SSE2 version: 4.6.0 NVIDIA 418.43
Audio:     Card-1 Intel Cannon Lake PCH cAVS driver: snd_hda_intel Sound: ALSA v: k5.0.0
           Card-2 NVIDIA GP104 High Definition Audio Controller driver: snd_hda_intel
           Card-3 Kingston driver: USB Audio
Network:   Card: Intel Wireless-AC 9560 [Jefferson Peak] driver: iwlwifi
           IF: wlo1 state: up mac: (redacted)
Drives:    HDD Total Size: 3050.6GB (94.5% used)
           ID-1: /dev/nvme0n1 model: Samsung_SSD_960_EVO_1TB size: 1000.2GB
           ID-2: /dev/sda model: Crucial_CT2050MX size: 2050.4GB
Partition: ID-1: / size: 246G used: 217G (94%) fs: ext4 dev: /dev/nvme0n1p5
           ID-2: swap-1 size: 8.59GB used: 0.00GB (0%) fs: swap dev: /dev/nvme0n1p6
RAID:      No RAID devices: /proc/mdstat, md_mod kernel module present
Sensors:   System Temperatures: cpu: 64.0C mobo: N/A gpu: 61C
           Fan Speeds (in rpm): cpu: N/A
Info:      Processes: 412 Uptime: 3:32 Memory: 4411.3/32015.5MB Client: Shell (bash) inxi: 2.3.56 

为什么要包含最后一部分:

我正在运行最新的Linux内核版本5.0。 同样适用于Ubuntu 18.04LTS上的图形驱动程序栈。 FFmpeg是按照此处链接所示构建的,因为这台笔记本电脑通过Optimus启用了NVIDIA+Intel GPU。这样,我可以根据需要使用VAAPI、QuickSync和NVENC hwaccels。即使我们的硬件相同,您的表现可能会有所不同

参考文献:

  1. 请参阅编码器选项,包括支持的速率控制方法:
ffmpeg -h encoder=vp9_vaapi
  1. 查看去隔行_vaapi过滤器的使用选项:
ffmpeg -h filter=deinterlace_vaapi
  1. 关于使用vpp_qsv过滤器,请参阅:
ffmpeg -h filter=vpp_qsv

例如,如果您想从去隔行器中获得场率输出而不是帧率输出,则可以将rate=field选项传递给它。
-vf=vaapi_deinterlace=rate=field

比如,此功能与支持MBAFF的编码器绑定。其他编码器(例如FFmpeg中基于NVENC的编码器)在撰写本文时尚未实现该功能(原文注释)

FFmpeg提高效率的提示:

尽可能参考内置文档,例如上面显示的示例。 这些文档可以揭示潜在的陷阱,通过了解过滤器链接和编码器初始化的工作原理、不支持的功能等对性能的影响,您可以避免一些问题。

例如,您会发现在上面的代码片段中,我们仅调用去交错器一次,然后通过split 过滤器将其输出分离到各个缩放器中。这么做是为了降低开销,如果我们多次调用去交错器,则会浪费资源。

警告:

请注意,SDK要求至少有2个线程以防止死锁,请参见this代码块。这就是为什么我们在ffmpeg中设置-threads 4的原因。

使用FFmpeg直接进行操作是个好消息。你的命令行可以处理.mp4格式的输入,你知道如何使用FFmpeg直接将实时流(IP摄像头)编码为每5秒一个5秒视频吗? - User800222
1
是的。但是要注意可能会出现GPU挂起的情况,特别是如果您使用的是较旧的Linux内核。我已经能够在Kabylake上编码高达8个H.264 / AVC流,并获得快于实时性能,请参见https://gist.github.com/Brainiarc7/4f831867f8e55d35cbcb527e15f9f116以获取示例。 - Dennis Mungai
1
据我所知,只有开源的VAAPI驱动程序(i965)支持VP9。为Media SDK打包的专有驱动程序(iHD)很可能不支持VP9编码。使用所选驱动程序运行vainfo并过滤Slice(vainfo | grep Slice)应该会显示支持的内容。让我生成一个带有请求功能的ffmpeg片段。 - Dennis Mungai
1
这取决于您如何调用ffmpeg以及系统上的软件堆栈。例如,旧内核的性能肯定比新内核差得多。 - Dennis Mungai
1
感谢这份信息更新,我一定会测试一下这两个内核之间的性能差异。毫无疑问,你是FFmpeg之神。 - User800222
显示剩余10条评论

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接