1.视频和视频帧:Intel GPU(核显)的视频视频编解码故事
2.FFmpeg详细安装步骤和使用笔记
3.FFmpeg编解码处理-转码全流程简介
4.FFmpeg 解码 API 以及在解码过程中存在的丢帧问题
5.音视频开源项目ZLMediaKit 的安装及使用介绍
6.如何使用MediaCoder无损转换格式
视频和视频帧:Intel GPU(核显)的编解码故事
一般提及基于“显卡或多媒体处理芯片对视频进行解码”为硬解码,本文将探讨如何利用Intel的转码转码核显,即集成GPU实现硬解码。系统提及QSV,源码全称为Quick Sync Video,技术Intel在年发布Sandy Bridge CPU时,视频视频源码社区源码最新版一同推出了这项基于核显进行多媒体处理,转码转码包括视频编解码的系统技术。集成核显,源码官方称HD Graphics,技术最早在Sandy Bridge前一代制程已推出,视频视频但性能提升及充分发挥在Sandy Bridge时期。转码转码Haswell及后续制程发布更高级的系统Iris架构。最近Intel宣布将开发独立显卡,源码核显发展具体走向未知。技术
接手QSV项目时,预期会有很多相关资料,实则相反。因此,将记录自己学习过程。
本文将介绍:
I. Intel的核显(集成GPU):
了解核显很有必要,几个月前,作者对CPU的认识还停留在“南北桥”架构。以下内容若有不准确之处,欢迎指正。
查看Gen CPU结构图,首先看CPU核心部分。在整块CPU芯片中,核显占比不小,算力不容小觑。在没有独立显卡的笔记本上,可以运行大量大型游戏,虽偶有卡顿、掉帧情况,整体表现已相对不错。
接下来,看官方给出的GPU内部结构图。GPU内部远比图上所示复杂,图中介绍的仅为部分Subslice芯片结构。GPU分为Slice部分和Un-Slice部分,Slice部分已介绍,接下来介绍Un-Slice部分。
作者找到了一张图,展示了在MFF上进行视频处理的流程:1) 首先在MFX/VDBOX模块上进行编解码;2) 接着送到VQE/VEBOX上做图像增强和矫正处理;3) 然后送到SFC上做scale和transcode;4) 最后送出到显示屏上展示。是大力金刚指 源码否完全正确,作者这里做个记录。
推荐知乎文章《转》Intel Gen8/Gen9核芯显卡微架构详细剖析,深入浅出,关于thread dispatch的说明即出自该文。
最后,总结Intel集成GPU/核显结构图。
注意,这是skylake架构下的GT2/GT3/GT4 GPU结构图,X数字越大,集成的Slice和Unslice芯片更多,能力越强,价格也更高。
II. Quick Sync Video(QSV)技术:
QSV是Intel推出的将视频处理任务直接送到GPU上进行专门负责视频处理的硬件模块处理的软件技术。与CPU或通用GPU上的视频编码不同,QSV是处理器芯片上的专用硬件核心,这使得视频处理更为高效。
要了解QSV如何驱动GPU的MFF,首先看官方Intel® Video and Audio for Linux上的图。在介绍QSV之前,提及Intel在FFmpeg上提供的插件,包括ffmpeg-qsv、ffmpeg-vaapi和ffmpeg-ocl。详细描述如下:
· FFmpeg-vaapi提供基于低级VAAPI接口的硬件加速,在VA API标准下在Intel GPU上执行高性能视频编解码器、视频处理和转码功能。
· FFmpeg-qsv提供基于Intel GPU的硬件加速,基于Intel Media SDK提供高性能视频编解码器、视频处理和转码功能。
· FFmpeg-ocl提供基于工业标准OpenCL在CPU/GPU上的硬件加速,主要用于加速视频处理过滤器。
接下来,介绍QSV在ffmpeg2.8及以上版本的支持,经过MSDK、LibVA、UMD和LibDRM。分层进行分析:
· MSDK:Intel的媒体开发库,支持多种图形平台,实现通用功能,可用于数字视频的预处理、编解码和不同编码格式的转换。源码地址为Intel® Media SDK,在Linux平台上编译使用。
· VA-API:Video Acceleration API,提供类unix平台的源代码与源码视频硬件加速开源库和标准。Intel源码地址在Intel-vaapi-driver Project,在Linux平台上使用。
· UMD:User Mode Driver的缩写,指VA-API Driver。Intel提供了两个工具:intel-vaapi-driver 和 intel-media-driver,推荐使用后者。
· LibDRM:Direct Rendering Manager,解决多个程序协同使用Video Card资源问题,提供一组API访问GPU。与VA-API,LibDRM是一套通用的Linux/Unix解决方案。
· Linux Kernel:Intel的Kernel是i driver,描述了libDRM和Kernel Driver之间的关系。
至此,整个关系图较为清晰。
III. FFMPEG+QSV解码:
QSV硬解的任务主要包括:
关于3-4步操作的详细实现,底层库会帮助完成。但作为一个优秀的工程师,研究FFMPEG源码依然十分重要。接下来,介绍如何使用FFmpeg API中的h_qsv解码器插件。
提及FFmpeg命令行使用方法,推荐阅读官方资料《QuickSync》或《Intel_FFmpeg_plugins》。
关于示例代码,作者曾遇到许多坑,总结为:多数中文博客不可靠,官方demo最可信。官方代码提供了两份可用:qsvdec.c和hw_decode.c。作者最早使用的是第一段代码,核心部分如下:
然而,这段代码存在问题。测试发现,对于赛扬系列一款CPU,在p视频上MSDK达到fps,理论上h_qsv平台上限也应为fps,但实际测试不到fps。排查后发现是av_hwframe_transfer_data()性能较弱。
最终,与Intel一起解决了性能问题。那么,性能提升方案为何是GPU-COPY技术做Memory-Mapping?
解释GPU和CPU渲染图像的过程,包括坐标系转化、纹理叠加等,仅需了解两点:
后者的python sum函数源码数据组织方式能充分利用GPU的并行特性,加速图像处理、渲染。尽管存在一些纹理叠加的技术难题,但性能提升足以补偿。
接下来,解释Memory-Mapping:从Intel CPU架构图中可见,GPU和CPU位于同一芯片上,各自寄存器/缓存区有限,视频数据主要存储在内存上。GPU和CPU的数据组织方式不同,同一帧数据存于内存同一位置,数据格式不同,因此需要做Memory-Mapping。Memory-Mapping相较于Memory-Copy,减少了数据从内存区域A移动到区域B的操作,已经是优化。进一步优化:GPU完成Memory-Mapping以及数据从GPU到内存和CPU的操作。
在av_hwframe_transfer_data()内部,Memory-Mapping由CPU完成,性能受限于CPU,只能并行。修改后,整体性能从不到fps提升至fps,虽然与理想fps仍有差距,但满足性能需求。
据悉,Intel将在FFmpeg 4.3开源出这个解决方案。
写在后面:
了解GPU底层对应用开发人员帮助不大,毕竟了解芯片布线的重新设计、制程工艺提升、GPU-COPY技术的数据I/O提升等,也不能做什么。最终,芯片架构是芯片工程师的事,底层逻辑实现是嵌入式工程师的事。应用开发人员无法做出实质贡献,但作为知识库扩充或休闲阅读,了解也无妨。
希望有机会接触CUDA的编解码,深入学习N卡设计。
感谢因《视频和帧》系列文章结识的朋友,热心指出文章描述不准确的地方。文中如有不严谨之处,欢迎指正。ffmpeg源码调试 vs
FFmpeg详细安装步骤和使用笔记
FFmpeg安装步骤与使用指南
FFmpeg是一款强大的多媒体处理工具,它支持音频、视频、流媒体和图像的跨平台操作,功能涵盖解码、编码、转换、流处理等,适用于多种格式,如MP4、AVI、MKV、MP3等,就像一个多功能的多媒体工具箱。安装版本
FFmpeg提供了GPL许可证和GPL Shared两种版本,GPL适用于要求源代码公开的应用,而GPL Shared则允许以库形式嵌入到专有软件中,无需公开源代码。Windows安装
下载解压到D:\Software\ffmpeg-master-latest-win-gpl
找到bin目录中的ffmpeg、ffplay和ffprobe工具
添加ffmpeg到系统环境变量的path中
验证安装,通过cmd输入ffmpeg -version
Linux安装
在Debian/Ubuntu、Fedora、CentOS和openSUSE等系统中,FFmpeg安装步骤有所不同
使用功能
-
转码视频和音频格式
-
剪切、合并视频
-
查看解码器和编码器列表
-
控制比特率以影响文件大小、质量与传输带宽
硬件加速
利用NVIDIA CUDA、AMD AMF或Intel Quick Sync Video等加速功能提升转码效率常见编码格式对比
H./AVC:普及广泛,兼容性佳
H./HEVC:高效编码,适合高清视频
VP9和AV1:新兴格式,可能需要特定设备支持
其他格式如MPEG-2、MPEG-4等也有适用场景
FFmpeg编解码处理-转码全流程简介
本文基于 FFmpeg 4.1 版本,对转码全流程进行简要介绍。转码过程主要分为输入、输出、转码、播放四大环节,其中转码功能占据较大比重。转码的核心在于解码和编码两部分,尽管在实际示例程序中,编码、解码与输入、输出难以完全分割。具体流程如下:
1. **解复用**:从输入文件中读取编码帧,判断流类型,并将编码帧送入对应的解码器(视频或音频)。
2. **解码**:将编码帧解码,生成原始帧。
3. **滤镜**:FFmpeg 提供多种滤镜,用于处理原始帧数据。本例中使用空滤镜,以确保视频流输出的像素格式转换为编码器支持的格式,音频流输出的声道布局同样转换为编码器支持的布局。这一步为编码操作做好准备。
4. **编码**:原始视音频帧通过编码器转换为编码帧。
5. **复用**:编码帧按不同流类型交织写入输出文件。
**转码例程简介**:
转码功能复杂,示例程序难以简化。本例程支持指定视音频编码格式与输出文件封装格式。若指定格式为 "copy",输出流将采用与输入流相同的编码格式。与 FFmpeg 命令不同,此例程在 "copy" 时,会进行编码与解码操作,耗时较长。验证方法与命令行操作类似,源代码文件主要包括在 main. c 中的 transcode_video()、transcode_audio() 和 transcode_audio_with_afifo() 函数,这些函数展示了音视频转码的实现方法。
**视频与音频转码流程**:
- **视频转码**:主要在 transcode_video() 函数中实现,处理流程包含解复用、解码、滤镜处理和编码等步骤。
- **音频转码**:在 transcode_audio() 函数中实现,同样涉及解复用、解码、滤镜处理和编码。
**时间戳处理**:
在封装格式处理中,时间基的理解不是必需的,但在编解码过程中,正确的时间基转换至关重要。容器的时间基与编解码器上下文的时间基不同,解码编码过程中需要进行转换。对于视频,原始帧时间基为 1/framerate,编码前需将容器时间基转换为 1/framerate,编码后转换回输出容器的时间基。对于音频,原始帧时间为 1/sample_rate,同样需要进行相应的时间基转换,若使用音频 FIFO,需使用 1/sample_rate 时间基重新生成时间戳信息。
**编译与验证**:
下载示例代码,执行 make 命令生成可执行文件。使用测试文件进行验证,观察文件格式,并指定编码格式与封装格式生成输出文件。
FFmpeg 解码 API 以及在解码过程中存在的丢帧问题
在优化视频客观全参考算法时,我们利用FFmpeg提供的API对输入的MP4文件进行转码为YUV格式。然而,转码后总会出现丢失视频最后几帧的现象。为解决此问题,我们深入研究了FFmpeg的源码及网络资料,最终总结出了解码过程中的关键点。
FFmpeg提供了新的编解码API,从3.1版本开始,这一API实现了对输入和输出的解耦,同时之前的API被标记为deprecated。在我们的工具中,采用了新的解码API(avcodec_send_packet()和avcodec_receive_frame())来实现视频帧的解码。然而,一个帧的视频实际只解码出帧,导致了丢帧问题。
为理解解码API的工作机制,我们查阅了FFmpeg的代码,并发现了问题所在。FFmpeg的注释指出,解码器内部可能缓存多个frames/packets,因此在流结束时,需要执行flushing操作以获取缓存的frames/packets。我们工具中未执行此操作,导致了丢帧现象。通过补充flushing逻辑,问题得到解决。
在FFmpeg的源码中,`avcodec_send_packet()`的返回值主要有三种状态,而`avcodec_receive_frame()`的返回值也分为几种情况。这些返回值定义了解码器的不同状态,整个解码过程可以看作是一个状态机。通过理解API的调用和返回值,我们可以实现正确的状态转移,避免丢帧问题。
为了修复丢帧问题,我们需要确保在解码过程中的状态转换逻辑正确无误。如果实现中忽略了某些状态,就可能导致无法获取视频的最后几帧。通过分析和调整状态机,可以确保解码过程的完整性和准确性。
总结:通过深入研究FFmpeg的编解码API及其使用规范,我们解决了在视频转码过程中出现的丢帧问题。关键在于正确执行flushing操作以获取解码器缓存的frames/packets,并理解解码过程的状态机模型,确保状态转换逻辑的正确性。
音视频开源项目ZLMediaKit 的安装及使用介绍
ZLMediaKit是一个功能强大的开源流媒体服务器,特别适合实时音视频传输和处理应用,如直播、视频会议和监控。它支持RTSP、RTMP、HLS和HTTP-FLV等协议,具有低延迟和高并发处理能力,且能动态转码,并跨平台运行。 要开始使用,首先从GitHub地址github.com/xia-chu/ZLMe...下载源代码。编译安装步骤适用于Linux环境,运行时可通过其HTTP API进行管理。API接口包括控制流媒体播放、获取状态信息、统计信息,以及配置服务器参数等,如:启动/停止流媒体:通过发送HTTP请求来控制。
查看状态和统计:获取服务器连接数、流状态和带宽使用情况等。
配置参数:如设置网络端口、转码设置和录制选项。
录制与截图:支持控制服务器的录制和截图功能。
实时监控:通过HTTP API监控服务器运行和日志。
此外,HTTP API还支持通过UDP或TCP进行推流,例如循环播放视频,对于点播,ZLMediaKit支持通过mp4文件实现,例如rtsp://.../record/test.mp4,通过HTTP访问文件进行点播。 在Linux下,音频设备的管理也很关键,可以使用aplay、pactl等命令查看和配置音频设备。而服务的推拉流,包括设备向服务器推流和从服务器拉流,也是通过API和相应的命令来操作的。 最后,当遇到端口占用问题时,可以使用lsof和netstat命令在Linux中查找占用情况,以便进行相应的操作。ZLMediaKit的详细文档和更多视频教程可以在mirrors/xia-chu/zlmediakit/GitCode中找到。如何使用MediaCoder无损转换格式
MediaCoder是一个通用音频/视频批量转码工具,整合了众多优秀音频视频编解码器和工具。该软件曾是基于GPL协议的自由软件,后由黄轶纯封闭源代码,改以MediaCoder EULA协议发布,并移出Sourceforge。本文将介绍MediaCoder如何无损转换格式的步骤。
步骤一:将需要转换格式的视频文件拖入MediaCoder界面。
步骤二:调整设置。在视频选项卡中,勾选红色箭头所指的复选框。在音频和容器选项卡中,设置输出文件格式和编码器,例如选择H.格式及相应的编码器。在容器选项卡中设定目标输出格式。
步骤三:点击开始按钮,执行转换任务。转换过程简单快速,本质上是更换容器,理论上几乎立即完成。
在转换封装格式时,通过视频导出选项可以设置码率,追求品质时可选择最高码率。选择需要的封装格式,如H.,设置编码器和容器,最后点击开始按钮启动任务队列。
下载链接:pan.baidu.com/s/1ZIl3WQ... 提取码:
下载的b站视频怎么快速合并视频和音频?
将下载的B站视频快速合并视频和音频的方法如下:
首先,确保您已经下载了B站视频,通常它们包含三个重要文件:“entry.json”、“video.m4s”、“audio.m4s”。其中,“entry.json”文件包含视频属性数据;“video.m4s”文件存储视频内容;“audio.m4s”文件存储音频内容。
在准备开始批量转码之前,您需要获取视频的存放路径。对于安卓设备,下载路径通常为Bilibili软件内默认设置的存储位置。您可以通过手机数据线连接电脑,将该路径下的文件拷贝到电脑上。
接下来,您将使用三个关键源码:视频文件源码、系统分隔符源码、以及视频属性数据源码,构建B站下载视频批量转码器。转码过程涉及操作这三个文件,并利用ffmpeg.exe第三方插件来实现视频和音频的合并。
在转码软件中,您需要设置两个参数:“inputPath”和“outputPath”。前者指待转码视频的存放路径,后者指定转码后视频的输出位置。运行程序后,控制台将显示转码过程信息,直到转码完成。
转码后的视频文件将按照特定规则存放,例如以视频的上传者、文集名称、视频名称来命名。这样可以确保文件组织有序,便于日后查找。
在阅读Json文件示例时,您需要关注“owner_name”、“title”、“part”、“video_quality”等属性。这些属性提供了上传者的昵称、视频文集名称、视频文章名称以及视频清晰度等重要信息。
写在最后,您需要下载并安装ffmpeg.exe以支持视频转码过程。虽然网上已有相关教程,本文提供的方法同样适用于批量和超大批量的转码需求,尤其适合B站视频下载发烧友。如果您下载的视频数量不多,建议参考其他教程进行操作。