【unsafe类源码】【电子罗盘源码】【小说网站源码】uv源码-皮皮网

【unsafe类源码】【电子罗盘源码】【小说网站源码】uv源码

时间:2024-11-26 16:41:16 来源：高频抢钱源码指标

1.UGUI深入理解--渲染系统
2.知道uvision它是源码什么呢？说是开发环境,不懂
3.nodejs之setImmediate源码分析
4.FREE SOLO - 自己动手实现Raft - 13 - libuv源码分析与调试-4
5.FREE SOLO - 自己动手实现Raft - 10 - libuv源码分析与调试-1
6.游戏引擎随笔 0x36：UE5.x Nanite 源码解析之可编程光栅化（下）

uv源码

UGUI深入理解--渲染系统

UGUI展示的机制与渲染系统的关联。显示图像与其他渲染方式一样，源码需要mesh和material。源码关键在于如何将这些元素传递给渲染引擎。源码

UI渲染的源码流程可划分为三个主要部分。CanvasUpdateRegistry作为驱动系统，源码unsafe类源码负责通知需要更新渲染的源码UI组件。这种方式避免UI内部数据频繁改变时的源码重复渲染事件，提升效率，源码且避免了UI在Update循环中处理逻辑的源码复杂性。

Graphic作为UI组件的源码基类，其核心功能是源码组织mesh和material，并将这些元素传递给CanvasRenderer。源码CanvasRenderer连接画布与渲染组件，源码将网格绘制到画布上。源码尽管其名称可能误导，但实际上它对应于Graphic，而与Canvas直接关联不大。

CanvasRenderer的关键接口包括SetMesh和SetMaterial。这些接口允许在一次设置后，当元素不变时无需重复设置，底层具备缓存机制。同时，mesh与material可以独立设置。

每个Graphic的CanvasRenderer存储当前元素的mesh和material，但并不导致每个Graphic产生单独的drawcall。Canvas通过合批操作整合节点下的Graphic，从而降低性能消耗。合理管理Canvas有助于优化界面渲染性能。

重绘条件包括但不限于：enable、disable、validate操作，SetVerticesDirty、MeshEffect变化、shadow属性调整、transform尺寸改变、图像类型、层级、填充方式变化，RawImage的texture与uvRect修改，文本内容变化、Richtex开关等。文本是最频繁触发重绘的元素。

重绘触发机制还包括SetMaterialDirty、image触发动画、显示mask、transform层级变化、电子罗盘源码canvas层级变化、mask计算等。RawImage替换texture触发动画。同时dirty，包括layout，transform层级变化，Sprite替换、大小调整、图集变化，字体变化等。

遮挡mask有两种实现方式：Rect2DMask和mask。它们仅对子节点生效，适用于特定场景。理论上，可修改源码，但在大多数情况下，这种操作并无必要。

RectMask2D提供矩形区域的遮挡功能，类似于NGUI中的裁剪方式，减少了drawcall，性能较mask更优，但仅限于矩形区域的遮挡。

在实现上，通过CanvasRenderer的EnableRectClipping方法设置遮挡区域，底层设置给_ClipRect。RectMask2D节点下的maskable组件注册到ClipperRegistry，底层控制对应的shader打开宏定义。

Mask通过设置模板缓冲值实现，通过像素测试显示图像，仅在指定区域内显示，透明度为0的区域不显示。

Mask的实现方式将渲染分为三步：首先渲染mask，设置模板缓冲值；其次渲染模板下的对象，根据模板缓冲值判断是否渲染；最后将模板缓冲区设置为0。

遮挡mask的缺点包括功能限制和可能的性能开销。

与NGUI对比，UGUI通过事件触发重绘，NGUI在每帧Update中检测，复杂界面下可能带来额外消耗。合批在UGUI中表现更优，因底层使用C#，语言层面效率较高。重绘同样是性能消耗点，需注意优化。

在层级管理上，UGUI的小说网站源码节点顺序调整更直观，NGUI需要逐层展开才能查看深度，操作稍显繁琐。在裁剪功能上，UGUI通过Shader实现，NGUI则通过切换Shader和额外创建材质实现，但UGUI的2D裁剪方式更高效，尽管NGUI支持边缘模糊效果，需自定义实现。

图集管理方面，NGUI提供较为灵活的图集控制，而UGUI默认图集管理较为受限，通常需要配合其他方案使用。

综上，UGUI的渲染系统表现良好，遮挡mask功能强大。在图集管理方面，可能需要额外策略以控制包体大小与更新频率，这将使其应用更为灵活和高效。

知道uvision它是什么呢？说是开发环境,不懂

UVision是一款集成开发环境。

以下是关于UVision的

一、UVision的基本定义

UVision是一个功能强大的开发环境，主要用于嵌入式系统的开发，如微控制器和微处理器。它提供了一个集成的解决方案，包括代码编辑、编译、调试和模拟等功能，使得开发者可以更方便地进行软件开发。

二、UVVision的主要特点

1. 强大的编辑器功能：UVision提供了代码编辑功能，支持多种编程语言，如C/C++等。它支持代码高亮、自动完成和错误提示等功能，提高了编程效率。

2. 集成的编译环境：UVVision内置了编译器，可以直接将源代码编译成目标设备的可执行文件，省去了手动编译的麻烦。

3. 调试和模拟功能：UVVision提供了强大的调试工具，包括断点调试、变量监视和代码跟踪等功能。同时，它还支持模拟目标设备，方便开发者在没有实际硬件的情况下进行测试和验证。

4. 项目管理和配置功能：UVVision支持项目的管理和配置，包括项目依赖管理、词条源码自动配置文件的编辑等，方便开发者管理复杂的项目。

三、UVVision的应用领域

UVVision广泛应用于嵌入式系统的开发，如智能家电、汽车电子、医疗设备等领域。由于其强大的功能和友好的用户界面，UVVision成为了许多开发者的首选工具。

总之，UVVision是一个功能强大的集成开发环境，为嵌入式系统的开发者提供了便捷的开发工具，帮助开发者提高开发效率和产品质量。

nodejs之setImmediate源码分析

在lib/timer.js文件中，setImmediate函数创建了一个回调队列，等待调用者提供的回调函数执行。这个队列的处理由setImmediateCallback函数负责，该函数在timer_wrapper.cc文件中定义，接受processImmediate作为参数。在setImmediateCallback函数内部，回调信息被保存在环境env中。

具体实现中，set_immediate_callback_function宏定义了在env中保存回调函数的函数。此函数在env.cc的CheckImmediate中执行，而CheckImmediate的执行时机是在Environment::Start阶段，由uv_check_start函数在libuv库中负责。

uv_check_start函数将一个handle添加到loop的队列中，然后在uv_run循环中执行注册的CheckImmediate函数。此函数最终会调用nodejs的processImmediate函数，实现setImmediate的回调执行。

需要注意的是，setImmediate与setTimeout的执行顺序并不确定。在uv_run中，定时器的代码比uvrun_check早执行，但在执行完定时器后，若在uv__run_check之前新增定时器和执行setImmediate，setImmediate的回调会优先执行。

FREE SOLO - 自己动手实现Raft - - libuv源码分析与调试-4

深入分析libuv库中的Timer事件处理流程，主要包括初始化、启动、停止以及重启等关键步骤。

初始化Timer事件，使用uv_timer_init函数，该函数仅调用uv__handle_init，将Timer handle添加至loop的handle_queue。

启动Timer事件，随机排座源码通过uv_timer_start函数实现，计算过期时间后将Timer插入loop内部的堆结构中，同时使用timer_less_than比较函数进行排序。

停止Timer事件，执行uv_timer_stop，从堆中移除Timer，uv__handle_stop递减handle引用计数，当loop内无active handle时退出循环。

重启Timer事件，在uv_timer_again函数中判断是否设置repeat参数。若设置，则连续调用uv_timer_stop和uv_timer_start，重启Timer。

Timer事件的回调触发，在loop的uv__run_timers阶段执行，从堆顶取出过期节点，并调用对应的回调函数，同时根据需要重启Timer。

至此，对libuv库中的Timer事件处理有了全面的了解，下期将深入探讨async事件的处理机制。

FREE SOLO - 自己动手实现Raft - - libuv源码分析与调试-1

了解EventLoop这一核心概念，就是“Reactor模型”的主体框架。Reactor模型是一种程序设计模式，其本质在于如何对外界各种刺激做出反应，利用单一或者多个线程，处理各类外部事件，如网络数据包接收、定时器超时等，根据不同事件注册相应的回调函数。

以“状态机思维”分析libuv源码，为后续开发奠定基础。状态机思想提供了一种简洁高效的方式来描述程序的工作流程。在libuv中，主要有两种核心数据结构：Handle与Request。Handle代表常驻内存提供服务的数据结构，如uv_tcp_s，表示TcpServer，不断对外提供服务，同样可以作为TcpClient。Request则代表一次请求，如uv_req_s，其生命周期与请求处理过程相同，不会驻留在内存中。请求被处理后，该数据结构随即释放。

libuv能够处理多种不同事件，常见的几种包括：网络事件、文件系统事件、信号事件、异步操作完成事件等。未来，我们将深入解析这些核心事件的相关源代码。

游戏引擎随笔 0x：UE5.x Nanite 源码解析之可编程光栅化（下）

书接上回。

在展开正题之前，先做必要的铺垫，解释纳尼特(Nanite)技术方案中的Vertex Reuse Batch。纳尼特在软光栅路径实现机制中，将每个Cluster对应一组线程执行软光栅，每ThreadGroup有个线程。在光栅化三角形时访问三角形顶点数据，但顶点索引范围可能覆盖整个Cluster的个顶点，因此需要在光栅化前完成Cluster顶点变换。纳尼特将变换后的顶点存储于Local Shared Memory(LDS)中，进行组内线程同步，确保所有顶点变换完成，光栅化计算时直接访问LDS，实现软光栅高性能。

然而，在使用PDO(Masked)等像素可编程光栅化时，纳尼特遇到了性能问题。启用PDO或Mask时，可能需要读取Texture，根据读取的Texel决定像素光栅化深度或是否被Discard。读取纹理需计算uv坐标，而uv又需同时计算重心坐标，增加指令数量，降低寄存器使用效率，影响Active Warps数量，降低延迟隐藏能力，导致整体性能下降。复杂材质指令进一步加剧问题。

此外，当Cluster包含多种材质时，同一Cluster中的三角形被重复光栅化多次，尤其是材质仅覆盖少数三角形时，大量线程闲置，浪费GPU计算资源。

为解决这些问题，纳尼特引入基于GPU SIMT/SIMD的Vertex Reuse Batch技术。技术思路如下：将每个Material对应的三角形再次分为每个为一组的Batch，每Batch对应一组线程，每个ThreadGroup有个线程，正好对应一个GPU Warp。利用Wave指令共享所有线程中的变换后的顶点数据，无需LDS，减少寄存器数量，增加Warp占用率，提升整体性能。

Vertex Reuse Batch技术的启用条件由Shader中的NANITE_VERT_REUSE_BATCH宏控制。

预处理阶段，纳尼特在离线时构建Vertex Reuse Batch，核心逻辑在NaniteEncode.cpp中的BuildVertReuseBatches函数。通过遍历Material Range，统计唯一顶点数和三角形数，达到顶点去重和优化性能的目标。

最终，数据被写入FPackedCluster，根据材质数量选择直接或通过ClusterPageData存储Batch信息。Batch数据的Pack策略确保数据对齐和高效存储。

理解Vertex Reuse Batch后，再来回顾Rasterizer Binning的数据：RasterizerBinData和RasterizerBinHeaders。在启用Vertex Reuse Batch时，这两者包含的是Batch相关数据，Visible Index实际指的是Batch Index，而Triangle Range则对应Batch的三角形数量。

当Cluster不超过3个材质时，直接从FPackedCluster中的VertReuseBatchInfo成员读取每个材质对应的BatchCount。有了BatchCount，即可遍历所有Batch获取对应的三角形数量。在Binning阶段的ExportRasterizerBin函数中，根据启用Vertex Reuse Batch的条件调整BatchCount，表示一个Cluster对应一个Batch。

接下来，遍历所有Batch并将其对应的Cluster Index、Triangle Range依次写入到RasterizerBinData Buffer中。启用Vertex Reuse Batch时，通过DecodeVertReuseBatchInfo函数获取Batch对应的三角形数量。对于不超过3个材质的Cluster，DecodeVertReuseBatchInfo直接从Cluster的VertReuseBatchInfo中Unpack出Batch数据，否则从ClusterPageData中根据Batch Offset读取数据。

在Binning阶段的AllocateRasterizerBinCluster中，还会填充Indirect Argument Buffer，将当前Cluster的Batch Count累加，用于硬件光栅化Indirect Draw的Instance参数以及软件光栅化Indirect Dispatch的ThreadGroup参数。这标志着接下来的光栅化Pass中，每个Instance和ThreadGroup对应一个Batch，以Batch为光栅化基本单位。

终于来到了正题：光栅化。本文主要解析启用Vertex Reuse Batch时的软光栅源码，硬件光栅化与之差异不大，此处略过。此外，本文重点解析启用Vertex Reuse Batch时的光栅化源码，对于未启用部分，除可编程光栅化外，与原有固定光栅化版本差异不大，不再详细解释。

CPU端针对硬/软光栅路径的Pass，分别遍历所有Raster Bin进行Indirect Draw/Dispatch。由于Binning阶段GPU中已准备好Draw/Dispatch参数，因此在Indirect Draw/Dispatch时只需设置每个Raster Bin对应的Argument Offset即可。

由于可编程光栅化与材质耦合，导致每个Raster Bin对应的Shader不同，因此每个Raster Bin都需要设置各自的PSO。对于不使用可编程光栅化的Nanite Cluster，即固定光栅化，为不降低原有性能，在Shader中通过两个宏隔绝可编程和固定光栅化的执行路径。

此外，Shader中还包括NANITE_VERT_REUSE_BATCH宏，实现软/硬光栅路径、Compute Pipeline、Graphics Pipeline、Mesh Shader、Primitive Shader与材质结合生成对应的Permutation。这部分代码冗长繁琐，不再详细列出讲解，建议自行阅读源码。

GPU端软光栅入口函数依旧是MicropolyRasterize，线程组数量则根据是否启用Vertex Reuse Batch决定。

首先判断是否使用Rasterizer Binning渲染标记，启用时根据VisibleIndex从Binning阶段生成的RasterizerBinHeaders和RasterizerBinData Buffer中获取对应的Cluster Index和光栅化三角形的起始范围。当启用Vertex Reuse Batch，这个范围是Batch而非Cluster对应的范围。

在软光栅中，每线程计算任务分为三步。第一步利用Wave指令共享所有线程中的Vertex Attribute，线程数设置为Warp的Size，目前为，每个Lane变换一个顶点，最多变换个顶点。由于三角形往往共用顶点，直接根据LaneID访问顶点可能重复，为确保每个Warp中的每个Lane处理唯一的顶点，需要去重并返回当前Lane需要处理的唯一顶点索引，通过DeduplicateVertIndexes函数实现。同时返回当前Lane对应的三角形顶点索引，用于三角形设置和光栅化步骤。

获得唯一顶点索引后，进行三角形设置。这里代码与之前基本一致，只是写成模板函数，将Sub Pixel放大倍数SubpixelSamples和是否背面剔除bBackFaceCull作为模板参数，通过使用HLSL 语法实现。

最后是光栅化三角形写入像素。在Virtual Shadow Map等支持Nanite的场景下，定义模板结构TNaniteWritePixel来实现不同应用环境下Nanite光栅化Pipeline的细微差异。

在ENABLE_EARLY_Z_TEST宏定义时，调用EarlyDepthTest函数提前剔除像素，减少后续重心坐标计算开销。当启用NANITE_PIXEL_PROGRAMMABLE宏时，可以使用此机制提前剔除像素。

最后重点解析前面提到的DeduplicateVertIndexes函数。

DeduplicateVertIndexes函数给每个Lane返回唯一的顶点索引，同时给当前Lane分配三角形顶点索引以及去重后的顶点数量。

首先通过DecodeTriangleIndices获取Cluster Local的三角形顶点索引，启用Cluster约束时获取所有Lane中最小的顶点索引，即顶点基索引。将当前三角形顶点索引（Cluster Local）减去顶点基索引，得到相对顶点基索引的局部顶点索引。

接下来生成顶点标志位集合。遍历三角形三个顶点，将局部顶点索引按顺序设置到对应位，表示哪些顶点已被使用。每个标志位是顶点的索引，并在已使用的顶点位置处设置为1。使用uint2数据类型，最多表示个顶点位。

考虑Cluster最多有个顶点，为何使用位uint2来保存Vertex Mask而非位？这是由于Nanite在Build时启用了约束机制（宏NANITE_USE_CONSTRAINED_CLUSTERS），该机制保证了Cluster中的三角形顶点索引与当前最大值之差必然小于（宏CONSTRAINED_CLUSTER_CACHE_SIZE），因此，生成的Triangle Batch第一个索引与当前最大值之差将不小于，并且每个Batch最多有个唯一顶点，顶点索引差的最大值为，仅需2个位数据即可。约束机制确保使用更少数据和计算。

将所有Lane所标记三个顶点的Vertex Mask进行位合并，得到当前Wave所有顶点位掩码。通过FindNthSetBit函数找出当前Lane对应的Mask索引，加上顶点基索引得到当前Lane对应的Cluster Local顶点索引。

接下来获取当前Lane对应的三角形的Wave Local的三个顶点索引，用于后续通过Wave指令访问其他Lane中已经计算完成的顶点属性。通过MaskedBitCount函数根据Vertex Mask以及前面局部顶点索引通过前缀求和得到当前Lane对应的Vertex Wave Local Index。

最后统计Vertex Mask所有位，返回总计有效的顶点数量。

注意FindNthSetBit函数，实现Lane与顶点局部索引（减去顶点基索引）的映射，返回当前Lane对应的Vertex Mask中被设置为1的位索引。如果某位为0，则返回下一个位为1的索引。如果Mask中全部位都设置为1，则实际返回为Lane索引。通过二分法逐渐缩小寻找索引范围，不断更新所在位置，最后返回找到的位置索引。

最后，出于验证目的进行了Vertex Reuse Batch的性能测试。在材质包含WPO、PDO或Mask时关闭Vertex Reuse Batch功能，与开启功能做对比。测试场景为由每颗万个三角形的树木组成的森林，使用Nsight Graphics进行Profiling，得到GPU统计数据如下：

启用Vertex Reuse Batch后，软光栅总计耗时减少了1.毫秒。SM Warp总占用率有一定提升。SM内部工作量分布更加均匀，SM Launch的总Warp数量提升了一倍。长短板Stall略有增加，但由于完全消除了由于LDS同步导致的Barrier Stall，总体性能还是有很大幅度的提升。

至此，Nanite可编程光栅化源码解析讲解完毕。回顾整个解析过程，可以发现UE5团队并未使用什么高深的黑科技，而是依靠引擎开发者强悍的工程实现能力完成的，尤其是在充分利用GPU SIMT/SIMD机制榨干机能的同时，保证了功能与极限性能的实现。这种能力和精神，都很值得我们学习。

【unsafe类源码】【电子罗盘源码】【小说网站源码】uv源码

推荐资讯

本周热点

【unsafe类源码】【电子罗盘 源码】【小说 网站 源码】uv源码

推荐资讯

本周热点

【unsafe类源码】【电子罗盘源码】【小说网站源码】uv源码