1.TiDB 源码阅读系列文章(五)TiDB SQL Parser 的源码阅读实现
2.IDEA 源码阅读利器,你居然还不会?
3.开源免费的源码阅读源码阅读神器 Sourcetrail
4.如何阅读源码 —— 以 Vetur 为例
5.SQLMap 源码阅读
6.如何轻松阅读github上的项目源码?
TiDB 源码阅读系列文章(五)TiDB SQL Parser 的实现
本文是 TiDB 源码阅读系列文章的第五篇,主要内容围绕 SQL Parser 功能实现进行讲解。源码阅读内容源自社区伙伴马震(GitHub ID:mz)的源码阅读投稿。系列文章的源码阅读目的是与数据库研究者及爱好者深入交流,收到了社区的源码阅读mybatis源码+难不难积极反馈。后续,源码阅读期待更多伙伴加入 TiDB 的源码阅读探讨与分享。
TiDB 的源码阅读源码阅读系列文章,帮助读者系统性地学习 TiDB 内部实现。源码阅读最近的源码阅读《SQL 的一生》一文,全面阐述了 SQL 语句处理流程,源码阅读从接收网络数据、源码阅读MySQL 协议解析、源码阅读SQL 语法解析、源码阅读查询计划制定与优化、执行直至返回结果。
其中,SQL Parser 的功能是将 SQL 语句按照 SQL 语法规则进行解析,将文本转换为抽象语法树(AST)。此功能需要一定背景知识,下文将尝试介绍相关知识,以帮助理解这部分代码。
TiDB 使用 goyacc 根据预定义的 SQL 语法规则文件 parser.y 生成 SQL 语法解析器。这一过程可在 TiDB 的 Makefile 文件中看到,通过构建 goyacc 工具,使用 goyacc 依据 parser.y 生成解析器 parser.go。
goyacc 是 yacc 的 Golang 版本,因此理解语法规则定义文件 parser.y 及解析器工作原理之前,需要对 Lex & Yacc 有所了解。Lex & Yacc 是用于生成词法分析器和语法分析器的工具,它们简化了编译器的编写。
下文将详细介绍 Lex & Yacc 的工作流程,以及生成解析器的过程。我们将从 Lex 根据用户定义的 patterns 生成词法分析器,词法分析器读取源代码并转换为 tokens 输出,以及 Yacc 根据用户定义的语法规则生成语法分析器等角度进行阐述。
生成词法分析器和语法分析器的过程,用户需为 Lex 提供 patterns 的定义,为 Yacc 提供语法规则文件。这两种配置都是文本文件,结构相同,分为三个部分。我们将关注中间规则定义部分,并通过一个简单的例子来解释。
Lex 的怎么看源码在哪输入文件中,规则定义部分使用正则表达式定义了变量、整数和操作符等 token 类型。例如整数 token 的定义,当输入字符串匹配正则表达式时,大括号内的动作会被执行,将整数值存储在变量yylval 中,并返回 token 类型 INTEGER 给 Yacc。
而 Yacc 的语法规则定义文件中,第一部分定义了 token 类型和运算符的结合性。四种运算符都是左结合,同一行的运算符优先级相同,不同行的运算符,后定义的行具有更高的优先级。语法规则使用 BNF 表达,大部分现代编程语言都可以使用 BNF 表示。
表达式解析是生成表达式的逆向操作,需要将语法树归约到一个非终结符。Yacc 生成的语法分析器使用自底向上的归约方式进行语法解析,同时使用堆栈保存中间状态。通过一个表达式 x + y * z 的解析过程,我们可以理解这一过程。
在这一过程中,读取的 token 压入堆栈,当发现堆栈中的内容匹配了某个产生式的右侧,则将匹配的项从堆栈中弹出,将该产生式左侧的非终结符压入堆栈。这个过程持续进行,直到读取完所有的 tokens,并且只有启始非终结符保留在堆栈中。
产生式右侧的大括号中定义了该规则关联的动作,例如将三项从堆栈中弹出,两个表达式相加,结果再压回堆栈顶。这里可以使用 $position 的形式访问堆栈中的项,$1 引用第一项,$2 引用第二项,以此类推。$$ 代表归约操作执行后的堆栈顶。本例的动作是将三项从堆栈中弹出,两个表达式相加,结果再压回堆栈顶。
在上述例子中,动作不仅完成了语法解析,还完成了表达式求值。一般希望语法解析的android高仿源码下载结果是一颗抽象语法树(AST),可以定义语法规则关联的动作。这样,解析完成时,我们就能得到由 nodeType 构成的抽象语法树,对这个语法树进行遍历访问,可以生成机器代码或解释执行。
至此,我们对 Lex & Yacc 的原理有了大致了解,虽然还有许多细节,如如何消除语法的歧义,但这些概念对于理解 TiDB 的代码已经足够。
下一部分,我们介绍 TiDB SQL Parser 的实现。有了前面的背景知识,对 TiDB 的 SQL Parser 模块的理解会更易上手。TiDB 使用手写的词法解析器(出于性能考虑),语法解析采用 goyacc。我们先来看 SQL 语法规则文件 parser.y,这是生成 SQL 语法解析器的基础。
parser.y 文件包含 多行代码,初看可能令人感到复杂,但该文件仍然遵循我们之前介绍的结构。我们只需要关注第一部分 definitions 和第二部分 rules。
第一部分定义了 token 类型、优先级、结合性等。注意 union 结构体,它定义了在语法解析过程中被压入堆栈的项的属性和类型。压入堆栈的项可能是终结符,也就是 token,它的类型可以是 item 或 ident;也可能是非终结符,即产生式的左侧,它的类型可以是 expr、statement、item 或 ident。
goyacc 根据这个 union 在解析器中生成对应的 struct。在语法解析过程中,非终结符会被构造成抽象语法树(AST)的节点 ast.ExprNode 或 ast.StmtNode。抽象语法树相关的数据结构定义在 ast 包中,它们大都实现了 ast.Node 接口。
ast.Node 接口有一个 Accept 方法,接受 Visitor 参数,后续对 AST 的处理主要依赖这个 Accept 方法,以 Visitor 模式遍历所有的节点以及对 AST 做结构转换。例如 plan.preprocess 是webstorm+node.js源码对 AST 做预处理,包括合法性检查以及名字绑定。
union 后面是对 token 和非终结符按照类型分别定义。第一部分的最后是对优先级和结合性的定义。文件的第二部分是 SQL 语法的产生式和每个规则对应的 aciton。SQL 语法非常复杂,大部分内容都是产生式的定义。例如 SELECT 语法的定义,我们可以在 parser.y 中找到 SELECT 语句的产生式。
完成语法规则文件 parser.y 的定义后,使用 goyacc 生成语法解析器。TiDB 对 lexer 和 parser.go 进行封装,对外提供 parser.yy_parser 进行 SQL 语句的解析。
最后,我们通过一个简单的例子,使用 TiDB 的 SQL Parser 进行 SQL 语法解析,构建出抽象语法树,并通过 visitor 遍历 AST。我实现的 visitor 只输出节点的类型,运行结果依次输出遍历过程中遇到的节点类型。
了解 TiDB SQL Parser 的实现后,我们有可能实现当前不支持的语法,如添加内置函数。这为我们学习查询计划以及优化打下了基础。希望这篇文章对读者有所帮助。
作者介绍:马震,金蝶天燕架构师,负责中间件、大数据平台的研发,今年转向 NewSQL 领域,关注 OLTP/AP 融合,目前在推动金蝶下一代 ERP 引入 TiDB 作为数据库存储服务。
IDEA 源码阅读利器,你居然还不会?
在进行源码阅读时,IDEA 提供了强大的图示化工具,使得理解和追踪类的继承关系和接口实现变得直观且简单。
通过在类标签页点击右键,选择 Diagrams,你可以轻松生成继承关系的图形。也可以在项目目录树中对特定类右击,同样能获取到所需图形。
在获得的图形中,你可能发现一些不相关的类占据了一定空间。只需选中这些类并使用键盘的 delete 键,即可移除它们,使图形更加清晰。vue+表格组件源码
为了查看类的详细信息,如属性、方法和构造函数,选择页面右键并选择 show categories。同样,使用工具栏也能实现这一功能。
如果想要筛选特定权限范围内的方法,使用右键选择 Change Visibility Level 即可。而 Alt 键的使用,提供了图形缩放功能,使你能够更加清晰地查看。
在需要查看其他类与当前类的继承关系时,选择 Add Class to Diagram,输入类名即可。若这些类之间没有明显的继承关系,图形会直观地反映出这一点。
如果想要查看类中特定方法的源码,只需双击类名进入方法列表,选中目标方法后右键选择 Jump to Source 即可跳转至源码位置。利用 IDEA 的 structure 功能,你还可以快速浏览类中的所有方法。
综上所述,通过利用 IDEA 的图示化工具,学习和查看类关系、理解复杂框架的源码变得轻松且高效。这使得在进行源码阅读时,获得更直观且易于理解的体验。
开源免费的源码阅读神器 Sourcetrail
开源免费的源码阅读神器 Sourcetrail,一款视觉化的跨平台源码探索项目,适合阅读C、C++、Python和Java源码。
直观的源码结构,左侧以图形展示调用上下游、类成员等细节,简化阅读理解。
支持主流编程语言,提供SDK拓展支持其他语言。
官网提供下载链接,支持Windows、macOS、Linux系统。
使用Sourcetrail阅读源码的流程包括创建项目、导入源码文件夹、设置索引文件、开始索引操作,完成后即可浏览源码,支持符号跳转和模糊搜索。
与Atom、Clion、Eclipse、Emacs、IntelliJ IDEA等编辑器连接,提供丰富功能。
查阅官方文档获取更多功能信息,体验利器效果。
如何阅读源码 —— 以 Vetur 为例
深入探索前端框架源码,Vetur是我们的实践平台。提升技能之路并非易事,但掌握技巧和原则将事半功倍。以下是阅读Vetur源码的实用指南:明确目标与SMART原则
开始阅读前,明确你的动机,如理解功能或修复bug。SMART原则要求目标具体、可衡量,比如研究Vetur的模板错误提示功能。 评估与管理 判断阅读的必要性和价值,切勿盲目追求完整,局部学习也能带来进步。适时调整目标,如只关注插件的特定部分。 项目背景与准备工作 在阅读前,了解项目背景,包括框架结构、IO交互和生态,以及调试方法。例如,理解Vetur与VS Code的互动,以及如何通过生态补充核心功能。 VSCore插件基础 熟悉Vetur在VS Code中的开发基础,包括package.json、contributes和主入口,这些都是构建插件的关键要素。 分析与理解步骤 遵循六步循环:理解项目结构、找寻关键点、查阅文档、分析代码、总结与深入研究。从入口开始,如Vetur的languages和grammars配置,一步步揭示实现细节。 关键配置文件解析 探究contributes.languages中的Vue配置,以及contributes.grammars如何定义语言规则,如注释符号、折叠和TextMate语法。 深入洞察VS Code的主入口 通过package.json,理解Vetur如何通过LSP协议提供高级功能,如vueMain.js的activate方法。 简化学习路径 将复杂项目分解为小目标,如聚焦代码补全的核心技术,通过yarn watch和F5调试来验证理解。 学习策略与实践 选择有针对性的学习点,如代码补全,通过搜索引擎获取资料,运用静态猜想和动态验证方法。总结成流程图,记录笔记,灵活调整学习策略,找到适合自己的方法。 总结与提炼 将源码分析归纳为步或更少,形成清晰的流程图。记住,学习是个个性化过程,关键在于明确目标、分层次学习和持续总结。最后的忠告
阅读Vetur源码的过程并不轻松,但每一次的深入探索都为技能提升添砖加瓦。保持耐心,设定明确目标,你会发现一个全新的技术世界在等待你的探索。SQLMap 源码阅读
本文主要解析了SQLMap的源码阅读流程。首先,我们确认了SQLMap运行的流程图,这有助于我们深入理解源码。在开始SQLMap运行前,程序进行一系列初始化操作,包括环境设置、依赖加载、变量配置等。
接下来,我们处理URL。通过cmdLineParser()从命令行获取参数,进而通过initOptions(cmdLineOptions)解析这些命令行参数。初始化函数中,通过loadBoundaries()、loadPayloads()、_loadQueries()加载payload,这些函数负责从XML文件中加载边界、payload和查询。在loadBoundaries()中,程序读取data/xml/boundaries.xml文件并解析其中的XML,将结果添加到conf对象的tests属性中。conf对象存储了目标的相关信息以及配置信息。
在URL处理阶段,程序通过getCurrentThreadData()获取当前线程数据,并调用f(*args, **kwargs)进行处理。这里的逻辑位于/lib/controller/controller.py文件下,主要工作包括打印日志、赋值和添加HTTP Header等,最终到达parseTargetUrl()函数。在该函数中,程序进行URL的剖析与拆解,并将这些内容保存到conf对象的对应属性中,以便后续使用。
接着,SQLMap会生成注入检测的payload,核心代码位于controller.py文件的行。在setupTargetEnv()函数中,程序调用hashDBRetrieve()函数,根据参数KB_INJECTIONS检索payload。payload生成逻辑在第行,执行SQL语句并使用basePickle进行加密。最终,程序生成payload并进行探测,如果目标返回Connection refused,则返回False。
在WAF检测部分,当URL处理完毕后,程序进行探测,判断目标是否存在WAF。如果存在WAF,则生成用于fuzz的payload,这个payload基于http-waf-detect.nse文件。在经过一系列的数据处理和判断后,程序检测WAF类型,包括正则匹配和页面相似度分析。
对于注入检测,SQLMap提供了启发式注入和正式注入两种方式。在启发式注入阶段,程序通过随机字符构造Payload来识别数据库版本、获取绝对路径和进行XSS测试。在正式注入阶段,程序根据数据库信息构建索引,选择最有效的payload进行攻击。在处理payload时,程序会进行清洗、组合和请求,直到注入成功。
爆数据库等操作在正式注入成功后进行。程序首先根据后台数据库信息输出日志,然后执行getDbs()函数获取数据库名。在getDbs()中,程序通过查询语句计算数据库个数并依次获取数据库名。之后,程序在errorUse()函数中解析payload并提取schema_name,进而执行探测数据库个数的SQL语句。最后,程序多线程方式注入并提取结果,完成数据库的爆破。
整个SQLMap的流程分析中,理解初始化、URL处理、注入检测和爆数据库等关键步骤是至关重要的。同时,审计前查看utils文件夹下的Python文件,可以帮助我们更好地理解流程,尽管在正则表达式处理时可能会遇到挑战。
如何轻松阅读github上的项目源码?
在探索GitHub上的项目源码时,利用插件可大幅提升浏览体验。首先,推荐SourceGraph插件,它能够提供文件树浏览与定义跳转功能,还支持引用跳转。在Chrome浏览器上安装SourceGraph插件后,打开任意GitHub项目,点击页面上的SourceGraph图标,即可浏览项目文件,并进行快速搜索,其界面功能与IDE相似,操作便捷,无需本地克隆代码,方便快捷。
此外,针对下载特定仓库中部分代码的需求,可以使用GitZip插件。此插件可帮助用户快速下载项目中的单个子文件夹代码,无需克隆整个仓库。只需在目标子文件夹上右键点击,选择"Download"选项,即可轻松下载所需代码。两个插件配合使用,轻松应对GitHub项目源码浏览与代码下载问题。
Github 源码阅读神器推荐
一款高效阅读和学习源码的开源项目,source-code-hunter(doocs.github.io/source-code-hunter),为源码阅读爱好者提供便利。
借助source-code-hunter,用户能够系统化阅读各种框架的源码,包括spring全家桶、Mybatis系列、Netty、dubbo等,以及中间件、JDK源码解析。
该项目为初学者和源码学习者提供了学习心得,帮助他们建立学习模式,避免无用阅读,加速学习进程。
对于没有源码阅读经验的用户,建议先阅读学习心得,了解学习方法和思考。在日常学习中,先通过视频了解源码的大致设计和功能点,再结合source-code-hunter阅读源码,同时使用本地调试跟踪实现,提升学习效率。
source-code-hunter涵盖了常见框架的源码解析,为用户提供了丰富的学习资源,帮助用户深入理解源码逻辑,提高编程技能。
android 源码 仓储
headfirst设计模式源码_设计模式开源项目
资源采集站源码_资源采集站怎么搭建
溯源系统 php 源码_溯源系统介绍
stoi函数源码_strtok函数源码
app下载网站源码_app下载网站源码是什么