123 4 5 6 / 6 页下一页

一步步实现QBASIC编译器 [复制链接]

yizhengming

家境小康

论坛徽章:: 0

11楼 [报告]

发表于 2012-11-20 17:06 |只看该作者

回复 1# 蔡万钊

小弟也在学习编译器跪求一个用c实现的LR语法分析器

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

EricFisher

版主

论坛徽章:: 2

12楼 [报告]

发表于 2012-11-20 17:24 |只看该作者

回复 2# 蔡万钊

稍微指出一下啊，呵呵，flex官方网页上是这么描述的：

Flex is a free (but non-GNU) implementation of the original Unix lex program.

我查了下源码，使用的不是GPL。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

蔡万钊

丰衣足食

论坛徽章:: 3

13楼 [报告]

发表于 2012-11-20 21:47 |只看该作者

EricFisher 发表于 2012-11-20 17:24
回复 2# 蔡万钊

稍微指出一下啊，呵呵，flex官方网页上是这么描述的：

好, 谢谢! 我都没怎么关注 flex 到底是不是 gnu 的, 呵呵. 马上修改

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

wgm001

白手起家

论坛徽章:: 0

14楼 [报告]

发表于 2012-11-20 21:51 |只看该作者

支持蔡蔡 ! 加油!

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

蔡万钊

丰衣足食

论坛徽章:: 3

15楼 [报告]

发表于 2012-11-20 21:52 |只看该作者

EricFisher 发表于 2012-11-20 17:24
回复 2# 蔡万钊

稍微指出一下啊，呵呵，flex官方网页上是这么描述的：

www.gnu.org/software/flex/

确实是 gnu 出品. 我没说是什么协议的, 我只说是 gnu 出品的, 呵呵. 不用改正了.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

蔡万钊

丰衣足食

论坛徽章:: 3

16楼 [报告]

发表于 2012-11-20 21:58 |只看该作者

wgm001 发表于 2012-11-20 21:51
支持蔡蔡 ! 加油!

ya ~~~ 那是

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

蔡万钊

丰衣足食

论坛徽章:: 3

17楼 [报告]

发表于 2012-11-21 00:25 |只看该作者

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

蔡万钊

丰衣足食

论坛徽章:: 3

18楼 [报告]

发表于 2012-11-21 21:23 |只看该作者

第三步骤 - 中间代码生成

llvm 是一个完善的编译器框架, 但这并不意味着, 你写了语法解析后就没事情做了

从 AST 生成 llvm 能使用的中间过程依然是一个充满挑战性的工作. llvm 是一个中间化的汇编语言, 意味着, 事实上你的代码生成器是在生成 llvm 汇编语言 , 所以依然是一个完备的编译器. 你如果觉得乐意, 完全可以不生成 llvm 汇编代码, 直接生成具体机器平台的汇编语言. llvm 的汇编语言依然是一个比较底层的语言. 和一般的汇编器不一样的是, llvm 的汇编器能对这个汇编语言进行 "优化" . 而其他平台的汇编器则需要编译器自己生成优化的结果. 注意, llvm 执行的优化是比较底层的, 专注于机器平台的, 比如乘法指令转 SSE 指令, 指令重排序这样的优化. 语言层面的,如常量折叠, 死代码清除, 尾递归优化等 , 依然需要编译器作者进行优化. 所以千万不要认为有了 llvm 写编译器就是非常简单的事情了.

llvm 的好处就是可以专注于语言层面的实现和优化, 而具体机器指令层面的优化交给 llvm 来做, 分工协作.

生成 llvm 的代码有两种形式:

第一种是手动生成. 适用于实现编译器所使用的语言没有 llvm 可用的库的时候使用. 编译器生成文本格式的 llvm 汇编代码然后调用 llvm 汇编器生成本机代码.

第二种是使用 llvm 的 C++ 库. llvm 提供了比较丰富的类库用来简化 llvm 代码的生成. 我的QBASIC编译器就采用这种形式.

生成 llvm 代码的步骤非常简单, 为每个语法树节点调用 codegen 虚函数即可. 因为是虚函数, 所以调用基类的 codegen 会自动调用对应类的 codegen .

我在这里举一个加法表达式的 codegen

llvm::Value * AddExprAST::Codegen( BasicBlocks * inserpoint)
{
IRBuilder<> builder(insertpoint); // 一个 LLVM 辅助库, 用来生成 llvm 代码
/// 因为加法这样的表达式是递归定义的, 所以 ...
LHS = this->leftnode->Codegen(insertpoint); // 就像这里, 递归调用子节点, 获得的就是子节点生成的加法指令的结果的 llvm 寄存器的引用.
RHS = this->rightnode->Codegen(insertpoint);
// 生成 llvm 加法指令. 并返回保存加法结果的寄存器的引用.
return builder.CreateAdd( LHS, RHS); // 返回结果是 llvm::Value * , 也就是一个寄存器的引用.
}

复制代码

注意 llvm 的 builder 构造一个加法(减乘除等都一样的啦) , 会生成(一系列, 有可能是一系列)的寄存器操作, 然后是加法指令, 然后是返回该加法指令的结果寄存器的引用

如果后续使用到了这个引用, 就告诉 llvm 的代码生成器, 要安排好这个寄存器的使用, 重新进入下一次运算操作哦 ~

llvm 实际上就是一个寄存器分配器. 如果可用的寄存器不足, llvm 会自动生成压栈指令, 将一些暂时用不到的数据移出寄存器.

所以, 可以把 llvm 看成有无限个寄存器的机器. 这样像例子代码中的递归调用, 层层返回指令结果寄存器引用, 是可以的. llvm 生成机器代码的时候自动安排好寄存器的使用.