w

wnwk

V1

2023/04/19阅读:14主题:默认主题

Flink备忘

任务,算子,算子子任务,算子链,slot

flink 中可以简单把算子理解为一个任务。比如 flatmap 算子。当部署多个节点后,一个算子的任务可以分布到多个节点上计算,这样就提高了整个系统的算力,分布到不同节点的算子任务可以看作这个算在的子任务,比如flatmap 任务分布到了2个节点,那么就 有了2个算子子任务。flink可以把一些算子的任务结合在一起组成算子链,减少了数据的交互,需要开启相关的配置

  • slot TaskManager 是一个进程,管理多个任务,每个任务是一个线程,线程的计算资源是由slot 来分配的,一个线程占用一个slot 。一个slot 也可以分配给多个pipeline线程使用(slot 共享 )。slot的最少应该等于一个计算任务中最大的并行度。

flink 1.12以后实现了流处理 和批处理api的统一,统一使用DateStream api,默认是流处理模式,执行的时候传入 设置-Dexecution.runtime-mode=BATCH 指定批处理模式

flink 1.12版本以后,默认的是时间时间处理方式

wal

https://baijiahao.baidu.com/s?id=1750801557835901172&wfr=spider&for=pc

https://blog.csdn.net/bitbitbyte/article/details/105559145 预写式日志WAL(Write Ahead Log,也称为Xlog)的中心思想是对数据文件的修改必须是只能发生在这些修改已经记录到日志之后,也就是先写日志后写数据(日志先行)。使用这种机制可以避免数据频繁的写入磁盘,可以减少磁盘I/O。数据库在宕机重启后可以运用这些WAL日志来恢复数据库。 日志中记录了checkpoint ,这些checkpoint 标注了那些数据被写入到磁盘,那些没有写入,所以可以根据checkpoing 来进行数据恢复

数据库的操作先写入到日志文件,这样就把写入磁盘的随机写入变为了顺序写入(写文件是顺序的),然后在写入的缓存中,最后在一次性写入到磁盘保存。wal的把数据库存盘的操作由随机写入改为了顺序写入+批量写入。

分类:

后端

标签:

后端

作者介绍

w
wnwk
V1