J

Jay2Echo

V1

2022/11/26阅读:53主题:默认主题

R语言操作PDF文件的包

背景

有过文章投稿经验的朋友们知道,文章中的图片排版是个很繁琐的过程。涉及到多个图片的组合跟字体字号的调整。刚开始自己没有这方面经验,对输出的结果图格式比较随意:*.jpg,*.png等等。直到后面需要排版时傻眼了,常规的排版工具:Adobe Illustrator(AI)、福昕编辑器可能对矢量图进行编辑。以后所有结果图我都一律保存为*.SVG或*.PDF格式(矢量图,可以排版)。之前出现过这种需求:需要删除PDF文件中的空白页或截取部分页面,我记得当时是充值了WP会员才解决这个问题。今天通过学习“生信技能树”的R系列文章,发现R语言下存在可以处理PDF文件的R包:“pdftools”。原文链接见文末。

切分PDF

# Load pdftools
library(pdftools)

# 2 pages
pdf_length("脱敏隐去/高级生信分析工程师面试题.pdf")

# extract some pages
pdf_subset("脱敏隐去/高级生信分析工程师面试题.pdf",pages = 1:1, output = "subset.pdf")

# Should say 1
pdf_length("subset.pdf")

最终获取结果符合预期

合并PDF

实例来自“生信技能树”,见文末链接。

# Generate another pdf
pdf("test.pdf")
plot(mtcars)
dev.off()

# Combine them with the other one
pdf_combine(c("test.pdf""subset.pdf"), output = "joined.pdf")

# Should say 4
pdf_length("joined.pdf")

其他

偷个懒,原文链接中还有将多个图片保存至同一PDF文件以及读取PDF文件的功能。学海无涯,我一直遵循实用主义原则,只学目前有需求的(偷懒的借口吧~)。算是抛砖引玉吧,以餍读者。猜想读取PDF功能的一个应用场景是结合切分PDF功能,由前者提供一定的判断逻辑,后者可以进行批量自动化处理。比如:批量删除参考文献。仅猜想,后续有需求再探索。

  • 推文多平台同步发布,公众号内容食用更佳
  • 更多内容,请关注微信公众号“生信矿工”

参考链接

R语言奇淫巧技之pdftools包

分类:

工具介绍

标签:

工具介绍

作者介绍

J
Jay2Echo
V1