背景

有过文章投稿经验的朋友们知道，文章中的图片排版是个很繁琐的过程。涉及到多个图片的组合跟字体字号的调整。刚开始自己没有这方面经验，对输出的结果图格式比较随意:*.jpg,*.png等等。直到后面需要排版时傻眼了，常规的排版工具：Adobe Illustrator（AI）、福昕编辑器可能对矢量图进行编辑。以后所有结果图我都一律保存为*.SVG或*.PDF格式（矢量图，可以排版）。之前出现过这种需求：需要删除PDF文件中的空白页或截取部分页面，我记得当时是充值了WP会员才解决这个问题。今天通过学习“生信技能树”的R系列文章，发现R语言下存在可以处理PDF文件的R包：“pdftools”。原文链接见文末。

切分PDF

# Load pdftools
library(pdftools)

# 2 pages
pdf_length("脱敏隐去/高级生信分析工程师面试题.pdf")

# extract some pages
pdf_subset("脱敏隐去/高级生信分析工程师面试题.pdf",pages = 1:1, output = "subset.pdf")

# Should say 1
pdf_length("subset.pdf")

最终获取结果符合预期

合并PDF

实例来自“生信技能树”，见文末链接。

# Generate another pdf
pdf("test.pdf")
plot(mtcars)
dev.off()

# Combine them with the other one
pdf_combine(c("test.pdf", "subset.pdf"), output = "joined.pdf")

# Should say 4
pdf_length("joined.pdf")

其他

偷个懒，原文链接中还有将多个图片保存至同一PDF文件以及读取PDF文件的功能。学海无涯，我一直遵循实用主义原则，只学目前有需求的（偷懒的借口吧~）。算是抛砖引玉吧，以餍读者。猜想读取PDF功能的一个应用场景是结合切分PDF功能，由前者提供一定的判断逻辑，后者可以进行批量自动化处理。比如：批量删除参考文献。仅猜想，后续有需求再探索。

推文多平台同步发布，公众号内容食用更佳
更多内容，请关注微信公众号“生信矿工”

参考链接

R语言奇淫巧技之pdftools包