J
Jay2Echo
V1
2022/11/26阅读:53主题:默认主题
R语言操作PDF文件的包
背景
有过文章投稿经验的朋友们知道,文章中的图片排版是个很繁琐的过程。涉及到多个图片的组合跟字体字号的调整。刚开始自己没有这方面经验,对输出的结果图格式比较随意:*.jpg,*.png等等。直到后面需要排版时傻眼了,常规的排版工具:Adobe Illustrator(AI)、福昕编辑器可能对矢量图进行编辑。以后所有结果图我都一律保存为*.SVG或*.PDF格式(矢量图,可以排版)。之前出现过这种需求:需要删除PDF文件中的空白页或截取部分页面,我记得当时是充值了WP会员才解决这个问题。今天通过学习“生信技能树”的R系列文章,发现R语言下存在可以处理PDF文件的R包:“pdftools”。原文链接见文末。
切分PDF
# Load pdftools
library(pdftools)
# 2 pages
pdf_length("脱敏隐去/高级生信分析工程师面试题.pdf")
# extract some pages
pdf_subset("脱敏隐去/高级生信分析工程师面试题.pdf",pages = 1:1, output = "subset.pdf")
# Should say 1
pdf_length("subset.pdf")

最终获取结果符合预期
合并PDF
实例来自“生信技能树”,见文末链接。
# Generate another pdf
pdf("test.pdf")
plot(mtcars)
dev.off()
# Combine them with the other one
pdf_combine(c("test.pdf", "subset.pdf"), output = "joined.pdf")
# Should say 4
pdf_length("joined.pdf")
其他
偷个懒,原文链接中还有将多个图片保存至同一PDF文件以及读取PDF文件的功能。学海无涯,我一直遵循实用主义原则,只学目前有需求的(偷懒的借口吧~)。算是抛砖引玉吧,以餍读者。猜想读取PDF功能的一个应用场景是结合切分PDF功能,由前者提供一定的判断逻辑,后者可以进行批量自动化处理。比如:批量删除参考文献。仅猜想,后续有需求再探索。
-
推文多平台同步发布,公众号内容食用更佳 -
更多内容,请关注微信公众号“生信矿工”
参考链接
作者介绍
J
Jay2Echo
V1