RAG的出现强化了业界对解析PDF文档的需求,通过解析文档得到数据来回复用户问题是目前常见的大模型落地方式之一。目前常见的PDF解析工具有
PDFplumber、PyPDF2、Marker、PaperMage、XPDF
https://www.cnblogs.com/yanshw/p/17669007.html
https://blog.csdn.net/zhang_ergou/article/details/103083748
https://blog.csdn.net/BluerCat/article/details/107855588
PDFplumber
PDFplumber是目前最常见的pdf解析工具,支持中文pdf解析,存在表格时解析效果也很好,还可以拿到bbox。缺点是无法对双栏等特殊格式进行解析。
PyPDF2
$a^2 + b^2 = C^2$
Marker
$\alpha+\beta=\gamma$