导语:
本文主要介绍了关于解析表格数据,Python与Tika对比的相关知识,包括matlab和minitab,以及excel比对两列数据差异这些编程知识,希望对大家有参考作用。
为了证明Python在解析表格数据方面确实优于其他选项,今天我们就为大家举例对比,如下:
PDF文件表格样例
Python解析结果
其他样式解析,如Tika
1、TEXT格式
<p><span> Tika tika = new Tika();<br/> tika.setMaxStringLength(100 * 1024 * 1024);<br/> try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {<br/> return tika.parseToString(stream);<br/> }<br/></span></p>
Text格式解析结果
2、XHTML格式
<p><span> ContentHandler handler = new ToXMLContentHandler();<br/> AutoDetectParser parser = new AutoDetectParser();<br/> Metadata metadata = new Metadata();<br/> try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {<br/> parser.parse(stream, handler, metadata);<br/> return handler.toString();<br/> }<br/></span></p>
XHTML格式解析结果
解析 PDF 的常用组件(PdfBox、iText、Tika 等)无法将表格数据解析为常规格式。解析后格式基本都是TEXT、XHTML等,这使得处理表格数据非常复杂。
根据对比我们可以发现,用
Python解析PDF
的表格数据更为简单方便,下期我们就为大家带来
Python解析PDF
具体的方法。更多Python学习推荐:
。
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ 如果忘记了 python 的安装位置怎么办09/30
- ♥ 如何使用python运算符优先级?10/27
- ♥ 如何在python中表示一个空集08/27
- ♥ python dump方法序列化12/26
- ♥ 什么是python uwsgi11/13
- ♥ python的默认参数是什么09/15
内容反馈