创新互联Python教程:解析表格数据,Python与Tika对比

为了证明Python确实在解析表格数据上优于其他的选择,今天我们为大家进行实例对比,具体如下:

成都创新互联专注为客户提供全方位的互联网综合服务,包含不限于成都网站设计、网站制作、罗湖网络推广、微信小程序开发、罗湖网络营销、罗湖企业策划、罗湖品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等,从售前售中售后,我们都将竭诚为您服务,您的肯定,是我们最大的嘉奖;成都创新互联为所有大学生创业者提供罗湖建站搭建服务,24小时服务热线:028-86922220,官方网址:www.cdcxhl.com


PDF文件表格样例



Python解析结果



其他样式解析,如Tika


1、TEXT格式


  Tika tika = new Tika();
        tika.setMaxStringLength(100 * 1024 * 1024);
        try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {
            return tika.parseToString(stream);
        }


Text格式解析结果


2、XHTML格式


       ContentHandler handler = new ToXMLContentHandler();
        AutoDetectParser parser = new AutoDetectParser();
        Metadata metadata = new Metadata();
        try (InputStream stream = new FileInputStream(new File("600060_2018_zB.pdf"))) {
            parser.parse(stream, handler, metadata);
            return handler.toString();
        }


XHTML格式解析结果


解析PDF常用组件(PdfBox、iText、Tika等)都无法将表格数据解析成有规则的格式。解析后格式基本是TEXT、XHTML等导致处理表格数据变的非常复杂。


根据对比我们可以发现,用Python解析PDF的表格数据更为简单方便,下期我们就为大家带来Python解析PDF具体的方法。更多Python学习推荐:PyThon学习网教学中心。

当前题目:创新互联Python教程:解析表格数据,Python与Tika对比
网站链接:http://www.shufengxianlan.com/qtweb/news42/282742.html

网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联