etlpy是python编写的网页数据抓取和清洗工具,核心文件etl.py不超过500行,具备如下特点 爬虫和清洗逻辑基于xml定义,不需手工编写 基于python生成器,流式处理,对内存无要求 内置线程池,支持串行和并行处理 内置正则解析,html转义,json转换等数据清洗功能,直接输出可用文件 插件式设计,能够非常方便地...
日期:2020-08-25 浏览:2909次 评论: 0 阅读全文