MinerU - 一站式开源高质量数据提取工具

MinerU - 一站式开源高质量数据提取工具
首页 正文

MinerU - 一站式开源高质量数据提取工具

软件介绍

MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。

Magic-PDF PDF文档提取
Magic-Doc 网页与电子书提取

Magic-PDF 是一款将 PDF 转化为 markdown 格式的工具。支持转换本地文档或者位于支持S3协议对象存储上的文件。

主要功能

  • 删除页眉、页脚、脚注、页码等元素,确保语义连贯
  • 输出符合人类阅读顺序的文本,适用于单栏、多栏及复杂排版
  • 保留原文档的结构,包括标题、段落、列表等
  • 提取图像、图片描述、表格、表格标题及脚注
  • 自动识别并转换文档中的公式为LaTeX格式
  • 自动识别并转换文档中的表格为HTML格式
  • 自动检测扫描版PDF和乱码PDF,并启用OCR功能
  • OCR支持84种语言的检测与识别
  • 支持多种输出格式,如多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等
  • 支持多种可视化结果,包括layout可视化、span可视化等,便于高效确认输出效果与质检
  • 支持CPU和GPU环境
  • 兼容Windows、Linux和Mac平台

 

GitHub官方地址:https://github.com/opendatalab/MinerU

本文来自投稿,不代表本站立场,如若转载,请注明出处:https://www.4kit.cn/post-106.html
GPS Test:卫星状态显示工具,支持显示各国的各种卫星系统信号与分布
« 上一篇 11-22
安卓看漫画追新番
下一篇 » 11-21

发表评论

  • 泡泡
  • 阿呆
  • 阿鲁