转换利器:多格式文档一键转 Markdown 并集成 LLM
zhezhongyun 2025-01-20 18:11 28 浏览
在数字化时代,信息传播变得便捷,但也面临格式兼容挑战。开源文档转 Markdown 工具应运而生,解决了格式转换难题,促进了内容的自由流通和协作。
Markdown,作为一种轻量级标记语言,因其简洁易读而成为技术写作、博客和文档管理的首选。它的简单性也降低了 LLM 处理文本时的复杂性,无需解析复杂的格式和样式。
本文 Kakuqo 将介绍微软开源的 MarkItDown 文档转换工具,它能够将不同类型的文档转换成 Markdown 格式的文档。该工具很火爆,开源仅一个多月,目前 Github 的 Star 数已达 25.9K。
MarkItDown 简介
MarkItDown 是一款将各种文件转换为 Markdown 的工具。目前它支持以下文档类型:
- PowerPoint(pptx)、Word(docx) 和 Excel(xlsx)
- Images (EXIF metadata and OCR)
- Audio (EXIF metadata and speech transcription)
- HTML、Text-based formats (CSV, JSON, XML)
- ZIP files (iterates over contents)
MarkItDown 使用示例
要测试 MarkItDown 的功能,我们可以使用 MarkItDown 项目提供的各种测试文件,这些文件所在的路径是:markitdown/tests/test_files。
docx 转 markdown
pptx 转 markdown
本地运行 MarkItDown
要在本地运行 MarkItDown,你需要确保本地已经安装了 Python。之后,你就可以通过 pip install markitdown 命令来安装 MarkItDown。
命令行使用
markitdown path-to-file.pdf > document.md
或者使用 -o 参数来设定输出的文件路径:
markitdown path-to-file.pdf -o document.md
Python API 集成
在 Python 中,使用 MarkItDown 很简单,只需几行代码就搞定了。
from markitdown import MarkItDown
md = MarkItDown()
result = md.convert("test.xlsx")
print(result.text_content)
其实 MarkItDown 不仅仅是一个文档转换工具,它也支持利用 AI 大语言模型来实现一些智能文档处理。比如,利用 gpt-4o 来为图片生成描述信息。
from markitdown import MarkItDown
from openai import OpenAI
client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4o")
result = md.convert("example.jpg")
print(result.text_content)
Docker
docker build -t markitdown:latest .
docker run --rm -i markitdown:latest < ~/your-file.pdf > output.md
https://github.com/microsoft/markitdown
- 上一篇:电脑文件后缀名即扩展名大全
- 下一篇:浏览器指纹是什么?浏览器指纹包括哪些信息
相关推荐
- Axure教程
-
来人人都是产品经理【起点学院】,BAT实战派产品总监手把手系统带你学产品、学运营。前几天看到有人介绍了axure8的图片放大原型设计步骤(http://www.woshipm.com/rp/24687...
- 保姆级教程:手把手教你用 Readdy.ai 轻松产品设计与前端开发
-
本文将为你介绍一款强大的AI工具——Readdy.ai,它不仅能自动生成精美的UI设计稿,还能直接生成可用的前端代码,极大地提升了开发效率。前几天雷神为大家介绍了一款AI设计工具莫高设计,但是...
- 前端学习保姆级教程,轻松入门 Web 开发
-
在当今数字化时代,我们每天浏览的网页、使用的各类应用,其美观的界面、流畅的交互体验背后,都离不开前端开发技术的支撑。前端开发,简单来说,就是负责将网站或应用的界面呈现给用户,它直接影响着用户对产品的第...
- 分享几个css实用技巧
-
本篇将介绍几个css小技巧,目录如下:自定义引用标签的符号重置所有标签样式禁止文本选择制作小三角形自定义<q>引用标签的符号默认q标签引用符号是浏览器根据不同语言环境自动设置的,当然我们也...
- 五步做一个高保真可交互原型-Principle教程
-
这篇教程要介绍的案例是:App界面上调整时间的可交互原型。我们先看一下效果:这个案例用的是Principle这款软件做的。Principle近段时间非常流行的一款做原型的软件。很多公司也用Princi...
- asp网站源码安装教程
-
asp网站源码安装指南1、打开控制面板并单击2、点选管理工具选项3、请单击打开Internet信息服务(IIS)管理器应用查看4、点击开始按钮5、请将项目文件移动到C:inetpubwwwr...
- web前端HTML教程——开发环境搭建下载和安装编辑器
-
html开发环境搭建有一个好的编辑器我们可以方便地的开发项目,编写代码,配置和管理我们的项目。所以我们开始编写html代码之前需要搭建开发环境。基于html项目的开发和代码编写现在网上有很多编辑器,也...
- 如何用控制台打印日历?
-
朋友们大家好,今天我给大家带来一个控制台小程序——打印当月的日历,效果如下图:笔者运行这个程序的时候是2022年7月30日,所以在日期的30后面加了一个*符号。这个程序很简单,但有些知识点我也会为大家...
- dotnet 值拷贝、浅拷贝、深拷贝详解
-
简介在.NET中,值拷贝(ValueCopy)主要指的是将一个值类型的实例或对象的值复制到另一个变量中,使两个变量之间互不影响。我们可以从几个维度来详细理解:值拷贝的本质.NET中的类型分...
- 41 基于Sentinel的限流
-
Sentinel支持对SpringCloudGateway、Zuul等主流的APIGateway进行限流。从1.6.0版本开始,Sentinel提供了SpringCloud...
- Java反射机制:神秘之门的钥匙
-
Java反射机制:神秘之门的钥匙什么是Java反射?当你第一次听说Java反射的时候,你可能会感到困惑。简单来说,Java反射就是让你在程序运行时动态地操作类和对象的能力。这就像一把钥匙,能够打开Ja...
- Java反射机制:魔法般的代码操控
-
Java反射机制:魔法般的代码操控在这个充满无限可能的编程世界里,Java反射机制就像一位神秘的魔法师,它允许程序在运行时检查类、方法、字段等信息,甚至还能动态调用这些成员。这种能力让Java开发者能...
- 自己动手从0开始实现一个分布式 RPC 框架
-
前言为什么要自己写一个RPC框架,我觉得从个人成长上说,如果一个程序员能清楚的了解RPC框架所具备的要素,掌握RPC框架中涉及的服务注册发现、负载均衡、序列化协议、RPC通信协议、Socket通信、异...
- C# 实战指南:使用 iText7 高效处理 PDF 文件
-
1.引言在现代开发中,处理PDF文件是一个常见的需求,例如生成报告、填充表单、设置权限或签名等。iText7是一个功能强大的PDF操作库,支持多种PDF操作,包括表单填充、加密、数字签...
- 手写代码生成工具实现类似Mybatis-Plus的效果-----02
-
#全新智己L6全国试驾开启#packagecom.alatus.builder;importcom.alatus.Entity.FieldInfo;importcom.alatus.Ent...
- 一周热门
- 最近发表
- 标签列表
-
- HTML 教程 (33)
- HTML 简介 (35)
- HTML 实例/测验 (32)
- HTML 测验 (32)
- HTML 参考手册 (28)
- JavaScript 和 HTML DOM 参考手册 (32)
- HTML 拓展阅读 (30)
- HTML常用标签 (29)
- HTML文本框样式 (31)
- HTML滚动条样式 (34)
- HTML5 浏览器支持 (33)
- HTML5 新元素 (33)
- HTML5 WebSocket (30)
- HTML5 代码规范 (32)
- HTML5 标签 (717)
- HTML5 标签 (已废弃) (75)
- HTML5电子书 (32)
- HTML5开发工具 (34)
- HTML5小游戏源码 (34)
- HTML5模板下载 (30)
- HTTP 状态消息 (33)
- HTTP 方法:GET 对比 POST (33)
- 键盘快捷键 (35)
- 标签 (226)
- HTML button formtarget 属性 (30)