当前位置: 首页 > news >正文

分享一个微软开源的Python库用来扫盲转换 markdown格式 知识库

https://github.com/microsoft/markitdown

使用需要Python 3.10 以及以上版本,下载源码后本地安装

gitclone git@github.com:microsoft/markitdown.gitcdmarkitdown pipinstall-e'packages/markitdown[all]'

使用方法

markitdown 文件-o结果.md

它还支持插件,默认没自带的,你可以在 github 上搜索#markitdown-plugin

截止本文时间,该项目更新到 0.1.5 版本,整体上来讲能够达到一个扫盲的作用

excel、csv 整体识别为 markdown 的表格 pdf 需要二次处理排版,例如 pdf 中的非正文字体,会重复或者单独成行,甚至一些符号会导致确实,总体上起到一个扫盲转换 html 需要二次处理排版,例如 特殊样式会单独存在,主体内容会提取成 markdown 对应的格式,例如 csdn 的代码框,代码部分会识别成 markdown 代码框,但会存留一个 ol 列表需要删除。同样起到一个扫盲作用 ppt 需要二次处理排版,ppt中的图片以空应用存在,特殊格式也会单独成行,同样起到一个扫盲作用 word 效果仅次于 excel ,虽然还是需要二次处理,但偏向于微调 音频文件,当做没有就行,它实现也是依赖在线音频转换服务,和你找个网站转完,在写成 md 文件一样的 图片文件,假功能,不报错,结果没有任何内容 json 没用,原文件内容输出
http://www.cnnetsun.cn/news/2191550.html

相关文章:

  • google搜索 cookie算法分析
  • CentOS 7/8远程桌面避坑指南:xrdp安装后黑屏、闪退?一次解决所有常见故障
  • 网盘下载太慢?这款开源工具让你免费解锁八大网盘直链下载
  • 抖音内容批量下载终极方案:告别手动录屏的智能工具指南
  • Go语言技能树实战:从并发模式到REST API的工程化演练
  • 强化学习在数学自动证明中的应用与优化
  • 1个侦探工具:3分钟解决Windows快捷键修复难题
  • 目标检测新思路:用Deformable DETR的多尺度注意力,让你的模型‘看清’小物体
  • Visual C++运行库依赖难题的系统级解决方案:VisualCppRedist AIO项目深度解析
  • 文件驱动架构:LemonAid极简问题追踪器的设计与部署实践
  • K8S集群突然失联?别慌,手把手教你排查并修复x509证书过期问题(附完整命令)
  • 别再死记硬背SV约束语法了!用这3个UVM实战案例,带你玩转SystemVerilog随机化验证
  • C语言函数级可验证性优化:用__attribute__((section)) + 静态断言实现FDA要求的100%路径覆盖证据链
  • 从标注到训练:手把手教你用Labelme搞定实例分割数据(附避坑指南)
  • DDrawCompat:让Windows 11也能完美重温DirectX经典游戏的神器
  • 卡梅德生物技术快报|慢病毒包装:大鼠 DOT1L 基因 Lentiviral Packaging 载体构建技术实现|生物实验代码化流程
  • UltraFlux框架:4K图像生成的协同设计与优化
  • Switch游戏机系统定制终极指南:5步打造个性化游戏空间
  • 基于ReAct范式的ClaudeR智能体框架:构建可控AI工作流
  • 别再傻傻分不清!STM32驱动有源/无源蜂鸣器,从硬件接线到代码实战全解析
  • Yo‘City:高效并行3D城市生成技术解析
  • BayLing 2多语言大模型:从交互式翻译到百语通用助手的进化与部署实战
  • 用Python复刻经典AI实验:手把手教你实现一个动物识别专家系统
  • 5分钟上手Python剪映自动化:用代码解放你的剪辑工作!
  • 华为防火墙ENSP实验:从零配置Trust、Untrust、DMZ三区域通信(附避坑指南)
  • 告别数据孤岛:用OneNET物模型+微信小程序,低成本打造你的树莓派传感器数据监控面板
  • 3步专业实践:怎样高效配置Windows风扇控制软件FanControl
  • TAU文化声音理解基准测试:音频模型的地域文化识别挑战
  • Vite项目上线后,老板说IE11打不开?手把手教你用@vitejs/plugin-legacy搞定浏览器兼容
  • [实战] 2026制造业质量管理:工程图纸特征自动提取与检验计划数字化流程