.doc
或 .docx
文件转换为 Markdown 或类似的文本格式?注:理想情况下,我希望在 MS Word 文档中指定的字体(例如
consolas
)被呈现为text-code: ```....```
。.doc
或 .docx
文件转换为 Markdown 或类似的文本格式?consolas
)被呈现为text-code: ```....```
。pandoc -f docx -t markdown foo.docx -o foo.markdown
支持多种 Markdown 格式:
-t gfm (GitHub-Flavored Markdown)
-t markdown_mmd (MultiMarkdown)
-t markdown (pandoc’s extended Markdown)
-t markdown_strict (original unextended Markdown)
-t markdown_phpextra (PHP Markdown Extra)
-t commonmark (CommonMark Markdown)
brew install pandoc
)成功运行。 - tdc--extract-media=./
。它会创建一个名为media
的文件夹,并将所有图片放入其中,这些图片将正确地显示在Markdown文件中。 - Sergio针对“docx -> markdown”这个问题,可以使用 Microsoft Word 的 Writeage 插件。此插件也支持反向转换,即“markdown -> docx”。
我测试过以下三种:(1) Pandoc (2) Mammoth (3) w2m
这是最优秀的转换工具,支持众多文件类型(请查看 Pandoc 的手册以获得支持的文件类型列表):
pandoc -f docx -t gfm somedoc.docx -o somedoc.md
要将pandoc
导出Markdown表格(在pandoc中称为'pipe_tables'),请使用multimarkdown
或gfm
输出格式。
如果要将格式设置为PDF,则pandoc
会使用LaTeX
模板,因此您可能需要安装适用于您的操作系统的LaTeX
软件包,如果该命令无法直接使用。有关说明,请参见LaTeX安装
对于docx
,请使用Writeage。
如果您希望保留unicode字符,表情符号并保持优秀的字体,则在文件格式之间使用复制和粘贴操作时,您可以从以下编辑器中获得一些收益。请注意,这些不会原生读取或写入docx
。
对于编程等效,您可以通过调用不同的pdf-engine及其各自的选项来获得一些结果,但我尚未测试过此方法。 pandoc默认为'pdflatex'。
pandoc --pdf-engine=
pandoc --pdf-engine-opt=STRING
对于美国以外的地区,请设置geometry变量:
pandoc -s -V geometry:a4paper -o outfile.pdf infile.md
值得一提的是,当我们发现Markdown语法时,很不明显的一点是MultiMarkdown是目前功能最丰富的markdown格式。
MultiMarkdown支持元数据、目录、脚注、数学公式、表格和YAML等功能。
但是Github默认使用gfm
格式,也支持表格。我在Github/GitLab上使用gfm
,在其他地方使用MultiMarkdown
。
Mammoth 以将 Word 转换为 HTML 的功能而闻名,但现在它还支持一个Markdown 写作器模块。最近我检查时,Mammoth 对 Markdown 的支持仍处于早期阶段,所以您可能会发现某些功能不被支持。通常情况下,请查看网站获取最新信息。
如果想使用 Javascript 版本,请先安装 NodeJS,然后再安装 Mammoth:
npm install -g mammoth
使用命令行将Word文档转换为Markdown...
mammoth document.docx --output-format=markdown
NodeJS API 用于将内容转换为 Markdown 格式...
var mammoth = require("mammoth");
mammoth.convertToMarkdown({path: "path/to/document.docx"});
Mammoth Markdown Writer目前支持以下功能:
Mammoth命令行工具和API已经被移植到多种语言中:
无Markdown(2016年5月):
使用Markdown:
mammoth document.docx --output-format=markdown > document.md
这个命令对我来说很有效,因为似乎还没有直接支持这样做的功能。 - pollirrata$ gem install word-to-markdown
$ w2m path/to/document.docx
Word to Markdown 可以一试,或者可以尝试使用 这里描述的方法,使用 Calibre 和 Pandoc 通过HTMLZ转换,以下是他们使用的bash脚本:
#!/bin/bash
mkdir temp
cp $1 temp
cd temp
ebook-convert $1 output.htmlz
unzip output.htmlz
cd ..
pandoc -f html -t markdown -o output.md temp/index.html
rm -R temp
https://gist.github.com/hawkrives/2305254
按照“使用代码”下的说明,在Word中创建一个新的宏。
pandoc
现在支持直接将.docx
转换为.md
,包括数学公式。请查看这里的第35个示例。 - akhmed