HTML转RST转换器

7
我有很多使用docutils转换为HTML的RST(reStructuredText)文件。 使用一个小型开发的JS应用程序(基本的带有HTML5 contenteditable属性的iframe),非技术人员可以轻松地编辑生成的HTML页面。目标是将在HTML中进行的修改应用回原始的RST文件。 我想知道是否有一种方法可以通过原始_RST->输出_HTML转换的ground-truth来训练算法,以便我们稍后可以将输出_HTML + 微小修改反向转换为RST?这将是什么样的算法?我应该从哪里开始挖掘? 为了简化问题,我也可以使用docutils的内部XML AST表示作为文档输入(RST到XML-AST:http://docutils.sourceforge.net/tools/quicktest.py),然后修复xml2rst+xslt项目(http://www.merten-home.de/FreeSoftware/xml2rst/) 欢迎任何建议。

很抱歉这并不能回答你的问题,但我认为用户生成的HTML从安全角度来看非常糟糕。定义哪些区域应该由用户编辑,并使用特定数据(不包含原始HTML)进行操作。 - Yaroslav Nikitenko
1个回答

4

试试使用Pandoc

如果你需要将文件从一种标记格式转换为另一种标记格式,Pandoc是你的瑞士军刀。


1
谢谢。我尝试对由Sphinx生成的程序文档XML文件进行此操作,但这会留下很多.. raw:: html示例。 - Yaroslav Nikitenko
它还会忽略xml:space="preserve"标记,并将我的所有代码变成单行。它会破坏强调标签(在rst中应该变成*)。我听说过pandoc,但似乎它是一个相当弱的解决方案。 - Yaroslav Nikitenko

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接