如何将HTML转换为Textile?

11

我正在爬取一个静态html网站并将内容移动到基于数据库的CMS中。我想在CMS中使用Textile。

是否有一种工具可以将HTML转换为Textile,以便我可以爬取现有站点,将HTML转换为Textile,并将该数据插入数据库?

5个回答

1

我知道这是一个老问题,但最近我也尝试过这个,却找不到有用的东西,直到我发现了Pandoc。它可以转换许多其他标记格式-非常出色。


但是您会失去样式和其他内容。那么,您不妨转换为Markdown。 - Bruno

0

由于没有 JavaScript 实现,我写了一个: https://github.com/cmroanirgo/to-textile

目前它还有点原始,因为它是“to-markdown”等价物的盲端口,但应该能完成工作。


0

-2

这是一个简单的标记替换,只需要一个好的正则表达式就可以解决。

我建议使用Perl、LWP::Simple和一些正则表达式来完成整个过程(爬取、去除设计和菜单、转换为文本格式,然后发布到数据库中)。


-2

尝试这个简单的Java代码,希望它对你有用

import java.net.*;
import java.io.*;

class Crawle
{

public static void main(String ar[])throws Exception
{


URL url = new URL("https://www.google.co.in/#q=i+am+happy");
InputStream io =  url.openStream();
BufferedReader br = new BufferedReader(new InputStreamReader(io));
FileOutputStream fio = new FileOutputStream("crawler/file.txt");
PrintWriter pr = new PrintWriter(fio,true);
String data = "";
while((data=br.readLine())!=null)
{
pr.println(data);
System.out.println(data);
}

}
}
}

1
与纺织品无关。 - cmroanirgo
根据问题,他想爬取任何网页并将其保存到任何文本文件中,因此我在我的答案中发布的内容只与此相关。在我的答案中,我分享了上述查询的简单示例。我仍然不明白为什么会被投票否决的原因。 - Simmant

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接