时不时我会收到一个Word文档,需要将其显示为网页。目前我正在使用Django的flatpages通过获取MS Word生成的html内容来实现这一点。但生成的html非常混乱。有没有更好的方法可以使用Python生成非常简单的html来解决这个问题?
我的超级简单的应用程序WordOff有一个API,可以清理从Word导出的HTML中的垃圾。您可以覆盖flatpages模型的保存方法,将HTML通过API传递第一次保存。像这样:
import urllib
import urllib2
def decruft(html):
data = urllib.urlencode({'html' : html})
req = urllib2.Request('http://wordoff.org/api/clean', data)
response = urllib2.urlopen(req)
return response.read()
def save(self, **kwargs):
if not self.pk: # only de-cruft when content is first added
self.content = decruft(self.content)
super(FlatPage, self).save(**kwargs)
这取决于你要处理多少格式和图片。我会采取以下几种方法之一: