XML、HTML和XHTML文档的有效Content-Type是什么?

173

XML,HTML和XHTML文档的正确内容类型是什么?

我需要编写一个简单的网络爬虫,只抓取这些文件。

现在由于mod_rewrite,例如http://example.net/index.html可以用作JPEG文件,因此我需要从响应头检查内容类型并将其与允许的内容类型列表进行比较。

我可以从哪里获取这样的列表?


关于片段,请参见https://dev59.com/sGIk5IYBdhLWcg3wadcD和https://www.w3.org/TR/xml-fragment。 - Peter Krauss
1个回答

293

HTML: text/html,句号。

XHTML:application/xhtml+xml,或仅遵循HTML兼容性指南时使用text/html。请参阅W3Media Types Note

XML:text/xmlapplication/xmlRFC 2376)。

还有许多其他基于XML的媒体类型,例如application/rss+xmlimage/svg+xml。可以肯定的是,任何以+xml结尾但未被识别的注册媒体类型都是基于XML的。请查看IANA列表以获取以+xml结尾的已注册媒体类型。

(对于未注册的x-类型,所有保证都没有,但希望+xml能够得到尊重。)


41
关于“text/xml”和“application/xml”的区别,可以参考这里:https://dev59.com/xG445IYBdhLWcg3wfKYZ - sanmai
同样适用于片段,请参见http://w3.org/TR/xml-fragment或[这个问题](https://dev59.com/sGIk5IYBdhLWcg3wadcD)。 - Peter Krauss

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接