XML,HTML和XHTML文档的正确内容类型是什么?
我需要编写一个简单的网络爬虫,只抓取这些文件。
现在由于mod_rewrite,例如http://example.net/index.html可以用作JPEG文件,因此我需要从响应头检查内容类型并将其与允许的内容类型列表进行比较。
我可以从哪里获取这样的列表?
XML,HTML和XHTML文档的正确内容类型是什么?
我需要编写一个简单的网络爬虫,只抓取这些文件。
现在由于mod_rewrite,例如http://example.net/index.html可以用作JPEG文件,因此我需要从响应头检查内容类型并将其与允许的内容类型列表进行比较。
我可以从哪里获取这样的列表?
HTML: text/html
,句号。
XHTML:application/xhtml+xml
,或仅遵循HTML兼容性指南时使用text/html
。请参阅W3Media Types Note。
XML:text/xml
,application/xml
(RFC 2376)。
还有许多其他基于XML的媒体类型,例如application/rss+xml
或image/svg+xml
。可以肯定的是,任何以+xml
结尾但未被识别的注册媒体类型都是基于XML的。请查看IANA列表以获取以+xml
结尾的已注册媒体类型。
(对于未注册的x-
类型,所有保证都没有,但希望+xml
能够得到尊重。)