FAST For SharePoint 网络爬虫元标记提取

3

我正在使用FAST For SharePoint来爬取一个非SharePoint网站。网站已经被成功爬取,我可以获取任何关键词的搜索结果。

我想在结果页面上通过HTML页面元标记创建筛选器。必须有两个级别的筛选器:类别和子类别。如果用户点击类别,则筛选器面板必须显示所有相关的子类别。

元标记如下:

<meta name="Category" content="Products"/>
<meta name="SubCategory" content="Electronic"/>

如何从FAST For SharePoint Webcrawler抓取的HTML页面中提取元标记?

我试图将元标记名称添加到FAST Search Administration > Managed Properties,并为这些元标记配置细分面板,但我无法获得结果。它不起作用。

谢谢!

1个回答

0
如果您想使用自定义托管属性,您需要先将它们绑定到已爬取属性。爬取属性会在爬取期间自动创建,或者您可以在PowerShell中创建它们,请参见以下链接:http://msdn.microsoft.com/en-us/subscriptions/ff393776(v=office.14).aspx 如果我理解正确,您要做的是获取页面HTML中的信息。在这种情况下,您无法使用开箱即用的网络爬虫获取此信息。如果您想创建自定义爬虫以获取所需信息,我建议您查看自定义BDC连接器:http://msdn.microsoft.com/en-us/library/ee557349(v=office.14).aspx

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接