- ▪ robots.txt 文件
- 3 部分页面的Noindex处理
- ▪ 标签
- ▪ 结构化评论
Noindex 基础知识
编辑HTML机器人元标签中,Noindex值要求自动化互联网机器人不要对网页进行索引(index),使用这个元标签的原因是机器人拥有非常大的数据库、变化很大的网页以及网络正在开发的页面。这包括防止页面、您希望保持更多私密性的网页以及页面的打印机/移动设备友好版本被索引。检查网站 Noindex 标签的责任落在搜索机器人的开发人员身上,因此这些标签应该被忽略。此外,每个搜索引擎公司解释Noindex标签的方式也略有不同。
为所有文档处理Noindex
编辑<html><head><metaname="robots"content="Noindex"><title>不要索引此页面</title></head>
元标记内容的可用值为:“none”、“all”、“index”、“Noindex”、“nofollow”、“follow”。值的组合也是可能的,例如:
<metaname="robots"content="Noindex,follow">
机器人特定指令
通过在元标记中指定不同的“名称”值,可以将 noindex 指令限制为特定的机器人。
例如,要专门阻止 Google 机器人,您可以指定:
要阻止 Yahoo 的机器人,请指定:
<metaname="slurp"content="Noindex">
要阻止 MSN 机器人,请指定:
<metaname="msnbot"content="Noindex">
robots.txt 文件
您可以使用 robots.txt 文件阻止抓取。
部分页面的Noindex处理
编辑例如,可以将网页的某些部分排除在索引之外,例如导航文本。有多种技术可以实现此目的,并且可以组合使用几种技术。Google 的主要索引蜘蛛 Google bot 尚未确认能够识别这些技术有。
标签
俄罗斯搜索引擎Yandex引入了标签,它可以防止标签之间的内容被索引。为了允许源代码验证,可以使用来代替:
<p>该文本已被索引<Noindex>该文本未被索引</Noindex><!--Noindex-->该文本未被索引<!--/Noindex --></p>
其他索引蜘蛛,包括 Atomz,也识别 标签。
微格式
2005 年微格式草案规范具有相同的功能。机器人排除配置文件在 HTML 标记中查找 class="robots-Noindex" 的属性和值:
<p>该文本已索引</p><divclass="robots-Noindex">该文本未索引</div><spanclass="robots-Noindex">文本未索引。 /span> 此文本未编入索引。
也可以组合多个值,例如:
<divclass="robots-Noindexrobots-follow">文本。</div>
雅虎!
2007年,Yahoo!在其Spider中引入了与微格式类似的功能。但是,Yahoo!的Spider与class="robots-nocontent"值不兼容,并且仅查找以下值:
<p>该文本已编入索引</p><divclass="robots-nocontent">该文本未编入索引</div><spanclass="robots-nocontent">该文本未编入索引。 </span> <pclass="robots-nocontent" > 该文本未编入索引。 </p>
分享点
SharePoint 2010 中的 iFilter 会排除属性为 class="Noindex" 和值的
标记内的内容。尚不清楚它是否可以应用于其他标记。
<p>该文本已建立索引。</p><divclass="Noindex">该文本未建立索引。</div>
结构化评论
Google Search Appliance 使用结构化评论:
此文本已编入索引。此文本未编入索引。
其他索引蜘蛛使用自己的结构化注释。
百科词条作者:小小编,如若转载,请注明出处:https://glopedia.cn/262573/