您是否正在寻找一种方法来防止垃圾评论发送者和诈骗者使用内容抓取工具采集您的wordpress博客内容?
创新互联公司是一家专注于成都网站设计、成都网站建设与策划设计,馆陶网站建设哪家好?创新互联公司做网站,专注于网站建设十多年,网设计领域的专业建站公司;建站业务涵盖:馆陶等地区。馆陶做网站价格咨询:13518219792
作为网站所有者,看到有人在未经许可的情况下采集您的内容,从中获利,在Google等搜索引擎上的排名超过您,这是非常令人沮丧的。
在本教程中,我们将介绍什么是博客内容采集、如何减少和防止内容采集,甚至如何利用内容抓取来为自己谋利。
博客内容采集抓取是指从众多来源获取内容并在另一个站点上重新发布的内容。通常这是通过您博客的RSS Feed自动完成的。
内容抓取现在非常容易,任何人都可以启动WordPress网站,放置免费或商业主题,并安装一些插件,这些插件将从选定的博客中采集内容。
我们的一些用户问我们为什么要采集我的内容?简单的答案是因为你很棒。事实是,这些内容抓取者别有用心。以下是有人会采集您的内容的几个原因:
这些只是有人会采集您的内容的几个原因。
捕获内容抓取工具是一项乏味的任务,可能会占用大量时间。您可以通过几种方法来捕获内容抓取工具。
用你的文章标题在谷歌搜索
是的,这听起来很痛苦。这种方法可能不值得,特别是如果你正在写一个非常流行的话题。
引用
如果您在文章中添加内部链接,如果网站采集您的内容,您会注意到引用。这种方式几乎是告诉您他们正在刮您的内容。
如果您使用Akismet,那么很多这些引用将显示在垃圾评论文件夹中。同样,这仅在您的文章中有内部链接时才有效。
Ahrefs
如果您可以使用Ahrefs之类的 SEO 工具,则可以监控您的反向链接并留意被盗内容。
人们在处理内容采集工具时采用的方法很少:无所作为方法、删除方法或利用它们的方法。
让我们来看看每一个。
什么都不做的方法
这是迄今为止您可以采取的最简单的方法。通常最受欢迎的博主会推荐这个,因为它需要很多时间来对抗爬虫。
现在很明显,如果是像Smashing Magazine、CSS-Tricks、Problogger等知名博客,那么他们就不必担心了。他们是谷歌眼中的权威网站。
然而,我们知道一些好的网站被标记为采集工具,因为谷歌认为他们的采集工具是原始内容。因此,在我们看来,这种方法并不总是最好的。
采取措施
这与“什么都不做”的方法完全相反。在这种方法中,您只需联系抓取工具并要求他们删除内容。
如果他们拒绝这样做或根本不回复您的请求,那么您可以向他们的主机提交DMCA(数字千年版权法案)。
根据我们的经验,大多数抓取网站都没有可用的联系表格。如果他们这样做,然后利用它。如果他们没有联系表,那么您需要进行Whois查询。
您可以在管理联系人上看到联系信息。通常行政和技术联系人是相同的。
它还将显示域注册商。大多数知名的网络托管公司和域名注册商都有DMCA表格或电子邮件。您可以看到这个特定的人使用HostGator,因为他们的域名服务器。HostGator有一个DMCA投诉表格。
如果名称服务器类似于ns1.theirdomain.com,那么您必须通过反向IP查找和搜索IP进行更深入的挖掘。
您还可以使用DMCA.com的第三方服务进行删除。
Jeff Starr在他的文章中建议你应该屏蔽坏人的IP。访问您的日志以获取其IP地址,然后在您的根.htaccess文件中使用以下内容阻止它:
Deny from 123.456.789
您还可以通过执行以下操作将它们重定向到虚拟Feed:
RewriteCond %{REMOTE_ADDR} 123\.456\.789\. RewriteRule .* http://dummyfeed.com/feed [R,L]
正如Jeff建议的那样,您可以在这里获得真正的创意。将它们发送到包含Lorem Ipsum的非常大的文本提要。你可以给他们发送一些恶心的坏事图片。您还可以将它们直接发送回他们自己的服务器,从而导致无限循环,从而使他们的网站崩溃。
我们采取的最后一种方法是利用它们。
这是我们处理内容抓取工具的方法,结果非常好。它有助于我们的SEO以及帮助我们赚取额外收入。
大多数抓取工具使用您的RSS Feed来采集您的内容。所以这些是你可以做的一些事情:
查看我们的指南,了解如何在WordPress中控制您的RSS Feed页脚以获取更多提示和想法。
考虑到如果您采用我们的大量内部链接方法、添加附属链接、RSS横幅等,您将有可能将内容抓取减少到很好的程度。如果您采纳Jeff Starr的重定向内容抓取工具的建议,那也将阻止这些抓取工具。除了我们上面分享的内容之外,您还可以使用其他一些技巧。
博客社区一直在争论是否有完整的RSS Feed或摘要RSS Feed。我们不会详细讨论该辩论,但是拥有仅摘要RSS Feed的优点之一是您可以防止内容抓取。
您可以通过转到WordPress管理后台并转到设置 » 阅读来更改设置。然后更改设置对于feed中的每篇文章,包含全文或者摘要。
Trackbacks和Pingbacks肯定有很大的用处,但是,它们现在经常被滥用。
主题通常会在评论下方或评论中显示引用和pingback。这使垃圾邮件发送者有动力抓取您的网站并发送引用。如果您错误地批准了它,那么他们会得到一个反向链接并从您的网站上提及。当然,您可以在所有文章中禁用引用。
有可能。如果您看到来自爬虫站点的大量流量,那么它可以。
然而,在大多数情况下,事实并非如此。您应该始终尝试删除您的内容。但是您会意识到随着您的博客变大,几乎不可能跟踪所有内容抓取工具。国外网站博主会发出DMCA投诉,但是一般情况下,大部分博主知道还有很多其他网站在采集他们的内容,只是他们无暇顾及。
我们希望本教程能帮助您防止WordPress内容被采集抓取。您可能还想了解如何实现WordPress图片被盗链,及通过蜘蛛统计分析插件拦截不需要的爬虫。
网页题目:如何防止别人采集抓取您的WordPress内容
当前URL:http://www.shufengxianlan.com/qtweb/news33/230583.html
网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联