搜索机器人

什么是搜索机器人?

搜索机器人(有时称为爬虫)是一种持续浏览互联网的机器人程序,通常用于建立搜索索引。

机器人可能会虚假增加流量数据,因此了解它们的存在很重要。

搜索机器人和 Linkly

Linkly 可以检测主动标识自己的搜索机器人和爬虫。您可以在流量报告的"机器人"部分查看哪些点击被归因为机器人。

我们有一篇关于机器人流量以及如何阻止机器人的文章。

社交媒体爬虫的特殊处理

Linkly 改进了对来自 Facebook、YouTube、Google、LinkedIn 和 X 的社交媒体爬虫的处理。

当这些爬虫的流量击中您的链接时:

  • 不会被记录在您的分析中
  • 不会计算在您的点击限制内
  • 爬虫透明地重定向到正确的目的地
  • 这些爬虫始终被允许通过,即使启用了"阻止机器人"功能

这可以防止社交媒体爬虫消耗您的点击限制,同时仍然允许它们生成预览和检查您的链接。

Linkly 流量报告中的机器人流量
Linkly 流量报告中的机器人流量

阻止机器人访问链接

Linkly 可以阻止机器人和搜索爬虫访问您的链接。请参阅机器人流量了解有关启用机器人阻止的说明。

重要: 来自 Facebook、YouTube、Google、LinkedIn 和 X 的社交媒体爬虫即使在启用阻止时也始终被允许通过,以便链接预览继续工作。

机器人是否计算在点击限制内?

来自 Facebook、YouTube、Google、LinkedIn 和 X 的社交媒体爬虫****不计算在您的点击限制内,不会在您的分析中记录。

下面列出的所有其他机器人计算在您的点击限制内,因为无论流量来源如何,监控和重定向流量的成本相同。

被阻止的机器人(遇到阻止页面的机器人)也不计入您的限制。

搜索机器人列表

下面是 Linkly 识别的搜索机器人及其用户代理的列表,如果必要,可以被阻止。

  • 200pleasebot 200PleaseBot
  • 360spider 360Spider
  • abot CrawlDaddy、abot
  • addthis AddThis
  • adldxbot 微软必应广告
  • admantx ADmantX Platform Semantic Analyzer
  • adsbot-google Google Adwords
  • advbot AdvBot
  • ahrefsbot Ahrefs 反向链接研究工具
  • alexa Alexa Crawler
  • apache-httpclient Java http 库
  • apachebench ApacheBench (ab)
  • apis-google APIs-Google
  • appengine-google Google App Engine
  • applebot Apple Bot
  • archive.org_bot 互联网档案馆 (archive.org)
  • ask jeeves Ask Jeeves
  • asynchttpclient Java http 和 WebSocket 客户端库
  • awe.sm Awe.sm URL 扩展器
  • baidu 百度
  • bdcbot Big Data Corp
  • bingbot 微软必应
  • bingpreview 微软必应预览
  • bitlybot bit.ly bot
  • blekkobot Blekkobot
  • blexbot BLEXBot (webmeup)
  • bot@linkfluence.net Linkfluence bot
  • bufferbot BufferBot
  • buibui-checkbot buibui
  • butterfly Topsy Labs
  • buzztalk buzztalk
  • catchbot CatchBot (catchbot.com)
  • check_http Nagios 监视
  • cliqzbot Cliqzbot
  • cmradar/0.1 CMRadar/0.1
  • coldfusion ColdFusion http 库
  • commoncrawl CCBot
  • comodo-webinspector-crawler Comodo
  • crowsnest Crowsnest
  • curabot cura.yt
  • curl curl unix CLI http 客户端
  • dap/nethttp DAP/NetHTTP
  • datagnionbot datagnion.com/bot.html
  • daumoa 韩国门户网站和搜索引擎索引机器人
  • developers.google.com/+/web/snippet/ Google Plus
  • diffbot Diffbot
  • digitalpersona 指纹识别软件 HP 指纹扫描仪
  • domain re-animator bot 域名重新激活机器人
  • domainsbot DomainsBot
  • domaintunocrawler DomainTuno
  • dotbot Dot Bot
  • duckduck Duck Duck Go
  • elb-healthchecker AWS ELB HealthChecker
  • embedly Embedly
  • eoaagent EOAAgent
  • eventmachine httpclient Ruby http 库
  • everyonesocialbot EveryoneSocial
  • evrinid Evri bot
  • exabot Exalead 的机器人
  • exaleadcloudview ExaleadCloudView
  • facebookexternalhit Facebook Bot
  • facebot Facebook Bot
  • feedburner RSS bot
  • feedfetcher-google Google Feedfetcher
  • findxbot Findxbot
  • flipboardproxy FlipboardProxy
  • friendfeedbot FriendFeed
  • genieo Genieo Web 过滤机器人
  • getprismatic.com getprismatic.com
  • gigabot Gigabot 爬虫
  • gimme60bot Gimme60 (gimme60.com)
  • gimmeusabot Gimme60 (gimme60.com)
  • go http package Go http 库
  • google page speed insights Google Page Speed Insights
  • google Web Preview Google Instant Previews 爬虫
  • google-structured-data-testing-tool Google-StructuredDataTestingTool
  • google-structureddatatestingtool Google-StructuredDataTestingTool
  • googlebot Google Bot
  • googlestackdrivermonitoring-uptimechecks GoogleStackdriverMonitoring-UptimeChecks
  • grapeshotcrawler GrapeshotCrawler
  • gravitybot Gravity Bot
  • hatena::bookmark Hatena::Bookmark
  • heritrix heritrix
  • htmlparser HTMLParser
  • http_request2 HTTP_Request2
  • httpclient HTTPClient
  • https://developers.google.com/+/web/snippet Google+ Snippet Fetcher
  • hubspot HubSpot
  • ia_archiver 互联网档案馆 (WayBackMachine)
  • icoreservice iCoreService
  • idmarch idmarch.org/bot.html
  • inagist URL 解析器
  • insieve Insieve Bot
  • insitesbot Insitesbot
  • instapaper Instapaper
  • istellabot IstellaBot
  • jack jack
  • jakarta commons Jakarta Commons HttpClient
  • java 通用 Java http 库
  • jetslide Jetslide
  • js-kit URL 解析器
  • kemvibot Kemvi
  • kimengi Kimengi Bot
  • knows.is knows.is
  • kojitsubot Kojitsubot
  • komodiabot KomodiaBot
  • kraken kraken
  • laconica Laconica
  • libwww-perl Perl 客户端-服务器库
  • lijit crawler Lijit
  • linkdexbot Linkdex Bot
  • linkedinbot LinkedIn
  • linkscrawler LinksCrawler
  • linode Linode Longview
  • lipperhey Lipperhey
  • livelapbot Livelapbot
  • loadtimebot Load Time Bot
  • longurl URL 扩展服务
  • ltx71 ltx71.com
  • lumibot Lumibot
  • lwp-trivial 另一个 Perl 库
  • magpie-crawler magpie-crawler
  • mail.ru_bot Mail.ru Bot
  • meanpathbot meanpath
  • mediapartners-google Google Adsense bot
  • megaindex.ru MegaIndex
  • memorybot mignify.com/bot.html
  • metauri MetaURI
  • mfe_expand Mcafee 爬虫
  • mir web crawler MIR web 爬虫
  • mj12bot Majestic-12 爬虫
  • mojeekbot Mojeek 英国搜索爬虫
  • mrchrome MrChrome
  • ms search 6.0 robot MS Search 6.0 Robot
  • msnbot-media 微软媒体机器人
  • msnbot 微软机器人
  • nerdybot NerdyBot
  • netcraft Netcraft
  • netstate netEstate NE Crawler
  • netvibes 个性化仪表板机器人
  • netzcheckbot netzcheck
  • newrelicmonitor NewRelic 监视
  • newrelicpinger NewRelicPinger
  • newsme newsme
  • niki-bot niki-bot
  • ning NING - 又一个 Twitter Swarmer
  • nutch Apache 搜索爬虫
  • openhosebot OpenHoseBot
  • orangebot OrangeBot
  • pagesinventory pagesinventory.com
  • panopta 监控服务
  • paperlibot PaperLi
  • peerindex peerindex
  • percolatecrawler PercolateCrawler
  • perfectmarketkwtbot PerfectMarket
  • phantomjs PhantomJS
  • pingdom Pingdom 监控
  • pinterest Pinterest
  • plukkie botje.com/plukkie.htm
  • privacyawarebot PrivacyAwareBot
  • proximic Proximic Spider
  • psbot-page Picsearch
  • publiclibraryarchive.org publiclibraryarchive.org
  • pycurl Python http 库
  • python-httplib2 Python-httplib2
  • python-requests Python http 库
  • python-urllib Python http 库
  • queryseeker QuerySeekerSpider
  • quicklook QuickLook
  • re-animator 域名重新激活机器人
  • readability Readability
  • rebelmouse RebelMouse
  • redditbot Reddit Bot
  • relateiq RelateIQ
  • riddler Riddler Bot
  • rogerbot SeoMoz 爬虫
  • rssmicro RSS/Atom Feed Robot (rssmicro.com)
  • ruby Ruby
  • scrapy Scrapy
  • screaming frog seo spider Screaming Frog SEO Spider
  • searchmetricsbot SearchmetricsBot
  • semrushbot SEO 分析机器人
  • seokicks SEOKicks
  • seznambot SeznamBot
  • shopwiki ShopWiki
  • shortlinktranslate 链接缩短器
  • showyoubot Showyou iOS 应用爬虫
  • siege Joe Dog Siege
  • sistrix SISTRIX
  • siteuptime 网站监控服务
  • slack Slackbot-LinkExpanding
  • slackbot Slack Bot
  • slurp Yahoo 爬虫
  • smtbot SimilarTech
  • socialrank SocialRankIOBot
  • sogou 中文搜索引擎
  • spbot OpenLinkProfiler
  • spider 通用网络爬虫
  • spinn3r Spinn3r 聚合器
  • sputnikbot SputnikBot
  • squider Squider
  • statuscake StatusCake
  • stripe Stripe
  • test certificate info C http 库?
  • tineye TinEye Bot
  • traackr Traackr Bot
  • trendictionbot Trendiction Search
  • turnitinbot TurnitinBot
  • tweetedtimes The Tweeted Times
  • tweetmemebot TweetMeMe Crawler
  • twikle 社交网络搜索机器人
  • twitjobsearch TwitJobSearch
  • twitmunin Twitmunin
  • twitterbot Twitter URL 扩展器
  • twurly Twurly
  • typhoeus Typhoeus
  • umbot uberMetrics
  • unwindfetch Gnip
  • uptimerobot Uptime Robot
  • vagabondo Vagabondo
  • vb project Visual Basic
  • vigil Vigil
  • vkshare VKontake Sharer
  • voilabot VoilaBot
  • vrcrawler Venture Radar
  • wasalive-bot Wasalive Bots
  • watchsumo WatchSumo
  • wbsearchbot Ware Bay Best Buys
  • webscout Webscout
  • wesee WeSEE
  • wget wget unix CLI http 客户端
  • wordpress WordPress 爬虫
  • wormly WormlyBot
  • wotbox Wotbox
  • xenu link sleuth Xenu Link Sleuth
  • xing-contenttabreceiver Xing bot
  • xovibot XoviBot
  • yacybot YaCy
  • yahoo-ad-monitoring Yahoo Ad 监控
  • yandex Yandex
  • yeti Naver Corp
  • yourls YOURLS
  • zelist.ro feed 解析器
  • zibb ZIBB 爬虫
  • zitebot Zite
  • zyborg Zyborg

被识别为机器人的云提供商

许多机器人不会标识自己,但我们跟踪互联网服务提供商,并将来自主要云提供商的流量识别为可能是机器人。

  • Google Cloud
  • Microsoft Corporation
  • OVH SAS
  • DigitalOcean
  • Huawei Clouds
  • Google-private-cloud
  • Facebook
  • Amazon.com
  • Google Proxy
  • Omonia d.o.o.
  • ColoCrossing

搜索机器人常见问题

Linkly 如何检测机器人?

Linkly 通过用户代理字符串(许多机器人会自我标识)以及检查流量是否来自已知的云托管提供商或数据中心来识别机器人。

此列表中缺少机器人吗?

我们定期更新机器人检测。如果您看到来自此列表上未列出的机器人的流量,请联系我们,我们将添加它。

为什么一些点击被标记为机器人,但它们是真实用户?

使用 VPN 或公司网络的用户可能被标记为机器人,因为他们的流量通过数据中心。有关更多信息,请参阅我们关于 VPN 流量的文章。

我能看到哪个特定机器人访问了我的链接吗?

可以。在流量报告中,单击"机器人"选项卡以查看按用户代理分列的机器人流量。

每月追踪500次点击,包含所有功能。