搜索机器人
什么是搜索机器人?
搜索机器人(有时称为爬虫)是一种持续浏览互联网的机器人程序,通常用于建立搜索索引。
机器人可能会虚假增加流量数据,因此了解它们的存在很重要。
搜索机器人和 Linkly
Linkly 可以检测主动标识自己的搜索机器人和爬虫。您可以在流量报告的"机器人"部分查看哪些点击被归因为机器人。
我们有一篇关于机器人流量以及如何阻止机器人的文章。
社交媒体爬虫的特殊处理
Linkly 改进了对来自 Facebook、YouTube、Google、LinkedIn 和 X 的社交媒体爬虫的处理。
当这些爬虫的流量击中您的链接时:
- 它不会被记录在您的分析中
- 它不会计算在您的点击限制内
- 爬虫透明地重定向到正确的目的地
- 这些爬虫始终被允许通过,即使启用了"阻止机器人"功能
这可以防止社交媒体爬虫消耗您的点击限制,同时仍然允许它们生成预览和检查您的链接。

阻止机器人访问链接
Linkly 可以阻止机器人和搜索爬虫访问您的链接。请参阅机器人流量了解有关启用机器人阻止的说明。
重要: 来自 Facebook、YouTube、Google、LinkedIn 和 X 的社交媒体爬虫即使在启用阻止时也始终被允许通过,以便链接预览继续工作。
机器人是否计算在点击限制内?
来自 Facebook、YouTube、Google、LinkedIn 和 X 的社交媒体爬虫****不计算在您的点击限制内,不会在您的分析中记录。
下面列出的所有其他机器人计算在您的点击限制内,因为无论流量来源如何,监控和重定向流量的成本相同。
被阻止的机器人(遇到阻止页面的机器人)也不计入您的限制。
搜索机器人列表
下面是 Linkly 识别的搜索机器人及其用户代理的列表,如果必要,可以被阻止。
- 200pleasebot 200PleaseBot
- 360spider 360Spider
- abot CrawlDaddy、abot
- addthis AddThis
- adldxbot 微软必应广告
- admantx ADmantX Platform Semantic Analyzer
- adsbot-google Google Adwords
- advbot AdvBot
- ahrefsbot Ahrefs 反向链接研究工具
- alexa Alexa Crawler
- apache-httpclient Java http 库
- apachebench ApacheBench (ab)
- apis-google APIs-Google
- appengine-google Google App Engine
- applebot Apple Bot
- archive.org_bot 互联网档案馆 (archive.org)
- ask jeeves Ask Jeeves
- asynchttpclient Java http 和 WebSocket 客户端库
- awe.sm Awe.sm URL 扩展器
- baidu 百度
- bdcbot Big Data Corp
- bingbot 微软必应
- bingpreview 微软必应预览
- bitlybot bit.ly bot
- blekkobot Blekkobot
- blexbot BLEXBot (webmeup)
- bot@linkfluence.net Linkfluence bot
- bufferbot BufferBot
- buibui-checkbot buibui
- butterfly Topsy Labs
- buzztalk buzztalk
- catchbot CatchBot (catchbot.com)
- check_http Nagios 监视
- cliqzbot Cliqzbot
- cmradar/0.1 CMRadar/0.1
- coldfusion ColdFusion http 库
- commoncrawl CCBot
- comodo-webinspector-crawler Comodo
- crowsnest Crowsnest
- curabot cura.yt
- curl curl unix CLI http 客户端
- dap/nethttp DAP/NetHTTP
- datagnionbot datagnion.com/bot.html
- daumoa 韩国门户网站和搜索引擎索引机器人
- developers.google.com/+/web/snippet/ Google Plus
- diffbot Diffbot
- digitalpersona 指纹识别软件 HP 指纹扫描仪
- domain re-animator bot 域名重新激活机器人
- domainsbot DomainsBot
- domaintunocrawler DomainTuno
- dotbot Dot Bot
- duckduck Duck Duck Go
- elb-healthchecker AWS ELB HealthChecker
- embedly Embedly
- eoaagent EOAAgent
- eventmachine httpclient Ruby http 库
- everyonesocialbot EveryoneSocial
- evrinid Evri bot
- exabot Exalead 的机器人
- exaleadcloudview ExaleadCloudView
- facebookexternalhit Facebook Bot
- facebot Facebook Bot
- feedburner RSS bot
- feedfetcher-google Google Feedfetcher
- findxbot Findxbot
- flipboardproxy FlipboardProxy
- friendfeedbot FriendFeed
- genieo Genieo Web 过滤机器人
- getprismatic.com getprismatic.com
- gigabot Gigabot 爬虫
- gimme60bot Gimme60 (gimme60.com)
- gimmeusabot Gimme60 (gimme60.com)
- go http package Go http 库
- google page speed insights Google Page Speed Insights
- google Web Preview Google Instant Previews 爬虫
- google-structured-data-testing-tool Google-StructuredDataTestingTool
- google-structureddatatestingtool Google-StructuredDataTestingTool
- googlebot Google Bot
- googlestackdrivermonitoring-uptimechecks GoogleStackdriverMonitoring-UptimeChecks
- grapeshotcrawler GrapeshotCrawler
- gravitybot Gravity Bot
- hatena::bookmark Hatena::Bookmark
- heritrix heritrix
- htmlparser HTMLParser
- http_request2 HTTP_Request2
- httpclient HTTPClient
- https://developers.google.com/+/web/snippet Google+ Snippet Fetcher
- hubspot HubSpot
- ia_archiver 互联网档案馆 (WayBackMachine)
- icoreservice iCoreService
- idmarch idmarch.org/bot.html
- inagist URL 解析器
- insieve Insieve Bot
- insitesbot Insitesbot
- instapaper Instapaper
- istellabot IstellaBot
- jack jack
- jakarta commons Jakarta Commons HttpClient
- java 通用 Java http 库
- jetslide Jetslide
- js-kit URL 解析器
- kemvibot Kemvi
- kimengi Kimengi Bot
- knows.is knows.is
- kojitsubot Kojitsubot
- komodiabot KomodiaBot
- kraken kraken
- laconica Laconica
- libwww-perl Perl 客户端-服务器库
- lijit crawler Lijit
- linkdexbot Linkdex Bot
- linkedinbot LinkedIn
- linkscrawler LinksCrawler
- linode Linode Longview
- lipperhey Lipperhey
- livelapbot Livelapbot
- loadtimebot Load Time Bot
- longurl URL 扩展服务
- ltx71 ltx71.com
- lumibot Lumibot
- lwp-trivial 另一个 Perl 库
- magpie-crawler magpie-crawler
- mail.ru_bot Mail.ru Bot
- meanpathbot meanpath
- mediapartners-google Google Adsense bot
- megaindex.ru MegaIndex
- memorybot mignify.com/bot.html
- metauri MetaURI
- mfe_expand Mcafee 爬虫
- mir web crawler MIR web 爬虫
- mj12bot Majestic-12 爬虫
- mojeekbot Mojeek 英国搜索爬虫
- mrchrome MrChrome
- ms search 6.0 robot MS Search 6.0 Robot
- msnbot-media 微软媒体机器人
- msnbot 微软机器人
- nerdybot NerdyBot
- netcraft Netcraft
- netstate netEstate NE Crawler
- netvibes 个性化仪表板机器人
- netzcheckbot netzcheck
- newrelicmonitor NewRelic 监视
- newrelicpinger NewRelicPinger
- newsme newsme
- niki-bot niki-bot
- ning NING - 又一个 Twitter Swarmer
- nutch Apache 搜索爬虫
- openhosebot OpenHoseBot
- orangebot OrangeBot
- pagesinventory pagesinventory.com
- panopta 监控服务
- paperlibot PaperLi
- peerindex peerindex
- percolatecrawler PercolateCrawler
- perfectmarketkwtbot PerfectMarket
- phantomjs PhantomJS
- pingdom Pingdom 监控
- pinterest Pinterest
- plukkie botje.com/plukkie.htm
- privacyawarebot PrivacyAwareBot
- proximic Proximic Spider
- psbot-page Picsearch
- publiclibraryarchive.org publiclibraryarchive.org
- pycurl Python http 库
- python-httplib2 Python-httplib2
- python-requests Python http 库
- python-urllib Python http 库
- queryseeker QuerySeekerSpider
- quicklook QuickLook
- re-animator 域名重新激活机器人
- readability Readability
- rebelmouse RebelMouse
- redditbot Reddit Bot
- relateiq RelateIQ
- riddler Riddler Bot
- rogerbot SeoMoz 爬虫
- rssmicro RSS/Atom Feed Robot (rssmicro.com)
- ruby Ruby
- scrapy Scrapy
- screaming frog seo spider Screaming Frog SEO Spider
- searchmetricsbot SearchmetricsBot
- semrushbot SEO 分析机器人
- seokicks SEOKicks
- seznambot SeznamBot
- shopwiki ShopWiki
- shortlinktranslate 链接缩短器
- showyoubot Showyou iOS 应用爬虫
- siege Joe Dog Siege
- sistrix SISTRIX
- siteuptime 网站监控服务
- slack Slackbot-LinkExpanding
- slackbot Slack Bot
- slurp Yahoo 爬虫
- smtbot SimilarTech
- socialrank SocialRankIOBot
- sogou 中文搜索引擎
- spbot OpenLinkProfiler
- spider 通用网络爬虫
- spinn3r Spinn3r 聚合器
- sputnikbot SputnikBot
- squider Squider
- statuscake StatusCake
- stripe Stripe
- test certificate info C http 库?
- tineye TinEye Bot
- traackr Traackr Bot
- trendictionbot Trendiction Search
- turnitinbot TurnitinBot
- tweetedtimes The Tweeted Times
- tweetmemebot TweetMeMe Crawler
- twikle 社交网络搜索机器人
- twitjobsearch TwitJobSearch
- twitmunin Twitmunin
- twitterbot Twitter URL 扩展器
- twurly Twurly
- typhoeus Typhoeus
- umbot uberMetrics
- unwindfetch Gnip
- uptimerobot Uptime Robot
- vagabondo Vagabondo
- vb project Visual Basic
- vigil Vigil
- vkshare VKontake Sharer
- voilabot VoilaBot
- vrcrawler Venture Radar
- wasalive-bot Wasalive Bots
- watchsumo WatchSumo
- wbsearchbot Ware Bay Best Buys
- webscout Webscout
- wesee WeSEE
- wget wget unix CLI http 客户端
- wordpress WordPress 爬虫
- wormly WormlyBot
- wotbox Wotbox
- xenu link sleuth Xenu Link Sleuth
- xing-contenttabreceiver Xing bot
- xovibot XoviBot
- yacybot YaCy
- yahoo-ad-monitoring Yahoo Ad 监控
- yandex Yandex
- yeti Naver Corp
- yourls YOURLS
- zelist.ro feed 解析器
- zibb ZIBB 爬虫
- zitebot Zite
- zyborg Zyborg
被识别为机器人的云提供商
许多机器人不会标识自己,但我们跟踪互联网服务提供商,并将来自主要云提供商的流量识别为可能是机器人。
- Google Cloud
- Microsoft Corporation
- OVH SAS
- DigitalOcean
- Huawei Clouds
- Google-private-cloud
- Amazon.com
- Google Proxy
- Omonia d.o.o.
- ColoCrossing
搜索机器人常见问题
为什么一些点击被标记为机器人,但它们是真实用户?
使用 VPN 或公司网络的用户可能被标记为机器人,因为他们的流量通过数据中心。有关更多信息,请参阅我们关于 VPN 流量的文章。
每月追踪500次点击,包含所有功能。