网站介绍
2团日志是我的个人博客,自更新域名后已稳定运行近一年,主要记录技术文章、开发经验与个人生活随想。近期突发奇想,利用Nginx日志进行了一次简单的运营分析,试图挖掘一些有趣的数据。
在分析中,我发现AI Bot的访问量与种类正呈上升趋势。
尤为有趣的是,我本人既是Claude的付费用户,同时也成为了其数据爬取的对象。
一、数据总览
总访问请求: 416,179 次(已排除管理员IP)
检测到的攻击: 37,392 次
攻击IP数量: 2087 个
黑名单拦截IP: 11530 个
独立访问IP: 39036 个
正常访问用户数: 19874 个
说明:
文中所有IP地址已脱敏处理(保留前两段,后两段用hash值替换)
正常访问用户: 指非Bot、非攻击的真实用户访问,按独立IP统计
核心发现
流量构成:
正常用户访问: 42.6% (177,375次)
Bot流量(含搜索引擎/SEO/AI等): 47.1% (196,199次)
无UA请求: 10.2% (42,605次)
网站Bot流量是真实用户的 1.1倍
安全态势:
检测到 37,392 次攻击尝试,占总流量的 9.0%
黑名单系统已拦截 11,530 个恶意IP,有效保护网站安全
AI爬虫活动:
识别到 29,228 次AI爬虫访问,主要来自GPTBot、ClaudeBot、Bytespider等
AI爬虫活跃度呈波动趋势,反映AI技术发展对内容获取的需求
二、访问者类型分布
2.1 访问者分类统计
2.2 Bot识别规则说明
SEO爬虫:
描述: SEO分析工具,用于网站排名分析和竞争对手研究
识别特征: User-Agent中包含以下关键词之一
SemrushBotAhrefsBotMJ12botDotBotBLEXBot
搜索引擎:
描述: 搜索引擎爬虫,用于索引网页内容以提供搜索服务
识别特征: User-Agent中包含以下关键词之一
GooglebotbingbotBaiduspiderYandexBotSogouYisouSpider
AI爬虫:
描述: AI公司爬虫,用于收集训练数据或提供AI服务
识别特征: User-Agent中包含以下关键词之一
GPTBotChatGPTClaudeBotanthropic-aiPerplexityBotBytespiderMeta-ExternalAgent
监控扫描器:
描述: 安全研究机构的互联网设备扫描工具
识别特征: User-Agent中包含以下关键词之一
CensysInspectShodanNmapmasscanZmEu
恶意Bot:
描述: 自动化工具发起的请求,通常用于漏洞扫描或攻击
识别特征: User-Agent中包含以下关键词之一
python-requestscurl/wgetGo-http-clientScanner
三、时间序列分析
3.1 按月流量统计
3.2 按日流量统计(最近30天)
关键时间节点:
整体流量高峰月: 2025-07 (52,106 请求)
用户活跃高峰月: 2025-03 (20,129 用户请求)
攻击高峰月: 2025-07 (6449 次攻击)
黑名单拦截高峰月: 2025-07 (28,651 次拦截)
3.3 周访问模式分析(高流量时段TOP 20)
四、Bot行为深度分析
4.1 SEO爬虫
总请求数: 37,877
独立IP数: 2296
平均频率: 16.5 请求/IP
月度活跃度分布:
2025-04: 5,343 请求
2025-08: 4,613 请求
2025-05: 4,592 请求
2025-07: 4,457 请求
2025-06: 3,800 请求
2025-09: 3,721 请求
2025-10: 3,240 请求
2025-03: 3,117 请求
2025-02: 2,316 请求
2025-11: 1,919 请求
2025-01: 759 请求
最常访问路径(TOP 10):
/robots.txt: 8010 次
/sitemap.xml: 950 次
/: 384 次
/archives/rCore-Learning%E2%80%94Analysis-of-the-assembly-function-for-task-switching: 194 次
/archives/rCore-Learning%E2%80%94Create-Trap-Trampoline-Page: 192 次
/archives/rCore-Learning%E2%80%94Content-parsing-of-linked-files: 191 次
/archives/rCore-Learning%E2%80%94Trap-assembly-content-learning: 171 次
User-Agent示例:
Mozilla/5.0 (compatible; DotBot/1.2; +https://opensiteexplorer.org/dotbot; help@moz.com)Mozilla/5.0 (compatible; MJ12bot/v2.0.2; http://mj12bot.com/)4.2 搜索引擎
总请求数: 45,783
独立IP数: 4111
平均频率: 11.1 请求/IP
月度活跃度分布:
2025-03: 6,570 请求
2025-10: 5,587 请求
2025-11: 5,526 请求
2025-04: 5,403 请求
2025-02: 5,391 请求
2025-08: 3,508 请求
2025-06: 3,366 请求
2025-09: 3,297 请求
2025-05: 3,017 请求
2025-07: 2,293 请求
2025-01: 1,825 请求
最常访问路径(TOP 10):
/robots.txt: 3029 次
/: 1913 次
/plugins/PluginCommentWidget/assets/static/style.css?version=2.5.1: 925 次
/plugins/PluginCommentWidget/assets/static/comment-widget.iife.js?version=2.5.1: 924 次
/plugins/PluginSearchWidget/assets/static/style.css?version=1.6.2: 920 次
/plugins/PluginSearchWidget/assets/static/search-widget.iife.js?version=1.6.2: 916 次
/apis/api.commentwidget.halo.run/v1alpha1/captcha/-/generate: 767 次
/actuator/globalinfo: 765 次
User-Agent示例:
Mozilla/5.0 (iPhone; CPU iPhone OS 10_3 like Mac OS X) AppleWebKit/602.1.50 (KHTML, like Gecko) CriOBaiduspider ( http://www.baidu.com/search/spider.htm)4.3 AI爬虫
总请求数: 29,228
独立IP数: 1989
平均频率: 14.7 请求/IP
月度活跃度分布:
2025-02: 5,529 请求
2025-08: 4,766 请求
2025-10: 2,943 请求
2025-09: 2,846 请求
2025-06: 2,790 请求
2025-05: 2,447 请求
2025-07: 2,066 请求
2025-04: 1,767 请求
2025-03: 1,655 请求
2025-01: 1,368 请求
2025-11: 1,051 请求
最常访问路径(TOP 10):
/robots.txt: 2466 次
/sitemap.xml: 1229 次
/: 304 次
/upload/thumbnails/2024/w400/replica-set-primary-with-two-secondaries.bakedsvg.svg: 228 次
/upload/thumbnails/2024/w400/sharding-range-based.bakedsvg.svg: 198 次
/upload/blog/mouse.png: 158 次
/upload/thumbnails/2024/w400/innocence-26404091280.jpg: 116 次
User-Agent示例:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.2; +https://openai.com/gptboMozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbo4.4 监控扫描器
总请求数: 4,162
独立IP数: 496
平均频率: 8.4 请求/IP
月度活跃度分布:
2025-11: 527 请求
2025-10: 515 请求
2025-08: 511 请求
2025-07: 487 请求
2025-06: 464 请求
2025-09: 424 请求
2025-04: 325 请求
2025-03: 297 请求
2025-05: 291 请求
2025-02: 214 请求
2025-01: 107 请求
最常访问路径(TOP 10):
/favicon.ico: 1277 次
/: 1148 次
/upload/blog/mouse.png: 525 次
/sitemap.xml: 180 次
/login: 175 次
/robots.txt: 162 次
/wiki: 125 次
/evox/about: 99 次
/sdk: 97 次
/HNAP1: 97 次
User-Agent示例:
Mozilla/5.0 (compatible; Nmap Scripting Engine; https://nmap.org/book/nse.html)masscan/1.3 (https://github.com/robertdavidgraham/masscan)五、AI爬虫趋势分析
5.1 正常访问用户 vs AI爬虫对比
洞察:
正常访问用户流量是AI爬虫的 5.4倍,网站主要服务真实用户
5.2 AI爬虫时间线分析
随着AI技术的发展,AI爬虫活动呈现以下趋势:
AI爬虫月度活跃趋势:
5.3 AI爬虫类型分布
各类AI爬虫请求分布:
AI爬虫发展趋势洞察:
主流AI爬虫: Bytespider,占AI爬虫流量的 49.6%
整体趋势: AI爬虫活动相对稳定
六、爬虫工具技术栈分析
6.1 爬虫工具编程语言分布
分析恶意Bot和未知Bot使用的工具和编程语言:
主流爬虫工具对比分析:
编程语言爬虫:
Python vs Go 比例: 0.68:1
Python和Go势均力敌
Python优势: 生态丰富,开发快速(requests/scrapy/selenium)
Go优势: 高性能,并发能力强,适合大规模扫描
命令行工具:
curl: 2,251次 - 灵活的HTTP客户端,支持多种协议
wget: 11次 - 专注于文件下载的工具
命令行工具合计占比: 3.4%
6.2 爬虫工具详细分类
七、正常访问用户行为分析
用户概况:
根据网站统计数据,真实访问用户数量相对较少,以下是基本概况:
识别到正常访问用户IP: 19,874 个(已排除管理员和Bot)
正常访问用户总请求数: 177,375 次
平均每用户请求数: 7.9 次
流量占比: 42.62%
用户活跃度分布:
轻度用户 (< 10次): 18,186 人 (91.5%)
中度用户 (10-49次): 1,358 人 (6.8%)
重度用户 (≥ 50次): 330 人 (1.7%)
分析结论: 网站主要流量来自Bot和爬虫(196,199次, 47.1%),真实用户访问量较少。
7.1 周访问模式分析
分析全年日志,统计一周中每天访问最高峰和次高峰时段:
正常访问用户访问模式:
Bot访问模式:
八、安全威胁分析
8.1 攻击类型分布及判断标准
8.2 攻击特征详细说明
命令注入 (4,521 次)
描述: 尝试执行系统命令,如Shell脚本、PHP eval函数等
检测模式: 请求路径或User-Agent匹配以下特征之一
/GponForm/diag_Formeval-stdin.php;.*shs+${.*}
信息泄露探测 (27,393 次)
描述: 探测敏感配置文件,如环境变量、Git仓库、IDE配置等
检测模式: 请求路径或User-Agent匹配以下特征之一
/.env/.git//.DS_Store/.vscode//config.json/actuator/env
SQL注入 (38 次)
描述: 通过构造SQL语句尝试访问或操纵数据库
检测模式: 请求路径或User-Agent匹配以下特征之一
'.*or.*'.*=.*'union.*selectselect.*from
XSS攻击 (1 次)
描述: 注入恶意脚本代码,尝试在用户浏览器执行
检测模式: 请求路径或User-Agent匹配以下特征之一
<scriptjavascript:onerror=onload=
路径遍历 (726 次)
描述: 使用…/等方式尝试访问上级目录文件
检测模式: 请求路径或User-Agent匹配以下特征之一
../..%2e%2e
CVE漏洞利用 (4,104 次)
描述: 针对已知CVE漏洞的利用尝试,如Laravel、PHPUnit、Solr等框架漏洞
检测模式: 请求路径或User-Agent匹配以下特征之一
/vendor/phpunit/phpunit/_ignition/execute-solution/telescope/requests/debug/default/view/solr/admin
暴力破解 (609 次)
描述: 大量尝试登录页面,可能进行密码暴力破解
检测模式: 请求路径或User-Agent匹配以下特征之一
/wp-login.php/admin/login/login.php
8.3 黑名单拦截分析
OpenResty黑名单脚本统计:
被拦截IP总数: 11530 个
拦截请求总数: 159980 次
拦截标准: 返回403状态码的非正常业务请求
九、关键洞察与发现
9.1 流量构成分析
正常用户访问: 42.6% (177,375次) - 核心价值流量,来自真实用户浏览
Bot流量: 47.1% (196,199次) - 主要是合法的SEO和搜索引擎爬虫
无UA请求: 10.2% (42,605次) - 自动化工具或脚本
攻击流量: 9.0% (37,392次) - 需重点防护的恶意请求
黑名单拦截IP比例: 29.5% - OpenResty脚本有效拦截
9.2 安全防护效果
黑名单脚本共拦截 159,980 次恶意请求
覆盖 11530 个恶意IP
9.3 用户行为特征
平均每用户请求数: 7.9
轻度用户主导: 91.5% 用户访问少于10次
重度用户贡献: 1.7% 用户产生大量互动
9.4 Bot活动特征
搜索引擎: 平均每IP请求 11.1 次
SEO爬虫: 平均每IP请求 16.5 次
AI爬虫: 平均每IP请求 14.7 次
监控扫描器: 平均每IP请求 8.4 次