Complete AI Data Analysis Agent implementation with 95.7% test coverage

This commit is contained in:
2026-03-07 00:04:29 +08:00
parent 621e546b43
commit 7071b1f730
245 changed files with 22612 additions and 2211 deletions

195
test_data/README.md Normal file
View File

@@ -0,0 +1,195 @@
# 测试数据说明
本目录包含用于测试和演示的示例数据集。
## 数据集列表
### 1. ticket_sample.csv - 工单数据示例
**描述**汽车售后服务工单数据包含20条记录。
**字段说明**
- `ticket_id`: 工单ID
- `created_at`: 创建时间
- `closed_at`: 关闭时间(待处理工单为空)
- `status`: 状态(已关闭/待处理)
- `type`: 问题类型
- `model`: 车型
- `module`: 问题模块
- `priority`: 优先级(高/中/低)
- `description`: 问题描述
- `assigned_to`: 处理人员
**数据特点**
- 包含已关闭和待处理两种状态
- 待处理工单占比50%(异常高)
- Model X 车型的车门模块远程控制问题占比80%(系统性问题)
- 适合测试异常识别和深入分析功能
**适用场景**
- 工单健康度分析
- 问题根因分析
- 处理效率分析
- 积压情况分析
### 2. sales_sample.csv - 销售数据示例
**描述**电子产品销售订单数据包含25条记录。
**字段说明**
- `order_id`: 订单ID
- `order_date`: 订单日期
- `customer_id`: 客户ID
- `customer_name`: 客户姓名
- `product_id`: 产品ID
- `product_name`: 产品名称
- `category`: 产品类别
- `quantity`: 数量
- `unit_price`: 单价
- `total_amount`: 总金额
- `region`: 销售区域
- `sales_rep`: 销售代表
- `payment_method`: 支付方式
- `status`: 订单状态
**数据特点**
- 涵盖多个产品类别(电子产品、配件、可穿戴设备等)
- 包含多个销售区域(华东、华北、华南等)
- 包含已完成和待发货两种状态
- 适合测试销售趋势和区域分析
**适用场景**
- 销售趋势分析
- 区域表现对比
- 产品销量分析
- 客户购买行为分析
### 3. user_sample.csv - 用户数据示例
**描述**用户账户和订阅数据包含20条记录。
**字段说明**
- `user_id`: 用户ID
- `username`: 用户名
- `email`: 邮箱
- `registration_date`: 注册日期
- `last_login`: 最后登录时间
- `age`: 年龄
- `gender`: 性别
- `country`: 国家
- `city`: 城市
- `subscription_type`: 订阅类型(高级会员/普通会员/免费会员)
- `subscription_start`: 订阅开始日期
- `subscription_end`: 订阅结束日期
- `total_orders`: 总订单数
- `total_spent`: 总消费金额
- `account_status`: 账户状态(活跃/不活跃)
- `preferred_category`: 偏好类别
**数据特点**
- 包含三种订阅类型
- 包含活跃和不活跃用户
- 包含用户消费行为数据
- 适合测试用户分群和流失分析
**适用场景**
- 用户活跃度分析
- 订阅转化分析
- 用户价值分析
- 流失风险识别
### 4. anomaly_sample.csv - 异常数据示例
**描述**包含明显异常的交易数据包含25条记录。
**字段说明**
- `transaction_id`: 交易ID
- `transaction_date`: 交易日期
- `customer_id`: 客户ID
- `amount`: 交易金额
- `transaction_type`: 交易类型
- `status`: 交易状态
- `processing_time_hours`: 处理时长(小时)
- `error_count`: 错误次数
- `region`: 地区
**数据特点**
- 华东地区的大额交易(>15000元处理时长异常长>45小时
- 华东地区大额交易的错误次数异常高3-6次
- 其他地区的交易处理正常(<3小时
- 明显的地区性系统问题
**异常模式**
1. **金额异常**:部分交易金额远超平均值
2. **处理时长异常**华东地区大额交易处理时长是正常的20-30倍
3. **错误率异常**:华东地区大额交易错误次数远高于正常
4. **地区集中**:所有异常交易都集中在华东地区
**适用场景**
- 异常检测测试
- 问题根因分析
- 深入分析功能测试
- 动态计划调整测试
## 使用建议
### 快速测试
```bash
# 测试完全自主分析
python -m src.main --data test_data/ticket_sample.csv --output output/test1
# 测试指定需求分析
python -m src.main --data test_data/sales_sample.csv --requirement "分析销售趋势" --output output/test2
# 测试模板分析
python -m src.main --data test_data/ticket_sample.csv --template templates/ticket_analysis.md --output output/test3
```
### 测试特定功能
**测试异常识别**
```bash
python -m src.main --data test_data/anomaly_sample.csv --output output/anomaly_test
```
预期AI 应该识别出华东地区大额交易的异常模式
**测试深入分析**
```bash
python -m src.main --data test_data/ticket_sample.csv --output output/deep_analysis
```
预期AI 应该发现车门模块问题并进行深入分析
**测试数据类型识别**
```bash
# 工单数据
python -m src.main --data test_data/ticket_sample.csv --output output/type_test1
# 销售数据
python -m src.main --data test_data/sales_sample.csv --output output/type_test2
# 用户数据
python -m src.main --data test_data/user_sample.csv --output output/type_test3
```
预期AI 应该正确识别每种数据类型
## 数据质量
所有测试数据都经过精心设计:
- ✅ 数据格式正确CSVUTF-8编码
- ✅ 字段类型合理(数值、文本、日期)
- ✅ 包含真实业务场景
- ✅ 包含可识别的模式和异常
- ✅ 适合测试各种分析功能
## 扩展数据
如果需要更大的数据集进行性能测试,可以:
1. 复制现有数据并修改ID
2. 使用数据生成工具创建更多记录
3. 使用真实的业务数据(注意脱敏)
## 注意事项
- 这些数据仅用于测试和演示,不代表真实业务数据
- 数据中的人名、地名等信息均为虚构
- 如需用于生产环境,请使用真实数据