196 lines
5.5 KiB
Markdown
196 lines
5.5 KiB
Markdown
# 测试数据说明
|
||
|
||
本目录包含用于测试和演示的示例数据集。
|
||
|
||
## 数据集列表
|
||
|
||
### 1. ticket_sample.csv - 工单数据示例
|
||
|
||
**描述**:汽车售后服务工单数据,包含20条记录。
|
||
|
||
**字段说明**:
|
||
- `ticket_id`: 工单ID
|
||
- `created_at`: 创建时间
|
||
- `closed_at`: 关闭时间(待处理工单为空)
|
||
- `status`: 状态(已关闭/待处理)
|
||
- `type`: 问题类型
|
||
- `model`: 车型
|
||
- `module`: 问题模块
|
||
- `priority`: 优先级(高/中/低)
|
||
- `description`: 问题描述
|
||
- `assigned_to`: 处理人员
|
||
|
||
**数据特点**:
|
||
- 包含已关闭和待处理两种状态
|
||
- 待处理工单占比50%(异常高)
|
||
- Model X 车型的车门模块远程控制问题占比80%(系统性问题)
|
||
- 适合测试异常识别和深入分析功能
|
||
|
||
**适用场景**:
|
||
- 工单健康度分析
|
||
- 问题根因分析
|
||
- 处理效率分析
|
||
- 积压情况分析
|
||
|
||
### 2. sales_sample.csv - 销售数据示例
|
||
|
||
**描述**:电子产品销售订单数据,包含25条记录。
|
||
|
||
**字段说明**:
|
||
- `order_id`: 订单ID
|
||
- `order_date`: 订单日期
|
||
- `customer_id`: 客户ID
|
||
- `customer_name`: 客户姓名
|
||
- `product_id`: 产品ID
|
||
- `product_name`: 产品名称
|
||
- `category`: 产品类别
|
||
- `quantity`: 数量
|
||
- `unit_price`: 单价
|
||
- `total_amount`: 总金额
|
||
- `region`: 销售区域
|
||
- `sales_rep`: 销售代表
|
||
- `payment_method`: 支付方式
|
||
- `status`: 订单状态
|
||
|
||
**数据特点**:
|
||
- 涵盖多个产品类别(电子产品、配件、可穿戴设备等)
|
||
- 包含多个销售区域(华东、华北、华南等)
|
||
- 包含已完成和待发货两种状态
|
||
- 适合测试销售趋势和区域分析
|
||
|
||
**适用场景**:
|
||
- 销售趋势分析
|
||
- 区域表现对比
|
||
- 产品销量分析
|
||
- 客户购买行为分析
|
||
|
||
### 3. user_sample.csv - 用户数据示例
|
||
|
||
**描述**:用户账户和订阅数据,包含20条记录。
|
||
|
||
**字段说明**:
|
||
- `user_id`: 用户ID
|
||
- `username`: 用户名
|
||
- `email`: 邮箱
|
||
- `registration_date`: 注册日期
|
||
- `last_login`: 最后登录时间
|
||
- `age`: 年龄
|
||
- `gender`: 性别
|
||
- `country`: 国家
|
||
- `city`: 城市
|
||
- `subscription_type`: 订阅类型(高级会员/普通会员/免费会员)
|
||
- `subscription_start`: 订阅开始日期
|
||
- `subscription_end`: 订阅结束日期
|
||
- `total_orders`: 总订单数
|
||
- `total_spent`: 总消费金额
|
||
- `account_status`: 账户状态(活跃/不活跃)
|
||
- `preferred_category`: 偏好类别
|
||
|
||
**数据特点**:
|
||
- 包含三种订阅类型
|
||
- 包含活跃和不活跃用户
|
||
- 包含用户消费行为数据
|
||
- 适合测试用户分群和流失分析
|
||
|
||
**适用场景**:
|
||
- 用户活跃度分析
|
||
- 订阅转化分析
|
||
- 用户价值分析
|
||
- 流失风险识别
|
||
|
||
### 4. anomaly_sample.csv - 异常数据示例
|
||
|
||
**描述**:包含明显异常的交易数据,包含25条记录。
|
||
|
||
**字段说明**:
|
||
- `transaction_id`: 交易ID
|
||
- `transaction_date`: 交易日期
|
||
- `customer_id`: 客户ID
|
||
- `amount`: 交易金额
|
||
- `transaction_type`: 交易类型
|
||
- `status`: 交易状态
|
||
- `processing_time_hours`: 处理时长(小时)
|
||
- `error_count`: 错误次数
|
||
- `region`: 地区
|
||
|
||
**数据特点**:
|
||
- 华东地区的大额交易(>15000元)处理时长异常长(>45小时)
|
||
- 华东地区大额交易的错误次数异常高(3-6次)
|
||
- 其他地区的交易处理正常(<3小时)
|
||
- 明显的地区性系统问题
|
||
|
||
**异常模式**:
|
||
1. **金额异常**:部分交易金额远超平均值
|
||
2. **处理时长异常**:华东地区大额交易处理时长是正常的20-30倍
|
||
3. **错误率异常**:华东地区大额交易错误次数远高于正常
|
||
4. **地区集中**:所有异常交易都集中在华东地区
|
||
|
||
**适用场景**:
|
||
- 异常检测测试
|
||
- 问题根因分析
|
||
- 深入分析功能测试
|
||
- 动态计划调整测试
|
||
|
||
## 使用建议
|
||
|
||
### 快速测试
|
||
```bash
|
||
# 测试完全自主分析
|
||
python -m src.main --data test_data/ticket_sample.csv --output output/test1
|
||
|
||
# 测试指定需求分析
|
||
python -m src.main --data test_data/sales_sample.csv --requirement "分析销售趋势" --output output/test2
|
||
|
||
# 测试模板分析
|
||
python -m src.main --data test_data/ticket_sample.csv --template templates/ticket_analysis.md --output output/test3
|
||
```
|
||
|
||
### 测试特定功能
|
||
|
||
**测试异常识别**:
|
||
```bash
|
||
python -m src.main --data test_data/anomaly_sample.csv --output output/anomaly_test
|
||
```
|
||
预期:AI 应该识别出华东地区大额交易的异常模式
|
||
|
||
**测试深入分析**:
|
||
```bash
|
||
python -m src.main --data test_data/ticket_sample.csv --output output/deep_analysis
|
||
```
|
||
预期:AI 应该发现车门模块问题并进行深入分析
|
||
|
||
**测试数据类型识别**:
|
||
```bash
|
||
# 工单数据
|
||
python -m src.main --data test_data/ticket_sample.csv --output output/type_test1
|
||
|
||
# 销售数据
|
||
python -m src.main --data test_data/sales_sample.csv --output output/type_test2
|
||
|
||
# 用户数据
|
||
python -m src.main --data test_data/user_sample.csv --output output/type_test3
|
||
```
|
||
预期:AI 应该正确识别每种数据类型
|
||
|
||
## 数据质量
|
||
|
||
所有测试数据都经过精心设计:
|
||
- ✅ 数据格式正确(CSV,UTF-8编码)
|
||
- ✅ 字段类型合理(数值、文本、日期)
|
||
- ✅ 包含真实业务场景
|
||
- ✅ 包含可识别的模式和异常
|
||
- ✅ 适合测试各种分析功能
|
||
|
||
## 扩展数据
|
||
|
||
如果需要更大的数据集进行性能测试,可以:
|
||
1. 复制现有数据并修改ID
|
||
2. 使用数据生成工具创建更多记录
|
||
3. 使用真实的业务数据(注意脱敏)
|
||
|
||
## 注意事项
|
||
|
||
- 这些数据仅用于测试和演示,不代表真实业务数据
|
||
- 数据中的人名、地名等信息均为虚构
|
||
- 如需用于生产环境,请使用真实数据
|