Files
vibe_data_ana/test_data/README.md

196 lines
5.5 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 测试数据说明
本目录包含用于测试和演示的示例数据集。
## 数据集列表
### 1. ticket_sample.csv - 工单数据示例
**描述**汽车售后服务工单数据包含20条记录。
**字段说明**
- `ticket_id`: 工单ID
- `created_at`: 创建时间
- `closed_at`: 关闭时间(待处理工单为空)
- `status`: 状态(已关闭/待处理)
- `type`: 问题类型
- `model`: 车型
- `module`: 问题模块
- `priority`: 优先级(高/中/低)
- `description`: 问题描述
- `assigned_to`: 处理人员
**数据特点**
- 包含已关闭和待处理两种状态
- 待处理工单占比50%(异常高)
- Model X 车型的车门模块远程控制问题占比80%(系统性问题)
- 适合测试异常识别和深入分析功能
**适用场景**
- 工单健康度分析
- 问题根因分析
- 处理效率分析
- 积压情况分析
### 2. sales_sample.csv - 销售数据示例
**描述**电子产品销售订单数据包含25条记录。
**字段说明**
- `order_id`: 订单ID
- `order_date`: 订单日期
- `customer_id`: 客户ID
- `customer_name`: 客户姓名
- `product_id`: 产品ID
- `product_name`: 产品名称
- `category`: 产品类别
- `quantity`: 数量
- `unit_price`: 单价
- `total_amount`: 总金额
- `region`: 销售区域
- `sales_rep`: 销售代表
- `payment_method`: 支付方式
- `status`: 订单状态
**数据特点**
- 涵盖多个产品类别(电子产品、配件、可穿戴设备等)
- 包含多个销售区域(华东、华北、华南等)
- 包含已完成和待发货两种状态
- 适合测试销售趋势和区域分析
**适用场景**
- 销售趋势分析
- 区域表现对比
- 产品销量分析
- 客户购买行为分析
### 3. user_sample.csv - 用户数据示例
**描述**用户账户和订阅数据包含20条记录。
**字段说明**
- `user_id`: 用户ID
- `username`: 用户名
- `email`: 邮箱
- `registration_date`: 注册日期
- `last_login`: 最后登录时间
- `age`: 年龄
- `gender`: 性别
- `country`: 国家
- `city`: 城市
- `subscription_type`: 订阅类型(高级会员/普通会员/免费会员)
- `subscription_start`: 订阅开始日期
- `subscription_end`: 订阅结束日期
- `total_orders`: 总订单数
- `total_spent`: 总消费金额
- `account_status`: 账户状态(活跃/不活跃)
- `preferred_category`: 偏好类别
**数据特点**
- 包含三种订阅类型
- 包含活跃和不活跃用户
- 包含用户消费行为数据
- 适合测试用户分群和流失分析
**适用场景**
- 用户活跃度分析
- 订阅转化分析
- 用户价值分析
- 流失风险识别
### 4. anomaly_sample.csv - 异常数据示例
**描述**包含明显异常的交易数据包含25条记录。
**字段说明**
- `transaction_id`: 交易ID
- `transaction_date`: 交易日期
- `customer_id`: 客户ID
- `amount`: 交易金额
- `transaction_type`: 交易类型
- `status`: 交易状态
- `processing_time_hours`: 处理时长(小时)
- `error_count`: 错误次数
- `region`: 地区
**数据特点**
- 华东地区的大额交易(>15000元处理时长异常长>45小时
- 华东地区大额交易的错误次数异常高3-6次
- 其他地区的交易处理正常(<3小时
- 明显的地区性系统问题
**异常模式**
1. **金额异常**:部分交易金额远超平均值
2. **处理时长异常**华东地区大额交易处理时长是正常的20-30倍
3. **错误率异常**:华东地区大额交易错误次数远高于正常
4. **地区集中**:所有异常交易都集中在华东地区
**适用场景**
- 异常检测测试
- 问题根因分析
- 深入分析功能测试
- 动态计划调整测试
## 使用建议
### 快速测试
```bash
# 测试完全自主分析
python -m src.main --data test_data/ticket_sample.csv --output output/test1
# 测试指定需求分析
python -m src.main --data test_data/sales_sample.csv --requirement "分析销售趋势" --output output/test2
# 测试模板分析
python -m src.main --data test_data/ticket_sample.csv --template templates/ticket_analysis.md --output output/test3
```
### 测试特定功能
**测试异常识别**
```bash
python -m src.main --data test_data/anomaly_sample.csv --output output/anomaly_test
```
预期AI 应该识别出华东地区大额交易的异常模式
**测试深入分析**
```bash
python -m src.main --data test_data/ticket_sample.csv --output output/deep_analysis
```
预期AI 应该发现车门模块问题并进行深入分析
**测试数据类型识别**
```bash
# 工单数据
python -m src.main --data test_data/ticket_sample.csv --output output/type_test1
# 销售数据
python -m src.main --data test_data/sales_sample.csv --output output/type_test2
# 用户数据
python -m src.main --data test_data/user_sample.csv --output output/type_test3
```
预期AI 应该正确识别每种数据类型
## 数据质量
所有测试数据都经过精心设计:
- ✅ 数据格式正确CSVUTF-8编码
- ✅ 字段类型合理(数值、文本、日期)
- ✅ 包含真实业务场景
- ✅ 包含可识别的模式和异常
- ✅ 适合测试各种分析功能
## 扩展数据
如果需要更大的数据集进行性能测试,可以:
1. 复制现有数据并修改ID
2. 使用数据生成工具创建更多记录
3. 使用真实的业务数据(注意脱敏)
## 注意事项
- 这些数据仅用于测试和演示,不代表真实业务数据
- 数据中的人名、地名等信息均为虚构
- 如需用于生产环境,请使用真实数据