5.5 KiB
5.5 KiB
测试数据说明
本目录包含用于测试和演示的示例数据集。
数据集列表
1. ticket_sample.csv - 工单数据示例
描述:汽车售后服务工单数据,包含20条记录。
字段说明:
ticket_id: 工单IDcreated_at: 创建时间closed_at: 关闭时间(待处理工单为空)status: 状态(已关闭/待处理)type: 问题类型model: 车型module: 问题模块priority: 优先级(高/中/低)description: 问题描述assigned_to: 处理人员
数据特点:
- 包含已关闭和待处理两种状态
- 待处理工单占比50%(异常高)
- Model X 车型的车门模块远程控制问题占比80%(系统性问题)
- 适合测试异常识别和深入分析功能
适用场景:
- 工单健康度分析
- 问题根因分析
- 处理效率分析
- 积压情况分析
2. sales_sample.csv - 销售数据示例
描述:电子产品销售订单数据,包含25条记录。
字段说明:
order_id: 订单IDorder_date: 订单日期customer_id: 客户IDcustomer_name: 客户姓名product_id: 产品IDproduct_name: 产品名称category: 产品类别quantity: 数量unit_price: 单价total_amount: 总金额region: 销售区域sales_rep: 销售代表payment_method: 支付方式status: 订单状态
数据特点:
- 涵盖多个产品类别(电子产品、配件、可穿戴设备等)
- 包含多个销售区域(华东、华北、华南等)
- 包含已完成和待发货两种状态
- 适合测试销售趋势和区域分析
适用场景:
- 销售趋势分析
- 区域表现对比
- 产品销量分析
- 客户购买行为分析
3. user_sample.csv - 用户数据示例
描述:用户账户和订阅数据,包含20条记录。
字段说明:
user_id: 用户IDusername: 用户名email: 邮箱registration_date: 注册日期last_login: 最后登录时间age: 年龄gender: 性别country: 国家city: 城市subscription_type: 订阅类型(高级会员/普通会员/免费会员)subscription_start: 订阅开始日期subscription_end: 订阅结束日期total_orders: 总订单数total_spent: 总消费金额account_status: 账户状态(活跃/不活跃)preferred_category: 偏好类别
数据特点:
- 包含三种订阅类型
- 包含活跃和不活跃用户
- 包含用户消费行为数据
- 适合测试用户分群和流失分析
适用场景:
- 用户活跃度分析
- 订阅转化分析
- 用户价值分析
- 流失风险识别
4. anomaly_sample.csv - 异常数据示例
描述:包含明显异常的交易数据,包含25条记录。
字段说明:
transaction_id: 交易IDtransaction_date: 交易日期customer_id: 客户IDamount: 交易金额transaction_type: 交易类型status: 交易状态processing_time_hours: 处理时长(小时)error_count: 错误次数region: 地区
数据特点:
- 华东地区的大额交易(>15000元)处理时长异常长(>45小时)
- 华东地区大额交易的错误次数异常高(3-6次)
- 其他地区的交易处理正常(<3小时)
- 明显的地区性系统问题
异常模式:
- 金额异常:部分交易金额远超平均值
- 处理时长异常:华东地区大额交易处理时长是正常的20-30倍
- 错误率异常:华东地区大额交易错误次数远高于正常
- 地区集中:所有异常交易都集中在华东地区
适用场景:
- 异常检测测试
- 问题根因分析
- 深入分析功能测试
- 动态计划调整测试
使用建议
快速测试
# 测试完全自主分析
python -m src.main --data test_data/ticket_sample.csv --output output/test1
# 测试指定需求分析
python -m src.main --data test_data/sales_sample.csv --requirement "分析销售趋势" --output output/test2
# 测试模板分析
python -m src.main --data test_data/ticket_sample.csv --template templates/ticket_analysis.md --output output/test3
测试特定功能
测试异常识别:
python -m src.main --data test_data/anomaly_sample.csv --output output/anomaly_test
预期:AI 应该识别出华东地区大额交易的异常模式
测试深入分析:
python -m src.main --data test_data/ticket_sample.csv --output output/deep_analysis
预期:AI 应该发现车门模块问题并进行深入分析
测试数据类型识别:
# 工单数据
python -m src.main --data test_data/ticket_sample.csv --output output/type_test1
# 销售数据
python -m src.main --data test_data/sales_sample.csv --output output/type_test2
# 用户数据
python -m src.main --data test_data/user_sample.csv --output output/type_test3
预期:AI 应该正确识别每种数据类型
数据质量
所有测试数据都经过精心设计:
- ✅ 数据格式正确(CSV,UTF-8编码)
- ✅ 字段类型合理(数值、文本、日期)
- ✅ 包含真实业务场景
- ✅ 包含可识别的模式和异常
- ✅ 适合测试各种分析功能
扩展数据
如果需要更大的数据集进行性能测试,可以:
- 复制现有数据并修改ID
- 使用数据生成工具创建更多记录
- 使用真实的业务数据(注意脱敏)
注意事项
- 这些数据仅用于测试和演示,不代表真实业务数据
- 数据中的人名、地名等信息均为虚构
- 如需用于生产环境,请使用真实数据