# 测试数据说明 本目录包含用于测试和演示的示例数据集。 ## 数据集列表 ### 1. ticket_sample.csv - 工单数据示例 **描述**:汽车售后服务工单数据,包含20条记录。 **字段说明**: - `ticket_id`: 工单ID - `created_at`: 创建时间 - `closed_at`: 关闭时间(待处理工单为空) - `status`: 状态(已关闭/待处理) - `type`: 问题类型 - `model`: 车型 - `module`: 问题模块 - `priority`: 优先级(高/中/低) - `description`: 问题描述 - `assigned_to`: 处理人员 **数据特点**: - 包含已关闭和待处理两种状态 - 待处理工单占比50%(异常高) - Model X 车型的车门模块远程控制问题占比80%(系统性问题) - 适合测试异常识别和深入分析功能 **适用场景**: - 工单健康度分析 - 问题根因分析 - 处理效率分析 - 积压情况分析 ### 2. sales_sample.csv - 销售数据示例 **描述**:电子产品销售订单数据,包含25条记录。 **字段说明**: - `order_id`: 订单ID - `order_date`: 订单日期 - `customer_id`: 客户ID - `customer_name`: 客户姓名 - `product_id`: 产品ID - `product_name`: 产品名称 - `category`: 产品类别 - `quantity`: 数量 - `unit_price`: 单价 - `total_amount`: 总金额 - `region`: 销售区域 - `sales_rep`: 销售代表 - `payment_method`: 支付方式 - `status`: 订单状态 **数据特点**: - 涵盖多个产品类别(电子产品、配件、可穿戴设备等) - 包含多个销售区域(华东、华北、华南等) - 包含已完成和待发货两种状态 - 适合测试销售趋势和区域分析 **适用场景**: - 销售趋势分析 - 区域表现对比 - 产品销量分析 - 客户购买行为分析 ### 3. user_sample.csv - 用户数据示例 **描述**:用户账户和订阅数据,包含20条记录。 **字段说明**: - `user_id`: 用户ID - `username`: 用户名 - `email`: 邮箱 - `registration_date`: 注册日期 - `last_login`: 最后登录时间 - `age`: 年龄 - `gender`: 性别 - `country`: 国家 - `city`: 城市 - `subscription_type`: 订阅类型(高级会员/普通会员/免费会员) - `subscription_start`: 订阅开始日期 - `subscription_end`: 订阅结束日期 - `total_orders`: 总订单数 - `total_spent`: 总消费金额 - `account_status`: 账户状态(活跃/不活跃) - `preferred_category`: 偏好类别 **数据特点**: - 包含三种订阅类型 - 包含活跃和不活跃用户 - 包含用户消费行为数据 - 适合测试用户分群和流失分析 **适用场景**: - 用户活跃度分析 - 订阅转化分析 - 用户价值分析 - 流失风险识别 ### 4. anomaly_sample.csv - 异常数据示例 **描述**:包含明显异常的交易数据,包含25条记录。 **字段说明**: - `transaction_id`: 交易ID - `transaction_date`: 交易日期 - `customer_id`: 客户ID - `amount`: 交易金额 - `transaction_type`: 交易类型 - `status`: 交易状态 - `processing_time_hours`: 处理时长(小时) - `error_count`: 错误次数 - `region`: 地区 **数据特点**: - 华东地区的大额交易(>15000元)处理时长异常长(>45小时) - 华东地区大额交易的错误次数异常高(3-6次) - 其他地区的交易处理正常(<3小时) - 明显的地区性系统问题 **异常模式**: 1. **金额异常**:部分交易金额远超平均值 2. **处理时长异常**:华东地区大额交易处理时长是正常的20-30倍 3. **错误率异常**:华东地区大额交易错误次数远高于正常 4. **地区集中**:所有异常交易都集中在华东地区 **适用场景**: - 异常检测测试 - 问题根因分析 - 深入分析功能测试 - 动态计划调整测试 ## 使用建议 ### 快速测试 ```bash # 测试完全自主分析 python -m src.main --data test_data/ticket_sample.csv --output output/test1 # 测试指定需求分析 python -m src.main --data test_data/sales_sample.csv --requirement "分析销售趋势" --output output/test2 # 测试模板分析 python -m src.main --data test_data/ticket_sample.csv --template templates/ticket_analysis.md --output output/test3 ``` ### 测试特定功能 **测试异常识别**: ```bash python -m src.main --data test_data/anomaly_sample.csv --output output/anomaly_test ``` 预期:AI 应该识别出华东地区大额交易的异常模式 **测试深入分析**: ```bash python -m src.main --data test_data/ticket_sample.csv --output output/deep_analysis ``` 预期:AI 应该发现车门模块问题并进行深入分析 **测试数据类型识别**: ```bash # 工单数据 python -m src.main --data test_data/ticket_sample.csv --output output/type_test1 # 销售数据 python -m src.main --data test_data/sales_sample.csv --output output/type_test2 # 用户数据 python -m src.main --data test_data/user_sample.csv --output output/type_test3 ``` 预期:AI 应该正确识别每种数据类型 ## 数据质量 所有测试数据都经过精心设计: - ✅ 数据格式正确(CSV,UTF-8编码) - ✅ 字段类型合理(数值、文本、日期) - ✅ 包含真实业务场景 - ✅ 包含可识别的模式和异常 - ✅ 适合测试各种分析功能 ## 扩展数据 如果需要更大的数据集进行性能测试,可以: 1. 复制现有数据并修改ID 2. 使用数据生成工具创建更多记录 3. 使用真实的业务数据(注意脱敏) ## 注意事项 - 这些数据仅用于测试和演示,不代表真实业务数据 - 数据中的人名、地名等信息均为虚构 - 如需用于生产环境,请使用真实数据