Files

测试数据说明

本目录包含用于测试和演示的示例数据集。

数据集列表

1. ticket_sample.csv - 工单数据示例

描述汽车售后服务工单数据包含20条记录。

字段说明

  • ticket_id: 工单ID
  • created_at: 创建时间
  • closed_at: 关闭时间(待处理工单为空)
  • status: 状态(已关闭/待处理)
  • type: 问题类型
  • model: 车型
  • module: 问题模块
  • priority: 优先级(高/中/低)
  • description: 问题描述
  • assigned_to: 处理人员

数据特点

  • 包含已关闭和待处理两种状态
  • 待处理工单占比50%(异常高)
  • Model X 车型的车门模块远程控制问题占比80%(系统性问题)
  • 适合测试异常识别和深入分析功能

适用场景

  • 工单健康度分析
  • 问题根因分析
  • 处理效率分析
  • 积压情况分析

2. sales_sample.csv - 销售数据示例

描述电子产品销售订单数据包含25条记录。

字段说明

  • order_id: 订单ID
  • order_date: 订单日期
  • customer_id: 客户ID
  • customer_name: 客户姓名
  • product_id: 产品ID
  • product_name: 产品名称
  • category: 产品类别
  • quantity: 数量
  • unit_price: 单价
  • total_amount: 总金额
  • region: 销售区域
  • sales_rep: 销售代表
  • payment_method: 支付方式
  • status: 订单状态

数据特点

  • 涵盖多个产品类别(电子产品、配件、可穿戴设备等)
  • 包含多个销售区域(华东、华北、华南等)
  • 包含已完成和待发货两种状态
  • 适合测试销售趋势和区域分析

适用场景

  • 销售趋势分析
  • 区域表现对比
  • 产品销量分析
  • 客户购买行为分析

3. user_sample.csv - 用户数据示例

描述用户账户和订阅数据包含20条记录。

字段说明

  • user_id: 用户ID
  • username: 用户名
  • email: 邮箱
  • registration_date: 注册日期
  • last_login: 最后登录时间
  • age: 年龄
  • gender: 性别
  • country: 国家
  • city: 城市
  • subscription_type: 订阅类型(高级会员/普通会员/免费会员)
  • subscription_start: 订阅开始日期
  • subscription_end: 订阅结束日期
  • total_orders: 总订单数
  • total_spent: 总消费金额
  • account_status: 账户状态(活跃/不活跃)
  • preferred_category: 偏好类别

数据特点

  • 包含三种订阅类型
  • 包含活跃和不活跃用户
  • 包含用户消费行为数据
  • 适合测试用户分群和流失分析

适用场景

  • 用户活跃度分析
  • 订阅转化分析
  • 用户价值分析
  • 流失风险识别

4. anomaly_sample.csv - 异常数据示例

描述包含明显异常的交易数据包含25条记录。

字段说明

  • transaction_id: 交易ID
  • transaction_date: 交易日期
  • customer_id: 客户ID
  • amount: 交易金额
  • transaction_type: 交易类型
  • status: 交易状态
  • processing_time_hours: 处理时长(小时)
  • error_count: 错误次数
  • region: 地区

数据特点

  • 华东地区的大额交易(>15000元处理时长异常长>45小时
  • 华东地区大额交易的错误次数异常高3-6次
  • 其他地区的交易处理正常(<3小时
  • 明显的地区性系统问题

异常模式

  1. 金额异常:部分交易金额远超平均值
  2. 处理时长异常华东地区大额交易处理时长是正常的20-30倍
  3. 错误率异常:华东地区大额交易错误次数远高于正常
  4. 地区集中:所有异常交易都集中在华东地区

适用场景

  • 异常检测测试
  • 问题根因分析
  • 深入分析功能测试
  • 动态计划调整测试

使用建议

快速测试

# 测试完全自主分析
python -m src.main --data test_data/ticket_sample.csv --output output/test1

# 测试指定需求分析
python -m src.main --data test_data/sales_sample.csv --requirement "分析销售趋势" --output output/test2

# 测试模板分析
python -m src.main --data test_data/ticket_sample.csv --template templates/ticket_analysis.md --output output/test3

测试特定功能

测试异常识别

python -m src.main --data test_data/anomaly_sample.csv --output output/anomaly_test

预期AI 应该识别出华东地区大额交易的异常模式

测试深入分析

python -m src.main --data test_data/ticket_sample.csv --output output/deep_analysis

预期AI 应该发现车门模块问题并进行深入分析

测试数据类型识别

# 工单数据
python -m src.main --data test_data/ticket_sample.csv --output output/type_test1

# 销售数据
python -m src.main --data test_data/sales_sample.csv --output output/type_test2

# 用户数据
python -m src.main --data test_data/user_sample.csv --output output/type_test3

预期AI 应该正确识别每种数据类型

数据质量

所有测试数据都经过精心设计:

  • 数据格式正确CSVUTF-8编码
  • 字段类型合理(数值、文本、日期)
  • 包含真实业务场景
  • 包含可识别的模式和异常
  • 适合测试各种分析功能

扩展数据

如果需要更大的数据集进行性能测试,可以:

  1. 复制现有数据并修改ID
  2. 使用数据生成工具创建更多记录
  3. 使用真实的业务数据(注意脱敏)

注意事项

  • 这些数据仅用于测试和演示,不代表真实业务数据
  • 数据中的人名、地名等信息均为虚构
  • 如需用于生产环境,请使用真实数据