zhaojie/vibe_data_ana

Fork 0

Files

Jeason 7071b1f730 Complete AI Data Analysis Agent implementation with 95.7% test coverage

2026-03-07 00:04:29 +08:00

5.5 KiB

Raw Blame History

测试数据说明

本目录包含用于测试和演示的示例数据集。

数据集列表

1. ticket_sample.csv - 工单数据示例

描述：汽车售后服务工单数据，包含20条记录。

字段说明：

ticket_id: 工单ID
created_at: 创建时间
closed_at: 关闭时间（待处理工单为空）
status: 状态（已关闭/待处理）
type: 问题类型
model: 车型
module: 问题模块
priority: 优先级（高/中/低）
description: 问题描述
assigned_to: 处理人员

数据特点：

包含已关闭和待处理两种状态
待处理工单占比50%（异常高）
Model X 车型的车门模块远程控制问题占比80%（系统性问题）
适合测试异常识别和深入分析功能

适用场景：

工单健康度分析
问题根因分析
处理效率分析
积压情况分析

2. sales_sample.csv - 销售数据示例

描述：电子产品销售订单数据，包含25条记录。

字段说明：

order_id: 订单ID
order_date: 订单日期
customer_id: 客户ID
customer_name: 客户姓名
product_id: 产品ID
product_name: 产品名称
category: 产品类别
quantity: 数量
unit_price: 单价
total_amount: 总金额
region: 销售区域
sales_rep: 销售代表
payment_method: 支付方式
status: 订单状态

数据特点：

涵盖多个产品类别（电子产品、配件、可穿戴设备等）
包含多个销售区域（华东、华北、华南等）
包含已完成和待发货两种状态
适合测试销售趋势和区域分析

适用场景：

销售趋势分析
区域表现对比
产品销量分析
客户购买行为分析

3. user_sample.csv - 用户数据示例

描述：用户账户和订阅数据，包含20条记录。

字段说明：

user_id: 用户ID
username: 用户名
email: 邮箱
registration_date: 注册日期
last_login: 最后登录时间
age: 年龄
gender: 性别
country: 国家
city: 城市
subscription_type: 订阅类型（高级会员/普通会员/免费会员）
subscription_start: 订阅开始日期
subscription_end: 订阅结束日期
total_orders: 总订单数
total_spent: 总消费金额
account_status: 账户状态（活跃/不活跃）
preferred_category: 偏好类别

数据特点：

包含三种订阅类型
包含活跃和不活跃用户
包含用户消费行为数据
适合测试用户分群和流失分析

适用场景：

用户活跃度分析
订阅转化分析
用户价值分析
流失风险识别

4. anomaly_sample.csv - 异常数据示例

描述：包含明显异常的交易数据，包含25条记录。

字段说明：

transaction_id: 交易ID
transaction_date: 交易日期
customer_id: 客户ID
amount: 交易金额
transaction_type: 交易类型
status: 交易状态
processing_time_hours: 处理时长（小时）
error_count: 错误次数
region: 地区

数据特点：

华东地区的大额交易（>15000元）处理时长异常长（>45小时）
华东地区大额交易的错误次数异常高（3-6次）
其他地区的交易处理正常（<3小时）
明显的地区性系统问题

异常模式：

金额异常：部分交易金额远超平均值
处理时长异常：华东地区大额交易处理时长是正常的20-30倍
错误率异常：华东地区大额交易错误次数远高于正常
地区集中：所有异常交易都集中在华东地区

适用场景：

异常检测测试
问题根因分析
深入分析功能测试
动态计划调整测试

使用建议

快速测试

# 测试完全自主分析
python -m src.main --data test_data/ticket_sample.csv --output output/test1

# 测试指定需求分析
python -m src.main --data test_data/sales_sample.csv --requirement "分析销售趋势" --output output/test2

# 测试模板分析
python -m src.main --data test_data/ticket_sample.csv --template templates/ticket_analysis.md --output output/test3

测试特定功能

测试异常识别：

python -m src.main --data test_data/anomaly_sample.csv --output output/anomaly_test

预期：AI 应该识别出华东地区大额交易的异常模式

测试深入分析：

python -m src.main --data test_data/ticket_sample.csv --output output/deep_analysis

预期：AI 应该发现车门模块问题并进行深入分析

测试数据类型识别：

# 工单数据
python -m src.main --data test_data/ticket_sample.csv --output output/type_test1

# 销售数据
python -m src.main --data test_data/sales_sample.csv --output output/type_test2

# 用户数据
python -m src.main --data test_data/user_sample.csv --output output/type_test3

预期：AI 应该正确识别每种数据类型

数据质量

所有测试数据都经过精心设计：

✅ 数据格式正确（CSV，UTF-8编码）
✅ 字段类型合理（数值、文本、日期）
✅ 包含真实业务场景
✅ 包含可识别的模式和异常
✅ 适合测试各种分析功能

扩展数据

如果需要更大的数据集进行性能测试，可以：

复制现有数据并修改ID
使用数据生成工具创建更多记录
使用真实的业务数据（注意脱敏）

注意事项

这些数据仅用于测试和演示，不代表真实业务数据
数据中的人名、地名等信息均为虚构
如需用于生产环境，请使用真实数据

5.5 KiB Raw Blame History Unescape Escape

测试数据说明

数据集列表

1. ticket_sample.csv - 工单数据示例

2. sales_sample.csv - 销售数据示例

3. user_sample.csv - 用户数据示例

4. anomaly_sample.csv - 异常数据示例

使用建议

快速测试

测试特定功能

数据质量

扩展数据

注意事项

5.5 KiB

Raw Blame History