Complete AI Data Analysis Agent implementation with 95.7% test coverage

This commit is contained in:
2026-03-07 00:04:29 +08:00
parent 621e546b43
commit 7071b1f730
245 changed files with 22612 additions and 2211 deletions

677
README.md
View File

@@ -1,357 +1,436 @@
# 数据分析智能体 (Data Analysis Agent)
# AI 数据分析 Agent
🤖 **基于LLM的智能数据分析代理**
一个真正由 AI 驱动的数据分析系统,能够像人类分析师一样理解数据、自主规划分析、执行任务并生成洞察性报告。
[![Python Version](https://img.shields.io/badge/python-3.8%2B-blue.svg)](https://python.org)
[![License](https://img.shields.io/badge/license-MIT-green.svg)](LICENSE)
[![OpenAI](https://img.shields.io/badge/LLM-OpenAI%20Compatible-orange.svg)](https://openai.com)
## 特性
## 📋 项目简介
- **AI 驱动决策**:让 AI 做决策,而不是执行预定义的规则
- **动态适应**:根据数据特征和发现动态调整分析计划
- **隐私保护**AI 不读取原始数据,只通过工具获取摘要信息
- **工具驱动**:通过动态工具集赋能 AI 的分析能力
- **自然语言交互**:用自然语言描述需求,系统自动理解并执行
- **模板支持**:支持使用模板作为参考框架,同时保持灵活性
![alt text](assets/images/40d04b1dc21848cf9eeac4b50551f2a1.png)
![alt text](assets/images/d24d6dd97279a27fd8c9d652bac1fdb2.png)
数据分析智能体是一个功能强大的Python工具它结合了大语言模型(LLM)的理解能力和Python数据分析库的计算能力能够
## 快速开始
- 🎯 **自然语言分析**:接受用户的自然语言需求,自动生成专业的数据分析代码
- 📊 **智能可视化**:自动生成高质量的图表,支持中文显示,输出到专用目录
- 🔄 **迭代优化**:基于执行结果自动调整分析策略,持续优化分析质量
- 📝 **报告生成**:自动生成包含图表和分析结论的专业报告(Markdown + Word)
- 🛡️ **安全执行**:在受限的环境中安全执行代码,支持常用的数据分析库
## 🏗️ 项目架构
```
data_analysis_agent/
├── 📁 config/ # 配置管理
│ ├── __init__.py
│ └── llm_config.py # LLM配置(API密钥、模型等)
├── 📁 utils/ # 核心工具模块
│ ├── code_executor.py # 安全的代码执行器
│ ├── llm_helper.py # LLM调用辅助类
│ ├── fallback_openai_client.py # 支持故障转移的OpenAI客户端
│ ├── extract_code.py # 代码提取工具
│ ├── format_execution_result.py # 执行结果格式化
│ └── create_session_dir.py # 会话目录管理
├── 📄 data_analysis_agent.py # 主智能体类
├── 📄 prompts.py # 系统提示词模板
├── 📄 main.py # 使用示例
├── 📄 requirements.txt # 项目依赖
├── 📄 .env # 环境变量配置
└── 📁 outputs/ # 分析结果输出目录
└── session_[时间戳]/ # 每次分析的独立会话目录
├── *.png # 生成的图表
├── 最终分析报告.md # Markdown报告
└── 最终分析报告.docx # Word报告
```
## 📊 数据分析流程图
使用Mermaid图表展示完整的数据分析流程
```mermaid
graph TD
A[用户输入自然语言需求] --> B[初始化智能体]
B --> C[创建专用会话目录]
C --> D[LLM理解需求并生成代码]
D --> E[安全代码执行器执行]
E --> F{执行是否成功?}
F -->|失败| G[错误分析与修复]
G --> D
F -->|成功| H[结果格式化与存储]
H --> I{是否需要更多分析?}
I -->|是| J[基于当前结果继续分析]
J --> D
I -->|否| K[收集所有图表]
K --> L[生成最终分析报告]
L --> M[输出Markdown和Word报告]
M --> N[分析完成]
style A fill:#e1f5fe
style N fill:#c8e6c9
style F fill:#fff3e0
style I fill:#fff3e0
```
## 🔄 智能体工作流程
```mermaid
sequenceDiagram
participant User as 用户
participant Agent as 数据分析智能体
participant LLM as 语言模型
participant Executor as 代码执行器
participant Storage as 文件存储
User->>Agent: 提供数据文件和分析需求
Agent->>Storage: 创建专用会话目录
loop 多轮分析循环
Agent->>LLM: 发送分析需求和上下文
LLM->>Agent: 返回分析代码和推理
Agent->>Executor: 执行Python代码
Executor->>Storage: 保存图表文件
Executor->>Agent: 返回执行结果
alt 需要继续分析
Agent->>LLM: 基于结果继续分析
else 分析完成
Agent->>LLM: 生成最终报告
LLM->>Agent: 返回分析报告
Agent->>Storage: 保存报告文件
end
end
Agent->>User: 返回完整分析结果
```
## ✨ 核心特性
### 🧠 智能分析流程
- **多阶段分析**:数据探索 → 清洗检查 → 分析可视化 → 图片收集 → 报告生成
- **错误自愈**:自动检测并修复常见错误(编码、列名、数据类型等)
- **上下文保持**Notebook环境中变量和状态在分析过程中持续保持
### 📋 多格式报告
- **Markdown报告**:结构化的分析报告,包含图表引用
- **Word文档**:专业的文档格式,便于分享和打印
- **图片集成**:报告中自动引用生成的图表
## 🚀 快速开始
### 1. 环境准备
### 安装
1. 克隆仓库:
```bash
# 克隆项目
git clone https://github.com/li-xiu-qi/data_analysis_agent.git
git clone <repository-url>
cd <repository-name>
```
cd data_analysis_agent
# 安装依赖
2. 安装依赖:
```bash
pip install -r requirements.txt
```
### 2. 配置API密钥
3. 配置环境变量:
创建`.env`文件:
创建 `.env` 文件(参考 `.env.example`
```bash
cp .env.example .env
```
编辑 `.env` 文件,设置 OpenAI API 密钥:
```
OPENAI_API_KEY=your_api_key_here
OPENAI_BASE_URL=https://api.openai.com/v1
OPENAI_MODEL=gpt-4
```
### 基本使用
#### 方式1命令行接口
```bash
# OpenAI API配置
# 完全自主分析
python -m src.cli data.csv
# 指定分析需求
python -m src.cli data.csv -r "分析工单健康度"
# 使用模板
python -m src.cli data.csv -t templates/ticket_analysis.md
# 指定输出目录
python -m src.cli data.csv -o results/
# 显示详细日志
python -m src.cli data.csv -v
```
#### 方式2Python API
```python
from src.main import run_analysis
# 运行分析
result = run_analysis(
data_file="data.csv",
user_requirement="分析工单健康度",
output_dir="output"
)
# 检查结果
if result['success']:
print(f"报告路径: {result['report_path']}")
print(f"执行时间: {result['elapsed_time']:.1f}")
else:
print(f"分析失败: {result['error']}")
```
## 使用场景
### 场景1完全自主分析
只需提供数据文件AI 会自动:
- 识别数据类型(工单、销售、用户等)
- 推断关键字段的业务含义
- 自主决定分析维度
- 生成合理的分析计划
- 执行分析并生成报告
```bash
python -m src.cli cleaned_data.csv
```
**输出示例**
```
数据类型:工单数据
关键发现:
* 待处理工单占比50%(异常高)
* 某车型问题占比80%
* 平均处理时长超过标准2倍
建议:优先处理该车型的积压工单
```
### 场景2指定分析方向
用自然语言描述需求AI 会:
- 理解抽象概念的业务含义
- 将其转化为具体指标
- 根据数据特征选择合适的分析方法
- 生成针对性的报告
```bash
python -m src.cli cleaned_data.csv -r "我想了解工单的健康度"
```
**AI 理解**
- 健康度 = 关闭率 + 处理效率 + 积压情况 + 响应及时性
**AI 分析**
- 关闭率75%(中等)
- 平均处理时长48小时偏长
- 积压工单50%(严重)
- 健康度评分60/100需改进
### 场景3使用模板
使用模板作为参考框架AI 会:
- 理解模板的结构和要求
- 检查数据是否满足模板要求
- 如果数据缺少某些字段,灵活调整
- 按模板结构组织报告
```bash
python -m src.cli cleaned_data.csv -t templates/ticket_analysis.md
```
### 场景4迭代深入分析
AI 能根据发现自主深入分析:
- 识别异常或关键发现
- 自主决定是否需要深入分析
- 动态调整分析计划
- 追踪问题的根因
## 系统架构
系统采用五阶段流水线架构,每个阶段都由 AI 驱动:
```
数据输入 → 数据理解 → 需求理解 → 分析规划 → 任务执行 → 报告生成
```
### 1. 数据理解Data Understanding
- 加载和解析 CSV 文件
- 推断数据类型和业务含义
- 识别关键字段
- 评估数据质量
### 2. 需求理解Requirement Understanding
- 解析用户的自然语言需求
- 将抽象概念转化为具体指标
- 解析和理解分析模板
- 检查数据是否支持需求
### 3. 分析规划Analysis Planning
- 根据数据特征和需求生成任务列表
- 确定任务优先级和依赖关系
- 选择合适的分析方法
- 生成初始工具配置
### 4. 任务执行Task Execution
- 使用 ReAct 模式(思考-行动-观察)执行任务
- 动态选择和调用工具
- 验证结果并处理错误
- 根据发现动态调整计划
### 5. 报告生成Report Generation
- 提炼关键发现
- 组织报告结构
- 生成结论和建议
- 嵌入图表和可视化
## 命令行参数
```
usage: python -m src.cli [-h] [-r REQUIREMENT] [-t TEMPLATE] [-o OUTPUT]
[-v] [--no-progress] [--version]
data_file
positional arguments:
data_file 数据文件路径CSV 格式)
optional arguments:
-h, --help 显示帮助信息
-r, --requirement 用户需求(自然语言)
-t, --template 模板文件路径Markdown 格式)
-o, --output 输出目录,默认为 "output"
-v, --verbose 显示详细日志
--no-progress 不显示进度条
--version 显示版本信息
```
## 配置说明
### 环境变量配置
`.env` 文件中配置以下参数:
```bash
# OpenAI API 配置
OPENAI_API_KEY=your_api_key_here
OPENAI_BASE_URL=https://api.openai.com/v1
OPENAI_MODEL=gpt-4
# 或者使用兼容的API如火山引擎
# OPENAI_BASE_URL=https://ark.cn-beijing.volces.com/api/v3
# OPENAI_MODEL=deepseek-v3-250324
# 性能参数
MAX_RETRIES=3
TIMEOUT=120
MAX_ITERATIONS=10
# 输出配置
OUTPUT_DIR=output
LOG_LEVEL=INFO
```
### 3. 基本使用
### 配置文件
```python
from data_analysis_agent import DataAnalysisAgent
from config.llm_config import LLMConfig
可以创建 `config.json` 文件(参考 `config.example.json`
# 初始化智能体
llm_config = LLMConfig()
agent = DataAnalysisAgent(llm_config)
# 开始分析
files = ["your_data.csv"]
report = agent.analyze(
user_input="分析销售数据,生成趋势图表和关键指标",
files=files
)
print(report)
```
```python
# 自定义配置
agent = DataAnalysisAgent(
llm_config=llm_config,
output_dir="custom_outputs", # 自定义输出目录
max_rounds=30 # 增加最大分析轮数
)
# 使用便捷函数
from data_analysis_agent import quick_analysis
report = quick_analysis(
query="分析用户行为数据,重点关注转化率",
files=["user_behavior.csv"],
max_rounds=15
)
```
## 📊 使用示例
以下是分析贵州茅台财务数据的完整示例:
```python
# 示例:茅台财务分析
files = ["贵州茅台利润表.csv"]
report = agent.analyze(
user_input="基于贵州茅台的数据,输出五个重要的统计指标,并绘制相关图表。最后生成汇报给我。",
files=files
)
```
**生成的分析内容包括:**
- 📈 营业总收入趋势图
- 💰 净利润率变化分析
- 📊 利润构成分析图表
- 💵 每股收益变化趋势
- 📋 营业成本占比分析
- 📄 综合分析报告
## 🎨 流程可视化
### 📊 分析过程状态图
```mermaid
stateDiagram-v2
[*] --> 数据加载
数据加载 --> 数据探索: 成功加载
数据加载 --> 编码修复: 编码错误
编码修复 --> 数据探索: 修复完成
数据探索 --> 数据清洗: 探索完成
数据清洗 --> 统计分析: 清洗完成
统计分析 --> 可视化生成: 分析完成
可视化生成 --> 图表保存: 图表生成
图表保存 --> 结果评估: 保存完成
结果评估 --> 继续分析: 需要更多分析
结果评估 --> 报告生成: 分析充分
继续分析 --> 统计分析
报告生成 --> [*]: 完成
```
## 🔧 配置选项
### LLM配置
```python
@dataclass
class LLMConfig:
provider: str = "openai"
api_key: str = os.environ.get("OPENAI_API_KEY", "")
base_url: str = os.environ.get("OPENAI_BASE_URL", "https://api.openai.com/v1")
model: str = os.environ.get("OPENAI_MODEL", "gpt-4")
max_tokens: int = 4000
temperature: float = 0.1
```
### 执行器配置
```python
# 允许的库列表
ALLOWED_IMPORTS = {
'pandas', 'numpy', 'matplotlib', 'duckdb',
'scipy', 'sklearn', 'plotly', 'requests',
'os', 'json', 'datetime', 're', 'pathlib'
```json
{
"llm": {
"provider": "openai",
"model": "gpt-4",
"temperature": 0.7,
"max_tokens": 4000
},
"performance": {
"max_retries": 3,
"timeout": 120,
"max_iterations": 10
},
"output": {
"dir": "output",
"format": "markdown"
}
}
```
## 🎯 最佳实践
## 输出文件
### 1. 数据准备
分析完成后,输出目录包含:
- ✅ 使用CSV格式支持UTF-8/GBK编码
- ✅ 确保列名清晰、无特殊字符
- ✅ 数据量适中(建议<100MB
- `analysis_report.md` - 分析报告Markdown 格式)
- `analysis.log` - 执行日志
- `*.png` - 生成的图表(如果有
- `data_profile.json` - 数据画像(可选)
- `analysis_plan.json` - 分析计划(可选)
### 2. 查询编写
## 工具系统
- ✅ 使用清晰的中文描述分析需求
- ✅ 指定想要的图表类型和关键指标
- ✅ 明确分析的目标和重点
系统提供丰富的分析工具,并根据数据特征动态调整:
### 3. 结果解读
### 数据查询工具
- `get_column_distribution` - 获取列的分布统计
- `get_value_counts` - 获取值计数
- `get_time_series` - 获取时间序列数据
- `get_correlation` - 获取相关性分析
- ✅ 检查生成的图表是否符合预期
- ✅ 阅读分析报告中的关键发现
- ✅ 根据需要调整查询重新分析
### 统计分析工具
- `calculate_statistics` - 计算描述性统计
- `perform_groupby` - 执行分组聚合
- `detect_outliers` - 检测异常值
- `calculate_trend` - 计算趋势
## 🚨 注意事项
### 可视化工具
- `create_bar_chart` - 创建柱状图
- `create_line_chart` - 创建折线图
- `create_pie_chart` - 创建饼图
- `create_heatmap` - 创建热力图
- `ai_picture` - AI 智能画图
### 安全限制
## 隐私保护
- 🔒 仅支持预定义的数据分析库
- 🔒 不允许文件系统操作(除图片保存)
- 🔒 不支持网络请求除LLM调用
系统遵循严格的隐私保护原则:
### 性能考虑
- **数据访问限制**AI 不能直接访问原始数据
- **工具驱动**:只能通过工具获取聚合结果
- **元数据优先**:数据画像只包含元数据和统计摘要
- **本地处理**:所有原始数据处理在本地完成,不上传到外部服务
- ⚡ 大数据集可能导致分析时间较长
- ⚡ 复杂分析任务可能需要多轮交互
- ⚡ API调用频率受到模型限制
## 性能指标
### 兼容性
- 数据理解阶段:< 30秒
- 分析规划阶段:< 60秒
- 单个任务执行:< 120秒
- 完整分析流程:< 30分钟取决于数据大小和任务数量
- 支持最大 100万行数据
- 🐍 Python 3.8+
- 📊 支持pandas兼容的数据格式
- 🖼️ 需要matplotlib中文字体支持
## 故障排除
## 🐛 故障排除
### 问题1找不到 OpenAI API 密钥
### 常见问题
**错误信息**`OpenAI API key not found`
**Q: 图表中文显示为方框?**
A: 系统会自动检测并使用可用的中文字体macOS: Hiragino Sans GB, Songti SC等Windows: SimHei等
**解决方案**
1. 确保 `.env` 文件存在
2. 检查 `OPENAI_API_KEY` 是否正确设置
3. 确保 `.env` 文件在项目根目录
**Q: API调用失败**
A: 检查`.env`文件中的API密钥和端点配置确保网络连接正常。
### 问题2数据加载失败
**Q: 数据加载错误?**
A: 检查文件路径和编码格式支持UTF-8、GBK等常见编码。
**错误信息**`Failed to load data file`
**Q: 分析结果不准确?**
A: 尝试提供更详细的分析需求,或检查原始数据质量。
**解决方案**
1. 检查文件路径是否正确
2. 确保文件是 CSV 格式
3. 尝试使用 `-v` 参数查看详细错误信息
4. 检查文件编码(系统会自动尝试多种编码)
**Q: Mermaid流程图无法正常显示**
A: 确保在支持Mermaid的环境中查看如GitHub、Typora、VS Code预览等。如果在本地查看推荐使用支持Mermaid的Markdown编辑器。
### 问题3分析失败
**Q: 如何自定义流程图样式?**
A: 可以在Mermaid代码块中添加样式定义或使用不同的图表类型graph、flowchart、sequenceDiagram等来满足不同的展示需求。
**错误信息**`Analysis failed`
### 错误日志
**解决方案**
1. 检查日志文件 `output/analysis.log`
2. 确保数据文件不为空
3. 确保数据格式正确
4. 检查 API 配额是否充足
分析过程中的错误信息会保存在会话目录中,便于调试和优化。
### 问题4AI 调用超时
## 🤝 贡献指南
**错误信息**`LLM call timeout`
欢迎贡献代码和改进建议!
**解决方案**
1. 增加 `TIMEOUT` 配置值
2. 检查网络连接
3. 尝试使用更快的模型
## 开发和测试
### 运行测试
```bash
# 运行所有测试
pytest
# 运行单元测试
pytest tests/ -k "not properties"
# 运行属性测试
pytest tests/ -k "properties"
# 运行集成测试
pytest tests/test_integration.py -v
# 运行特定测试
pytest tests/test_integration.py::TestEndToEndAnalysis -v
# 显示覆盖率
pytest --cov=src --cov-report=html
```
### 项目结构
```
.
├── src/ # 源代码
│ ├── main.py # 主流程编排
│ ├── cli.py # 命令行接口
│ ├── config.py # 配置管理
│ ├── data_access.py # 数据访问层
│ ├── error_handling.py # 错误处理
│ ├── logging_config.py # 日志配置
│ ├── engines/ # 分析引擎
│ │ ├── data_understanding.py
│ │ ├── requirement_understanding.py
│ │ ├── analysis_planning.py
│ │ ├── task_execution.py
│ │ ├── plan_adjustment.py
│ │ └── report_generation.py
│ ├── models/ # 数据模型
│ │ ├── data_profile.py
│ │ ├── requirement_spec.py
│ │ ├── analysis_plan.py
│ │ └── analysis_result.py
│ └── tools/ # 分析工具
│ ├── base.py
│ ├── query_tools.py
│ ├── stats_tools.py
│ ├── viz_tools.py
│ └── tool_manager.py
├── tests/ # 测试文件
├── templates/ # 分析模板
├── test_data/ # 测试数据
├── examples/ # 示例脚本
├── docs/ # 文档
├── .env.example # 环境变量示例
├── config.example.json # 配置文件示例
├── requirements.txt # 依赖列表
└── README.md # 本文件
```
## 示例
查看 `examples/` 目录获取更多示例:
- `autonomous_analysis.py` - 完全自主分析示例
- `requirement_based_analysis.py` - 指定需求分析示例
- `template_based_analysis.py` - 基于模板分析示例
## 贡献
欢迎贡献!请遵循以下步骤:
1. Fork 项目
2. 创建功能分支
3. 提交更改
4. 推送到分支
5. 创建Pull Request
2. 创建特性分支 (`git checkout -b feature/AmazingFeature`)
3. 提交更改 (`git commit -m 'Add some AmazingFeature'`)
4. 推送到分支 (`git push origin feature/AmazingFeature`)
5. 创建 Pull Request
## 📄 许可证
## 许可证
本项目基于MIT许可证开源。详见[LICENSE](LICENSE)文件。
MIT License
## 🔄 更新日志
## 联系方式
### v1.0.0
如有问题或建议,请创建 Issue。
- ✨ 初始版本发布
- 🎯 支持自然语言数据分析
- 📊 集成matplotlib图表生成
- 📝 自动报告生成功能
- 🔒 安全的代码执行环境
## 致谢
---
<div align="center">
**🚀 让数据分析变得更智能、更简单!**
</div>
感谢所有贡献者和使用者的支持!