Complete AI Data Analysis Agent implementation with 95.7% test coverage

2026-03-07 00:04:29 +08:00
parent 621e546b43
commit 7071b1f730
245 changed files with 22612 additions and 2211 deletions
--- a/README.md
+++ b/README.md
@@ -1,357 +1,436 @@
-# 数据分析智能体 (Data Analysis Agent)
+# AI 数据分析 Agent

-🤖 **基于LLM的智能数据分析代理**
+一个真正由 AI 驱动的数据分析系统，能够像人类分析师一样理解数据、自主规划分析、执行任务并生成洞察性报告。

-[![Python Version](https://img.shields.io/badge/python-3.8%2B-blue.svg)](https://python.org)
-[![License](https://img.shields.io/badge/license-MIT-green.svg)](LICENSE)
-[![OpenAI](https://img.shields.io/badge/LLM-OpenAI%20Compatible-orange.svg)](https://openai.com)
+## 特性

-## 📋 项目简介
+- **AI 驱动决策**：让 AI 做决策，而不是执行预定义的规则
+- **动态适应**：根据数据特征和发现动态调整分析计划
+- **隐私保护**：AI 不读取原始数据，只通过工具获取摘要信息
+- **工具驱动**：通过动态工具集赋能 AI 的分析能力
+- **自然语言交互**：用自然语言描述需求，系统自动理解并执行
+- **模板支持**：支持使用模板作为参考框架，同时保持灵活性

-![alt text](assets/images/40d04b1dc21848cf9eeac4b50551f2a1.png)
-![alt text](assets/images/d24d6dd97279a27fd8c9d652bac1fdb2.png)
-数据分析智能体是一个功能强大的Python工具，它结合了大语言模型(LLM)的理解能力和Python数据分析库的计算能力，能够：
+## 快速开始

- 🎯 **自然语言分析**：接受用户的自然语言需求，自动生成专业的数据分析代码
- 📊 **智能可视化**：自动生成高质量的图表，支持中文显示，输出到专用目录
- 🔄 **迭代优化**：基于执行结果自动调整分析策略，持续优化分析质量
- 📝 **报告生成**：自动生成包含图表和分析结论的专业报告(Markdown + Word)
- 🛡️ **安全执行**：在受限的环境中安全执行代码，支持常用的数据分析库
-
-## 🏗️ 项目架构
-
-```
-data_analysis_agent/
-├── 📁 config/                 # 配置管理
-│   ├── __init__.py
-│   └── llm_config.py          # LLM配置(API密钥、模型等)
-├── 📁 utils/                  # 核心工具模块
-│   ├── code_executor.py       # 安全的代码执行器
-│   ├── llm_helper.py          # LLM调用辅助类
-│   ├── fallback_openai_client.py  # 支持故障转移的OpenAI客户端
-│   ├── extract_code.py        # 代码提取工具
-│   ├── format_execution_result.py  # 执行结果格式化
-│   └── create_session_dir.py  # 会话目录管理
-├── 📄 data_analysis_agent.py  # 主智能体类
-├── 📄 prompts.py              # 系统提示词模板
-├── 📄 main.py                 # 使用示例
-├── 📄 requirements.txt        # 项目依赖
-├── 📄 .env                    # 环境变量配置
-└── 📁 outputs/                # 分析结果输出目录
-    └── session_[时间戳]/        # 每次分析的独立会话目录
-        ├── *.png             # 生成的图表
-        ├── 最终分析报告.md    # Markdown报告
-        └── 最终分析报告.docx  # Word报告
-```
-
-## 📊 数据分析流程图
-
-使用Mermaid图表展示完整的数据分析流程：
-
-```mermaid
-graph TD
-    A[用户输入自然语言需求] --> B[初始化智能体]
-    B --> C[创建专用会话目录]
-    C --> D[LLM理解需求并生成代码]
-    D --> E[安全代码执行器执行]
-    E --> F{执行是否成功?}
-    F -->|失败| G[错误分析与修复]
-    G --> D
-    F -->|成功| H[结果格式化与存储]
-    H --> I{是否需要更多分析?}
-    I -->|是| J[基于当前结果继续分析]
-    J --> D
-    I -->|否| K[收集所有图表]
-    K --> L[生成最终分析报告]
-    L --> M[输出Markdown和Word报告]
-    M --> N[分析完成]
-
-    style A fill:#e1f5fe
-    style N fill:#c8e6c9
-    style F fill:#fff3e0
-    style I fill:#fff3e0
-```
-
-## 🔄 智能体工作流程
-
-```mermaid
-sequenceDiagram
-    participant User as 用户
-    participant Agent as 数据分析智能体
-    participant LLM as 语言模型
-    participant Executor as 代码执行器
-    participant Storage as 文件存储
-
-    User->>Agent: 提供数据文件和分析需求
-    Agent->>Storage: 创建专用会话目录
-    
-    loop 多轮分析循环
-        Agent->>LLM: 发送分析需求和上下文
-        LLM->>Agent: 返回分析代码和推理
-        Agent->>Executor: 执行Python代码
-        Executor->>Storage: 保存图表文件
-        Executor->>Agent: 返回执行结果
-        
-        alt 需要继续分析
-            Agent->>LLM: 基于结果继续分析
-        else 分析完成
-            Agent->>LLM: 生成最终报告
-            LLM->>Agent: 返回分析报告
-            Agent->>Storage: 保存报告文件
-        end
-    end
-    
-    Agent->>User: 返回完整分析结果
-```
-
-## ✨ 核心特性
-
-### 🧠 智能分析流程
-
- **多阶段分析**：数据探索 → 清洗检查 → 分析可视化 → 图片收集 → 报告生成
- **错误自愈**：自动检测并修复常见错误（编码、列名、数据类型等）
- **上下文保持**：Notebook环境中变量和状态在分析过程中持续保持
-
-### 📋 多格式报告
-
- **Markdown报告**：结构化的分析报告，包含图表引用
- **Word文档**：专业的文档格式，便于分享和打印
- **图片集成**：报告中自动引用生成的图表
-
-## 🚀 快速开始
-
-### 1. 环境准备
+### 安装

+1. 克隆仓库：
 ```bash
-# 克隆项目
-git clone  https://github.com/li-xiu-qi/data_analysis_agent.git
+git clone <repository-url>
+cd <repository-name>
+```

-cd data_analysis_agent
-
-# 安装依赖
+2. 安装依赖：
+```bash
 pip install -r requirements.txt
 ```

-### 2. 配置API密钥
+3. 配置环境变量：

-创建`.env`文件：
+创建 `.env` 文件（参考 `.env.example`）：
+```bash
+cp .env.example .env
+```
+
+编辑 `.env` 文件，设置 OpenAI API 密钥：
+```
+OPENAI_API_KEY=your_api_key_here
+OPENAI_BASE_URL=https://api.openai.com/v1
+OPENAI_MODEL=gpt-4
+```
+
+### 基本使用
+
+#### 方式1：命令行接口

 ```bash
-# OpenAI API配置
+# 完全自主分析
+python -m src.cli data.csv
+
+# 指定分析需求
+python -m src.cli data.csv -r "分析工单健康度"
+
+# 使用模板
+python -m src.cli data.csv -t templates/ticket_analysis.md
+
+# 指定输出目录
+python -m src.cli data.csv -o results/
+
+# 显示详细日志
+python -m src.cli data.csv -v
+```
+
+#### 方式2：Python API
+
+```python
+from src.main import run_analysis
+
+# 运行分析
+result = run_analysis(
+    data_file="data.csv",
+    user_requirement="分析工单健康度",
+    output_dir="output"
+)
+
+# 检查结果
+if result['success']:
+    print(f"报告路径: {result['report_path']}")
+    print(f"执行时间: {result['elapsed_time']:.1f}秒")
+else:
+    print(f"分析失败: {result['error']}")
+```
+
+## 使用场景
+
+### 场景1：完全自主分析
+
+只需提供数据文件，AI 会自动：
+- 识别数据类型（工单、销售、用户等）
+- 推断关键字段的业务含义
+- 自主决定分析维度
+- 生成合理的分析计划
+- 执行分析并生成报告
+
+```bash
+python -m src.cli cleaned_data.csv
+```
+
+**输出示例**：
+```
+数据类型：工单数据
+关键发现：
+  * 待处理工单占比50%（异常高）
+  * 某车型问题占比80%
+  * 平均处理时长超过标准2倍
+建议：优先处理该车型的积压工单
+```
+
+### 场景2：指定分析方向
+
+用自然语言描述需求，AI 会：
+- 理解抽象概念的业务含义
+- 将其转化为具体指标
+- 根据数据特征选择合适的分析方法
+- 生成针对性的报告
+
+```bash
+python -m src.cli cleaned_data.csv -r "我想了解工单的健康度"
+```
+
+**AI 理解**：
+- 健康度 = 关闭率 + 处理效率 + 积压情况 + 响应及时性
+
+**AI 分析**：
+- 关闭率：75%（中等）
+- 平均处理时长：48小时（偏长）
+- 积压工单：50%（严重）
+- 健康度评分：60/100（需改进）
+
+### 场景3：使用模板
+
+使用模板作为参考框架，AI 会：
+- 理解模板的结构和要求
+- 检查数据是否满足模板要求
+- 如果数据缺少某些字段，灵活调整
+- 按模板结构组织报告
+
+```bash
+python -m src.cli cleaned_data.csv -t templates/ticket_analysis.md
+```
+
+### 场景4：迭代深入分析
+
+AI 能根据发现自主深入分析：
+- 识别异常或关键发现
+- 自主决定是否需要深入分析
+- 动态调整分析计划
+- 追踪问题的根因
+
+## 系统架构
+
+系统采用五阶段流水线架构，每个阶段都由 AI 驱动：
+
+```
+数据输入 → 数据理解 → 需求理解 → 分析规划 → 任务执行 → 报告生成
+```
+
+### 1. 数据理解（Data Understanding）
+- 加载和解析 CSV 文件
+- 推断数据类型和业务含义
+- 识别关键字段
+- 评估数据质量
+
+### 2. 需求理解（Requirement Understanding）
+- 解析用户的自然语言需求
+- 将抽象概念转化为具体指标
+- 解析和理解分析模板
+- 检查数据是否支持需求
+
+### 3. 分析规划（Analysis Planning）
+- 根据数据特征和需求生成任务列表
+- 确定任务优先级和依赖关系
+- 选择合适的分析方法
+- 生成初始工具配置
+
+### 4. 任务执行（Task Execution）
+- 使用 ReAct 模式（思考-行动-观察）执行任务
+- 动态选择和调用工具
+- 验证结果并处理错误
+- 根据发现动态调整计划
+
+### 5. 报告生成（Report Generation）
+- 提炼关键发现
+- 组织报告结构
+- 生成结论和建议
+- 嵌入图表和可视化
+
+## 命令行参数
+
+```
+usage: python -m src.cli [-h] [-r REQUIREMENT] [-t TEMPLATE] [-o OUTPUT] 
+                          [-v] [--no-progress] [--version] 
+                          data_file
+
+positional arguments:
+  data_file             数据文件路径（CSV 格式）
+
+optional arguments:
+  -h, --help            显示帮助信息
+  -r, --requirement     用户需求（自然语言）
+  -t, --template        模板文件路径（Markdown 格式）
+  -o, --output          输出目录，默认为 "output"
+  -v, --verbose         显示详细日志
+  --no-progress         不显示进度条
+  --version             显示版本信息
+```
+
+## 配置说明
+
+### 环境变量配置
+
+在 `.env` 文件中配置以下参数：
+
+```bash
+# OpenAI API 配置
 OPENAI_API_KEY=your_api_key_here
 OPENAI_BASE_URL=https://api.openai.com/v1
 OPENAI_MODEL=gpt-4

-# 或者使用兼容的API（如火山引擎）
-# OPENAI_BASE_URL=https://ark.cn-beijing.volces.com/api/v3
-# OPENAI_MODEL=deepseek-v3-250324
+# 性能参数
+MAX_RETRIES=3
+TIMEOUT=120
+MAX_ITERATIONS=10
+
+# 输出配置
+OUTPUT_DIR=output
+LOG_LEVEL=INFO
 ```

-### 3. 基本使用
+### 配置文件

-```python
-from data_analysis_agent import DataAnalysisAgent
-from config.llm_config import LLMConfig
+可以创建 `config.json` 文件（参考 `config.example.json`）：

-# 初始化智能体
-llm_config = LLMConfig()
-agent = DataAnalysisAgent(llm_config)
-
-# 开始分析
-files = ["your_data.csv"]
-report = agent.analyze(
-    user_input="分析销售数据，生成趋势图表和关键指标",
-    files=files
-)
-
-print(report)
-```
-
-```python
-# 自定义配置
-agent = DataAnalysisAgent(
-    llm_config=llm_config,
-    output_dir="custom_outputs",  # 自定义输出目录
-    max_rounds=30                 # 增加最大分析轮数
-)
-
-# 使用便捷函数
-from data_analysis_agent import quick_analysis
-
-report = quick_analysis(
-    query="分析用户行为数据，重点关注转化率",
-    files=["user_behavior.csv"],
-    max_rounds=15
-)
-```
-
-## 📊 使用示例
-
-以下是分析贵州茅台财务数据的完整示例：
-
-```python
-# 示例：茅台财务分析
-files = ["贵州茅台利润表.csv"]
-report = agent.analyze(
-    user_input="基于贵州茅台的数据，输出五个重要的统计指标，并绘制相关图表。最后生成汇报给我。",
-    files=files
-)
-```
-
-**生成的分析内容包括：**
-
- 📈 营业总收入趋势图
- 💰 净利润率变化分析
- 📊 利润构成分析图表
- 💵 每股收益变化趋势
- 📋 营业成本占比分析
- 📄 综合分析报告
-
-## 🎨 流程可视化
-
-### 📊 分析过程状态图
-
-```mermaid
-stateDiagram-v2
-    [*] --> 数据加载
-    数据加载 --> 数据探索: 成功加载
-    数据加载 --> 编码修复: 编码错误
-    编码修复 --> 数据探索: 修复完成
-    
-    数据探索 --> 数据清洗: 探索完成
-    数据清洗 --> 统计分析: 清洗完成
-    统计分析 --> 可视化生成: 分析完成
-    
-    可视化生成 --> 图表保存: 图表生成
-    图表保存 --> 结果评估: 保存完成
-    
-    结果评估 --> 继续分析: 需要更多分析
-    结果评估 --> 报告生成: 分析充分
-    继续分析 --> 统计分析
-    
-    报告生成 --> [*]: 完成
-```
-
-## 🔧 配置选项
-
-### LLM配置
-
-```python
-@dataclass
-class LLMConfig:
-    provider: str = "openai"
-    api_key: str = os.environ.get("OPENAI_API_KEY", "")
-    base_url: str = os.environ.get("OPENAI_BASE_URL", "https://api.openai.com/v1")
-    model: str = os.environ.get("OPENAI_MODEL", "gpt-4")
-    max_tokens: int = 4000
-    temperature: float = 0.1
-```
-
-### 执行器配置
-
-```python
-# 允许的库列表
-ALLOWED_IMPORTS = {
-    'pandas', 'numpy', 'matplotlib', 'duckdb', 
-    'scipy', 'sklearn', 'plotly', 'requests',
-    'os', 'json', 'datetime', 're', 'pathlib'
+```json
+{
+  "llm": {
+    "provider": "openai",
+    "model": "gpt-4",
+    "temperature": 0.7,
+    "max_tokens": 4000
+  },
+  "performance": {
+    "max_retries": 3,
+    "timeout": 120,
+    "max_iterations": 10
+  },
+  "output": {
+    "dir": "output",
+    "format": "markdown"
+  }
 }
 ```

-## 🎯 最佳实践
+## 输出文件

-### 1. 数据准备
+分析完成后，输出目录包含：

- ✅ 使用CSV格式，支持UTF-8/GBK编码
- ✅ 确保列名清晰、无特殊字符
- ✅ 数据量适中（建议<100MB）
+- `analysis_report.md` - 分析报告（Markdown 格式）
+- `analysis.log` - 执行日志
+- `*.png` - 生成的图表（如果有）
+- `data_profile.json` - 数据画像（可选）
+- `analysis_plan.json` - 分析计划（可选）

-### 2. 查询编写
+## 工具系统

- ✅ 使用清晰的中文描述分析需求
- ✅ 指定想要的图表类型和关键指标
- ✅ 明确分析的目标和重点
+系统提供丰富的分析工具，并根据数据特征动态调整：

-### 3. 结果解读
+### 数据查询工具
+- `get_column_distribution` - 获取列的分布统计
+- `get_value_counts` - 获取值计数
+- `get_time_series` - 获取时间序列数据
+- `get_correlation` - 获取相关性分析

- ✅ 检查生成的图表是否符合预期
- ✅ 阅读分析报告中的关键发现
- ✅ 根据需要调整查询重新分析
+### 统计分析工具
+- `calculate_statistics` - 计算描述性统计
+- `perform_groupby` - 执行分组聚合
+- `detect_outliers` - 检测异常值
+- `calculate_trend` - 计算趋势

-## 🚨 注意事项
+### 可视化工具
+- `create_bar_chart` - 创建柱状图
+- `create_line_chart` - 创建折线图
+- `create_pie_chart` - 创建饼图
+- `create_heatmap` - 创建热力图
+- `ai_picture` - AI 智能画图

-### 安全限制
+## 隐私保护

- 🔒 仅支持预定义的数据分析库
- 🔒 不允许文件系统操作（除图片保存）
- 🔒 不支持网络请求（除LLM调用）
+系统遵循严格的隐私保护原则：

-### 性能考虑
+- **数据访问限制**：AI 不能直接访问原始数据
+- **工具驱动**：只能通过工具获取聚合结果
+- **元数据优先**：数据画像只包含元数据和统计摘要
+- **本地处理**：所有原始数据处理在本地完成，不上传到外部服务

- ⚡ 大数据集可能导致分析时间较长
- ⚡ 复杂分析任务可能需要多轮交互
- ⚡ API调用频率受到模型限制
+## 性能指标

-### 兼容性
+- 数据理解阶段：< 30秒
+- 分析规划阶段：< 60秒
+- 单个任务执行：< 120秒
+- 完整分析流程：< 30分钟（取决于数据大小和任务数量）
+- 支持最大 100万行数据

- 🐍 Python 3.8+
- 📊 支持pandas兼容的数据格式
- 🖼️ 需要matplotlib中文字体支持
+## 故障排除

-## 🐛 故障排除
+### 问题1：找不到 OpenAI API 密钥

-### 常见问题
+**错误信息**：`OpenAI API key not found`

-**Q: 图表中文显示为方框？**
-A: 系统会自动检测并使用可用的中文字体（macOS: Hiragino Sans GB, Songti SC等；Windows: SimHei等）。
+**解决方案**：
+1. 确保 `.env` 文件存在
+2. 检查 `OPENAI_API_KEY` 是否正确设置
+3. 确保 `.env` 文件在项目根目录

-**Q: API调用失败？**
-A: 检查`.env`文件中的API密钥和端点配置，确保网络连接正常。
+### 问题2：数据加载失败

-**Q: 数据加载错误？**
-A: 检查文件路径和编码格式，支持UTF-8、GBK等常见编码。
+**错误信息**：`Failed to load data file`

-**Q: 分析结果不准确？**
-A: 尝试提供更详细的分析需求，或检查原始数据质量。
+**解决方案**：
+1. 检查文件路径是否正确
+2. 确保文件是 CSV 格式
+3. 尝试使用 `-v` 参数查看详细错误信息
+4. 检查文件编码（系统会自动尝试多种编码）

-**Q: Mermaid流程图无法正常显示？**
-A: 确保在支持Mermaid的环境中查看（如GitHub、Typora、VS Code预览等）。如果在本地查看，推荐使用支持Mermaid的Markdown编辑器。
+### 问题3：分析失败

-**Q: 如何自定义流程图样式？**
-A: 可以在Mermaid代码块中添加样式定义，或使用不同的图表类型（graph、flowchart、sequenceDiagram等）来满足不同的展示需求。
+**错误信息**：`Analysis failed`

-### 错误日志
+**解决方案**：
+1. 检查日志文件 `output/analysis.log`
+2. 确保数据文件不为空
+3. 确保数据格式正确
+4. 检查 API 配额是否充足

-分析过程中的错误信息会保存在会话目录中，便于调试和优化。
+### 问题4：AI 调用超时

-## 🤝 贡献指南
+**错误信息**：`LLM call timeout`

-欢迎贡献代码和改进建议！
+**解决方案**：
+1. 增加 `TIMEOUT` 配置值
+2. 检查网络连接
+3. 尝试使用更快的模型
+
+## 开发和测试
+
+### 运行测试
+
+```bash
+# 运行所有测试
+pytest
+
+# 运行单元测试
+pytest tests/ -k "not properties"
+
+# 运行属性测试
+pytest tests/ -k "properties"
+
+# 运行集成测试
+pytest tests/test_integration.py -v
+
+# 运行特定测试
+pytest tests/test_integration.py::TestEndToEndAnalysis -v
+
+# 显示覆盖率
+pytest --cov=src --cov-report=html
+```
+
+### 项目结构
+
+```
+.
+├── src/                    # 源代码
+│   ├── main.py            # 主流程编排
+│   ├── cli.py             # 命令行接口
+│   ├── config.py          # 配置管理
+│   ├── data_access.py     # 数据访问层
+│   ├── error_handling.py  # 错误处理
+│   ├── logging_config.py  # 日志配置
+│   ├── engines/           # 分析引擎
+│   │   ├── data_understanding.py
+│   │   ├── requirement_understanding.py
+│   │   ├── analysis_planning.py
+│   │   ├── task_execution.py
+│   │   ├── plan_adjustment.py
+│   │   └── report_generation.py
+│   ├── models/            # 数据模型
+│   │   ├── data_profile.py
+│   │   ├── requirement_spec.py
+│   │   ├── analysis_plan.py
+│   │   └── analysis_result.py
+│   └── tools/             # 分析工具
+│       ├── base.py
+│       ├── query_tools.py
+│       ├── stats_tools.py
+│       ├── viz_tools.py
+│       └── tool_manager.py
+├── tests/                 # 测试文件
+├── templates/             # 分析模板
+├── test_data/             # 测试数据
+├── examples/              # 示例脚本
+├── docs/                  # 文档
+├── .env.example           # 环境变量示例
+├── config.example.json    # 配置文件示例
+├── requirements.txt       # 依赖列表
+└── README.md             # 本文件
+```
+
+## 示例
+
+查看 `examples/` 目录获取更多示例：
+
+- `autonomous_analysis.py` - 完全自主分析示例
+- `requirement_based_analysis.py` - 指定需求分析示例
+- `template_based_analysis.py` - 基于模板分析示例
+
+## 贡献
+
+欢迎贡献！请遵循以下步骤：

 1. Fork 项目
-2. 创建功能分支
-3. 提交更改
-4. 推送到分支
-5. 创建Pull Request
+2. 创建特性分支 (`git checkout -b feature/AmazingFeature`)
+3. 提交更改 (`git commit -m 'Add some AmazingFeature'`)
+4. 推送到分支 (`git push origin feature/AmazingFeature`)
+5. 创建 Pull Request

-## 📄 许可证
+## 许可证

-本项目基于MIT许可证开源。详见[LICENSE](LICENSE)文件。
+MIT License

-## 🔄 更新日志
+## 联系方式

-### v1.0.0
+如有问题或建议，请创建 Issue。

- ✨ 初始版本发布
- 🎯 支持自然语言数据分析
- 📊 集成matplotlib图表生成
- 📝 自动报告生成功能
- 🔒 安全的代码执行环境
+## 致谢

---
-
-<div align="center">
-
-**🚀 让数据分析变得更智能、更简单！**
-
-</div>
+感谢所有贡献者和使用者的支持！