layers/planner.py

"""
Layer 1: 意图规划器
"""
import json
from typing import Any

from core.config import LLM_CONFIG
from core.utils import get_llm_client, llm_chat, extract_json_object

PROMPT = """你是一个数据分析规划专家。

## 你的任务
根据用户的分析问题和数据库 Schema，生成一个结构化的分析计划。

## 输出格式（严格 JSON）
```json
{
  "intent": "一句话描述用户想了解什么",
  "analysis_type": "ranking" | "distribution" | "trend" | "comparison" | "anomaly" | "overview",
  "primary_table": "主要分析的表名",
  "dimensions": ["分组维度列名"],
  "metrics": ["需要聚合的数值列名"],
  "aggregations": ["SUM", "AVG", "COUNT", ...],
  "filters": [{"column": "列名", "condition": "过滤条件（可选）"}],
  "join_needed": false,
  "join_info": {"tables": [], "on": ""},
  "expected_rounds": 3,
  "rationale": "为什么这样规划，需要关注什么"
}
```

## 分析类型说明
- ranking: 按某维度排名
- distribution: 分布/占比
- trend: 时间趋势
- comparison: 对比分析
- anomaly: 异常检测
- overview: 全局概览

## 规划原则
1. 只选择与问题相关的表和列
2. 如果需要 JOIN，说明关联条件
3. 预估需要几轮探索（1-6）
4. 标注可能的异常关注点
5. metrics 不要包含 id 列"""


class Planner:
    """意图规划器"""

    def __init__(self):
        self.client, self.model = get_llm_client(LLM_CONFIG)

    def plan(self, question: str, schema_text: str) -> dict[str, Any]:
        content = llm_chat(
            self.client, self.model,
            messages=[
                {"role": "system", "content": PROMPT},
                {"role": "user", "content": f"## Schema\n{schema_text}\n\n## 用户问题\n{question}"},
            ],
            temperature=0.1,
            max_tokens=1024,
        )
        plan = extract_json_object(content)

        if not plan:
            plan = {"intent": content[:100], "analysis_type": "overview"}

        plan.setdefault("analysis_type", "overview")
        plan.setdefault("expected_rounds", 3)
        plan.setdefault("filters", [])
        plan.setdefault("join_needed", False)
        return plan
-												SQLite 持久连接 — sandbox 不再每次查询开关连接，改为 __init__ 时建连、close() 时释放
Explorer 的 system prompt 明确告知 sandbox 规则 — "每条 SQL 必须包含聚合函数或 LIMIT"，减少 LLM 生成违规 SQL 浪费轮次
LLM 客户端单例 — 所有组件共享一个 openai.OpenAI 实例，不再各建各的
sanitize 顺序修复 — 小样本抑制放在 float round 之前，避免被 round 干扰
quick_detect 从 O(n²) 改为 O(n) — 按列聚合一次，加去重，不再对每行重复算整列统计
历史上下文实际生效 — get_context_for 的结果现在会注入到 Explorer 的初始 prompt 里，多轮分析时 LLM 能看到之前的发现

											
										
										
											2026-03-20 13:20:31 +08:00
+								"""
 								Layer 1: 意图规划器
 								"""
 								import json
 								from typing import Any
 								from core.config import LLM_CONFIG
-												feat: 四层架构全面增强

安全与稳定性:
- 移除硬编码 API Key，改用 .env + 环境变量
- LLM 调用统一重试机制（指数退避，3 次重试，处理 429/5xx/超时）
- 中文字体检测增强（CJK 关键词兜底 + 无字体时英文 fallback）
- 缺失 API Key 给出友好提示而非崩溃

分析能力提升:
- 异常检测新增 z-score 检测（标准差>2 标记异常）
- 新增变异系数 CV 检测（数据波动性）
- 新增零值/缺失检测
- 上下文管理器升级为关键词语义匹配（替代简单取最近 2 条）

用户体验:
- 报告自动保存为 Markdown（reports/ 目录）
- 新增 export 命令导出查询结果为 CSV
- 新增 reports 命令查看已保存报告
- CLI 支持 readline 命令历史（方向键翻阅）
- CSV 导入工具重写：自动列名映射、容错处理、dry-run 模式
- 新增 .env.example 配置模板

											
										
										
											2026-03-31 14:39:17 +08:00
+								from core.utils import get_llm_client, llm_chat, extract_json_object
-												SQLite 持久连接 — sandbox 不再每次查询开关连接，改为 __init__ 时建连、close() 时释放
Explorer 的 system prompt 明确告知 sandbox 规则 — "每条 SQL 必须包含聚合函数或 LIMIT"，减少 LLM 生成违规 SQL 浪费轮次
LLM 客户端单例 — 所有组件共享一个 openai.OpenAI 实例，不再各建各的
sanitize 顺序修复 — 小样本抑制放在 float round 之前，避免被 round 干扰
quick_detect 从 O(n²) 改为 O(n) — 按列聚合一次，加去重，不再对每行重复算整列统计
历史上下文实际生效 — get_context_for 的结果现在会注入到 Explorer 的初始 prompt 里，多轮分析时 LLM 能看到之前的发现

											
										
										
											2026-03-20 13:20:31 +08:00
 								PROMPT = """你是一个数据分析规划专家。
 								## 你的任务
 								根据用户的分析问题和数据库 Schema，生成一个结构化的分析计划。
 								## 输出格式（严格 JSON）
 								```json
 								{
 								  "intent": "一句话描述用户想了解什么",
 								  "analysis_type": "ranking" | "distribution" | "trend" | "comparison" | "anomaly" | "overview",
 								  "primary_table": "主要分析的表名",
 								  "dimensions": ["分组维度列名"],
 								  "metrics": ["需要聚合的数值列名"],
 								  "aggregations": ["SUM", "AVG", "COUNT", ...],
 								  "filters": [{"column": "列名", "condition": "过滤条件（可选）"}],
 								  "join_needed": false,
 								  "join_info": {"tables": [], "on": ""},
 								  "expected_rounds": 3,
 								  "rationale": "为什么这样规划，需要关注什么"
 								}
 								```
 								## 分析类型说明
 								- ranking: 按某维度排名
 								- distribution: 分布/占比
 								- trend: 时间趋势
 								- comparison: 对比分析
 								- anomaly: 异常检测
 								- overview: 全局概览
 								## 规划原则
 . 只选择与问题相关的表和列
 . 如果需要 JOIN，说明关联条件
 . 预估需要几轮探索（1-6）
 . 标注可能的异常关注点
 . metrics 不要包含 id 列"""
 								class Planner:
 								    """意图规划器"""
 								    def __init__(self):
 								        self.client, self.model = get_llm_client(LLM_CONFIG)
 								    def plan(self, question: str, schema_text: str) -> dict[str, Any]:
-												feat: 四层架构全面增强

安全与稳定性:
- 移除硬编码 API Key，改用 .env + 环境变量
- LLM 调用统一重试机制（指数退避，3 次重试，处理 429/5xx/超时）
- 中文字体检测增强（CJK 关键词兜底 + 无字体时英文 fallback）
- 缺失 API Key 给出友好提示而非崩溃

分析能力提升:
- 异常检测新增 z-score 检测（标准差>2 标记异常）
- 新增变异系数 CV 检测（数据波动性）
- 新增零值/缺失检测
- 上下文管理器升级为关键词语义匹配（替代简单取最近 2 条）

用户体验:
- 报告自动保存为 Markdown（reports/ 目录）
- 新增 export 命令导出查询结果为 CSV
- 新增 reports 命令查看已保存报告
- CLI 支持 readline 命令历史（方向键翻阅）
- CSV 导入工具重写：自动列名映射、容错处理、dry-run 模式
- 新增 .env.example 配置模板

											
										
										
											2026-03-31 14:39:17 +08:00
+								        content = llm_chat(
 								            self.client, self.model,
-												SQLite 持久连接 — sandbox 不再每次查询开关连接，改为 __init__ 时建连、close() 时释放
Explorer 的 system prompt 明确告知 sandbox 规则 — "每条 SQL 必须包含聚合函数或 LIMIT"，减少 LLM 生成违规 SQL 浪费轮次
LLM 客户端单例 — 所有组件共享一个 openai.OpenAI 实例，不再各建各的
sanitize 顺序修复 — 小样本抑制放在 float round 之前，避免被 round 干扰
quick_detect 从 O(n²) 改为 O(n) — 按列聚合一次，加去重，不再对每行重复算整列统计
历史上下文实际生效 — get_context_for 的结果现在会注入到 Explorer 的初始 prompt 里，多轮分析时 LLM 能看到之前的发现

											
										
										
											2026-03-20 13:20:31 +08:00
+								            messages=[
 								                {"role": "system", "content": PROMPT},
 								                {"role": "user", "content": f"## Schema\n{schema_text}\n\n## 用户问题\n{question}"},
 								            ],
 								            temperature=0.1,
 								            max_tokens=1024,
 								        )
 								        plan = extract_json_object(content)
 								        if not plan:
 								            plan = {"intent": content[:100], "analysis_type": "overview"}
 								        plan.setdefault("analysis_type", "overview")
 								        plan.setdefault("expected_rounds", 3)
 								        plan.setdefault("filters", [])
 								        plan.setdefault("join_needed", False)
 								        return plan