pro.hao.work

Ops / Admin

这里先把任务类型、来源清单、结构化基线和关键审计计数都挂出来，为后续自动抓取面板留出接口位置。

任务类型9

来源清单30

链路完整项目0

编号已抽取0

现有结构化基线

`meeting_issue=19`，`case_record=13`，`manufacturer_record=30`，`bom_item=52`。

后续自动任务目标

先入库，再生成审计摘要，再提交到 `sync/data-*` 分支；阻断 bucket 和人工复核量继续保留在 Coverage Audit 做月度审计。

官方来源目录

新增 `/sources` 页面会直接展示当前已经同步进数据库的官方来源、检索入口、允许域名和抓取适配方式，不再只看来源数量。

模型路由与健康检查

新增 GPT-first 路由状态页，展示 provider health、余额门槛、手动 Qwen 覆盖测试和最近调用日志。

阻断 bucket

2 个时间窗口当前处于 `blocked`。

人工 follow-up

2 个时间窗口当前仍需要人工跟进补采或复核。

固定任务类型

discover_list

对应 crawler 的任务状态机和后续 `crawl_task` / `crawl_attempt` 运行记录。

fetch_detail_page

对应 crawler 的任务状态机和后续 `crawl_task` / `crawl_attempt` 运行记录。

extract_detail_links

对应 crawler 的任务状态机和后续 `crawl_task` / `crawl_attempt` 运行记录。

fetch_attachment

对应 crawler 的任务状态机和后续 `crawl_task` / `crawl_attempt` 运行记录。

parse_document

对应 crawler 的任务状态机和后续 `crawl_task` / `crawl_attempt` 运行记录。

extract_document

对应 crawler 的任务状态机和后续 `crawl_task` / `crawl_attempt` 运行记录。

discover_related_by_identifier

对应 crawler 的任务状态机和后续 `crawl_task` / `crawl_attempt` 运行记录。

normalize_record

对应 crawler 的任务状态机和后续 `crawl_task` / `crawl_attempt` 运行记录。

recheck_chain_completeness

对应 crawler 的任务状态机和后续 `crawl_task` / `crawl_attempt` 运行记录。