pro.hao.work

P01completed

一、从零到一基于VLM构建多模态RAG系统

一张 CAD 图纸，架构图，工程图纸中就写着答案，大模型只会看文字，图看不懂，表看不明。本期公开课我将带你从0到1搭建一个能让大模型看懂图纸、理解结构、能检索、能回答的企业级多模态 QA 系统。市面上大多数的教程教大家的是让大模型基于图片做问答，通过简单的接入多模态大模型，并添加类似请你详细描述一下这张图片的方式去理解图片的含义。但对复杂的工程图往往不起任…

replay=completedvalidation=passed

P02completed

2.多模态RAG系统完整功能演示

开始，大家好，我是木鱼啊，那我们就开始今天晚上我们大模 agent 开发实战课的体验课的直播，那么今天给大家带来的这个主题呢，啊，就是基于 vlm 构建多模态的 rag 问答系统。所谓的这 vlm 呢，其实就是视觉大模型。所以我们在今天呢，会带着大家从0到1的去构建一个可以去复识别复杂的啊，类似于这种cad 的图纸呀，工程图纸或者是架构图。其实对我们一般来…

replay=completedvalidation=passed

P03completed

3.多模态RAG真实企业落地应用案例剖析

说明所以那我们就正式的啊进入正题我们来看第一部分我们来看一下多模态rag它的一个产品落地形式现在到底什么样的也就是各行各业都在用多模态rag这个体系去搭建什么样的一个应用它有什么样的一个实际的落地场景以及啊如果你手里头也有一些需求的话啊比如你的leader啊让你去搭建了某某知识库问答系统啊让你去实现某些功能你能不能够基于你的这个需求来去快速的判断我底层是不…

replay=completedvalidation=passed

P04completed

4.多模态RAG基础传统RAG

OK，那上面呢，啊，相当于快速的给大家建立了一下，多模态在实际落地企业下，我们从应用的这个角度来去看待啊，它是什么样一个形式。那自然而然，我们作为公开课啊，我们给大家带来的肯定是啊技术干货内容。所以呢，我们就来实际的啊，基于上述的这个场景，来去剖析一下它背后的这个多模态技术，我们如果要去进行学习的话，应该如何学？以及现在在使用多模态的技术体系去搭建不同形式…

replay=completedvalidation=passed

P05completed

5.什么场景需要用多模态RAG

综合的定位，所以我们理解了这个过程，我们再来看一下多模态它现在的一个核心概念，它主要提升体现在哪两个维度，那么第一个维度啊，第一个维度叫做副媒体文档问答，啊，这个副媒体文档问答其实说白了啊，现在主流针对的就是啊 PDF 文件，啊，主流针对的就 PDF 文件，因为像我们其他常见的这种数据格式啊，比如说像CSV 呀，啊，或者 TST 呀，或者 word 呀，其…

replay=completedvalidation=passed

P06completed

6.落地方案：从轻量到企业级构建多模态检索体系

比较难，OK 啊，那我们啊接下来啊你既然了解了多模态整个的这个构建的链路和流程，我们就来实际的看一下，对于多模态技术路线来说，我们如果要去实际的去做的话，都有哪几种技术路线啊，哪几种技术路线，那么这里呢是给大家汇总了，主要有三种我们常用的啊这个技术路线，这个呢也是经过我们团队长时间的这个探索啊，因为我们也是呃尽很大的阶段，都在花很多的这个人力和呃财力啊去探…

replay=completedvalidation=passed

P07completed

7.【实战】图纸小字识别，双阶段关联策略，精准解析CAD尺寸参数

图纸 OCR、区域关联、尺寸字段提取和双阶段检索是起重机图纸闭环的关键部分。

replay=completedvalidation=passed

P08completed

8.【实战（上）】从零到一搭建客诉元的Agentic RAG问答系统

有没有相关的问题？首先啊，啊，我们刚才给大家演示的这个视频啊，大家可以看一下这个视频。对这个视频来说，就是我们本次公开课要从0到1去进行复现的啊，就是它可以支持我们去上传这种呃平面的这种设计图啊，还有呃流程图，还有PDF 文件在线的上传去进行一个解析。同时啊，在进行问答的时候呢，它有两种模式。那么第一种模式呢，是以文找图，或者是以图找图，就是我问的这个问题…

replay=completedvalidation=passed

P09completed

9【实战（下）】从零到一搭建客诉元的Agentic RAG问答系统

函数类中，OK 啊，我们现在回到了，对于它的一个呃主类啊，就是去实例化这样的一 VM 分析器，接下来啊小伙伴刚才说这个本地的文件是怎么进行解析的呢？啊，它其实是通过我们 upload 的这个方法去给它传递进来了啊，传递到了本地去进行了一个存储，然后转化 base64 的编码。同时下面呢，就是啊去设置一个预览图的啊这样一个路径啊，这个预览图呢，就是大家在这里…

replay=completedvalidation=passed

P10completed

二、多模态RAG问答系统功能介绍

大家好，我是沐雨，欢迎大家参加今天的我们大模型 agent 的开发课的体验课，那今天也是我们这一轮给大家准备体验课的最后一天了，我们连续给大家上了六天的干货直播的体验课，今天是截止我们结束最后一天给大家带来大模 agent 的开发技术的一个干货直播。今天给大家带来的内容可以说是非常干货，我们会给大家去详细的介绍一下 langchain v1.0这个版本的一…

replay=completedvalidation=passed

P11completed

2.LangChain完整技术生态解读

那么我们再回过头来看Langchain它的优势到底是什么？我们不能说企业要用Langchain，那么它就我们就去学别人需要，别人说你必须学Langchain，那你就去学。这个其实不是我们需要去掌握一下Langchain它的优势到底是什么，以及我们是怎么看待Langchain的。只有你找准了Langchain的定位，你才能够很好的去应用到这个框架，到你实际的…

replay=completedvalidation=passed

P12completed

3.短时高效掌握LangChain的经验分享

22年底，真正意义上的一个大模型的开发框架了。那首先对 langchain 来说，它应该是在，所以我刚才也给大家介绍了，它本质上并不是去解决一个实际的问题，而是而是说它可以基于业务场景，用搭积木的式形式，langchain 里面快速找到对应的一个组合的组件。所以 langchain 它从最开始定位就是这样的，一直到现在它的定位也是这样的。所以 langch…

replay=completedvalidation=passed

P13completed

4.LangChain1.0全新版本快速入门

首先在开始给大家分享这个学习经验之前，先给大家纠正几个常见的一个误区。这些误区就是我们经常收到一些用小伙伴的评论，还有我们政科学员的一些反馈，给大家得出来的。你先把这几个误区给纠正了。首先第一个错误的认知就是不要把LANGCHAIN当做一个大模型，而是要把它当成一个基于大模型的编排工具。我们可以用LANGCHAIN加上一个大模型去做AGENT、去做RAG、…

replay=completedvalidation=passed

P14completed

5.【实战】搭建图像识别分析流程

相信大家都已经拿到了这个课件，那我们的 part 2就是从0到1的去搭建当前的这个多模态系统。首先和大家说一下我们当前的这个多模态系统，它的一个整体的架构分析，基本上就是围绕着现在企业的一个主流的需求。其实在最开始像呃的系统，我们往往还是在文本方面在进行一个发力，但是随着今年下半年以来，大家更多的都去关注它的一个多模态的处理，因为文本基本上这个技术已经很成…

replay=completedvalidation=passed

P15completed

6.【实战】搭建多模态PDF问答流程

接下来我们再 pdf，pdf 大家看一下，我在视频里面上传的这个是一个里面我们的其中的一篇 long chain 这一个应该是第一版本的一个课件，它里面有非常详细 long chain 的一个体系化的讲解，里面包括了这个图片、公式、什么链接，还有文本等等，非常丰富。我们是可以在线去给它进行一个上传，上传以后在下面还能去给它做一个问题，比如说请你帮我介绍一下…

replay=completedvalidation=passed

P16completed

7.【实战】搭建音频实时转录问答

那当你去了解了啊我的这个图片怎么去处理，啊，我的 PDF 怎么去处理，我的这个文本去怎么处理，现在你自己想一想，你如果让你自己去处理音频，你能不能想到怎么去处理呢？来我们看一下前端的这个流程，对于音频来说啊，它是这样的。我们先看一下这个过程。我们啊可以去上传一个音频，然后它在这里显示了一个，正在处理音频，进行语音转文字，那这个过程它其实背后的逻辑是什么呀？…

replay=completedvalidation=passed

P17completed

8.【实战】项目前后端本地部署

前后端部署内容可直接映射到本仓库的 Web、服务层和本机 CAD 配套安装。

replay=completedvalidation=passed

P18completed

三、多模态RAG系统完整功能详解

马上开始大家好我是木鱼啊欢迎大家参加我们今晚的公开课直播那么本场直播呢是我们大模型A上的开发实战课的一节体验课啊带来的主题呢也是大家啊近两天非常关注的也就是deepseek OCR还有paddle OCR VL这两个模型啊，他们开源了啊，所以很多小伙伴都在关注它具体的一个解析效果。那么同时呢，多模态rag啊构建的这个能力啊，以及它的一个落地场景，在目前来看…

replay=completedvalidation=passed

P19completed

2.主流热门OCR项目适用场景及优劣势分析

就是这样的一个思路，那上面呢就是给大家快速的去呃过了一下啊，我们在进行实际企业应用的时候，那么啊主流的企业是要求我们去讲解什，啊，掌握什么，以及啊我们在实际去匹配对应岗位，我们在各个职级需要掌握什么样一个能力，那么我们回归到这 OCR 项目，OCR 它现在的一个能力 Rag 整个的这个结合过程，并不简简单单是呃我对这个 OCR 模型，啊，你给我这样的一个图…

replay=completedvalidation=passed

P20completed

3.【实战】本地部署PaddleOCR-VL0.9B

图像的这样一个流程我们啊接下来这个代码啊会给大家写的非常非常的详细啊包括了如何去创建虚拟环境如何去下载模型以及他在用新的拍的 OCR 这个项目去加载拍 OCR VL 新的这个模型的时候啊其实还是有一些坑的啊这个坑呢呃我们也给大家踩完了啊会给大家直接提供相关的一个解决方案。那么首先啊大家可能最先关注的就是拍的 OCR VL 的啊这个模型它到底运行的啊这样一个…

replay=completedvalidation=pending

P21completed

4.【实战】PaddleOCR-VL本地解析效果测试

调用的测试了，那么在部署调用测试之前啊，正如我们在最开始所说的，我们是需要先安装一下它的 OCR 的这样一个工具，因为拍的 OCR 它是一个很大的这个项目库嘛，啊，它不仅仅是接入了你拍 OCR VL 的这个模型，它还有很多其他的这个服务，当然它的这个生态是非常丰富的，我这里就不展开给大家做一个说明了。如果大家是只希望去使用这个拍 OCR 去识别啊工具解析的…

replay=completedvalidation=pending

P22completed

5.PaddleOCR-VL代码环境运行及输出结果解读

个安排，下半场啊我们就基于上半场这一部分的内容呢，去展开它工作流的一个配置啊，简单来说呢，我们在前一步在本地已经快速的搭建了拍 OCR VL 然后呢还能够在控制台终端去啊输入输入这个图片啊输入这 PDF 让它去进行一个解析，并在本地得到它解析后的一个效果。但是在这个控制台呀，啊肯定不是我们在企业里面开发的这样一个形式，那么企业里面的开发肯定啊是需要通过代码…

replay=completedvalidation=pending

P23completed

6.【实战】DeepSeek-OCR本地图片解析实战

本地的一个运行效果。当然我们在今天的这个公开课呢，就不再像 paddle OCR VL 一样，一步一步带着大家进行本地的部署了啊，因为我们昨天呢，在公开课里面已经给大家详细的介绍了如何在本地啊进 deepseek OCR 模型它的一个运行。那所有的这个课件、权重啊以及详细的部署文档，大家可以直接扫描屏幕下方的二维码，或者找到我们助教老师来进行一个领取，我们…

replay=completedvalidation=pending

工程图纸都能搜索？CAD尺寸、架构细节秒级定位，手搓工业级多模态Agentic RAG系统，精准解析复杂图纸小字，告别肉眼翻阅几百页图纸的痛苦，效率直接拉满！

23 分 P 教程，已优先读取本地 yt-dlp 归档元数据并映射到起重机图纸多模态 RAG 主线。

复现总索引

output/tutorial-reproduction/manifest.json

23 frame

Foundation / Drawing OCR / Agentic RAG / LangChain & Deploy / Validation

分 P 章节

一、从零到一基于VLM构建多模态RAG系统

2.多模态RAG系统完整功能演示

3.多模态RAG真实企业落地应用案例剖析

4.多模态RAG基础传统RAG

5.什么场景需要用多模态RAG

6.落地方案：从轻量到企业级构建多模态检索体系

7.【实战】图纸小字识别，双阶段关联策略，精准解析CAD尺寸参数

8.【实战（上）】从零到一搭建客诉元的Agentic RAG问答系统

9【实战（下）】从零到一搭建客诉元的Agentic RAG问答系统

二、多模态RAG问答系统功能介绍

2.LangChain完整技术生态解读

3.短时高效掌握LangChain的经验分享

4.LangChain1.0全新版本快速入门

5.【实战】搭建图像识别分析流程

6.【实战】搭建多模态PDF问答流程

7.【实战】搭建音频实时转录问答

8.【实战】项目前后端本地部署

三、多模态RAG系统完整功能详解

2.主流热门OCR项目适用场景及优劣势分析

3.【实战】本地部署PaddleOCR-VL0.9B

4.【实战】PaddleOCR-VL本地解析效果测试

5.PaddleOCR-VL代码环境运行及输出结果解读

6.【实战】DeepSeek-OCR本地图片解析实战

当前章节详情

结构化摘要

docs/tutorials/reproduction/parts/part-02.md

output/tutorial-archive/bv1drfhzreua/transcripts/part-02.json

tutorial_media_ingestion

公开补充文档

Part 1.多模态RAG技术体系介绍

Part 2.从零到一快速搭建多模态RAG引擎

Part 4.多模态RAG项目开发实战

多模态RAG系统前端部署指南