Page Attention是优化KV-cache内存管理的方法,可解决预留浪费、内部及外部内存碎片化问题,通过将KV-cache划分为固定大小Block,利用Block Table维护逻辑与物理映射,有效管理非连续内存;同时处理Softmax计算中的数值溢出与全局信息问题。vllm框架支持离线与在... ...
1. 情境 1.1. 设计团队不仅要考虑设计的方方面面,还要考虑智能产品所处的社交环境如何影响关键的设计决策 1.2. 从技术上讲,这个最终被命名为莫克西的机器人在走廊上漫步的时候正在处理各种关键任务,而在这些时刻发生的社交互动将对它的感知产生巨大影响 1.2.1. 可以帮助机器人建立对信任、智能和 ...
本文介绍了一套基于YOLO系列算法的路面裂缝检测系统。系统支持图片、视频及实时摄像头检测,具备多模型切换、结果保存与可视化等功能。技术栈采用Python3.10+PyQt5+SQLite,对比了YOLOv5/v8/v11/v12模型性能,其中YOLO12n精度最高(mAP40.6%),YOLO11n... ...
此分类用于记录吴恩达深度学习课程的学习笔记。 课程相关信息链接如下: 原课程视频链接:[双语字幕]吴恩达深度学习deeplearning.ai github课程资料,含课件与笔记:吴恩达深度学习教学资料 课程配套练习(中英)与答案:吴恩达深度学习课后习题与答案 本篇为第五课的第二周内容,2.6的内容 ...
本书是谷歌大佬Antonio Gulli为人工智能领域编写的一本实战型指南,全书通过逻辑严密的框架设计与真实场景的案例演示深入阐述了构建现代智能体的核心设计模式与落地方法论,非常适合想学习了解 Agent 智能体的开发者。 ...
大家好,我是程序员鱼皮。给大家分享一些我自己在用的 AI 编程扩展,帮你大幅提高 AI 编程效率和代码质量。 万字长文 + 100 多张图,绝对干货!点个收藏,让我们开始吧~ 本文已收录到 鱼皮 AI 导航的《免费 Vibe Coding 教程》 中,可以在这里免费获取更多 AI 资源。 一、MCP ...
但当你真的把 RAG 从 Demo 推到生产,会发现三个问题几乎一定会出现:
文档一多,检索明显变慢
明明文档里有答案,模型却“搜不到”
本地 + 向量库 + 模型 + 服务,部署复杂度飙升
这篇文章不会再重复“RAG 是什么”这种内容,而是围绕一个真实企业级目标展开:
在 10 万级文档规模下... ...
1. 零用户界面 1.1. 最强大的系统是利用组合传感技术来进行流畅且可响应的社交互动,这更像是一种全面性体验,更接近人们在现实中与他人互动的方式 1.2. 自动驾驶汽车的应用就不仅仅依赖于一种类型的传感器,而是将雷达、激光雷达、视觉摄像头和物理传感技术全都结合起来,以此来了解车上驾驶员的意图,以及 ...
本文介绍了一套基于YOLO系列算法的交通标志检测系统。该系统采用深度学习技术,支持55种常见交通标志的识别,具备图片、视频、批量文件及实时摄像头检测功能。系统提供图形化界面,包含模型切换、参数调节、结果统计与语音播报等实用功能,并配套用户管理、脚本调用和模型训练流程。技术栈采用Python3.10+... ...
此分类用于记录吴恩达深度学习课程的学习笔记。 课程相关信息链接如下: 原课程视频链接:[双语字幕]吴恩达深度学习deeplearning.ai github课程资料,含课件与笔记:吴恩达深度学习教学资料 课程配套练习(中英)与答案:吴恩达深度学习课后习题与答案 本篇为第五课的第二周内容,2.4到2. ...
在使用 Cursor、ChatGPT 等 AI 编程工具的过程中,我逐渐意识到:
相比多轮对话不断修补需求,用更少的对话轮次一次性描述清楚核心需求,
反而更容易得到符合预期的实现。
本文结合实际使用经验,分析了对话轮次过多导致结果偏离的原因,
以及在什么情况下应当重新编辑问题而不是继续对话修补。 ...
在深度学习项目实践中,数据加载往往成为限制训练速度的关键瓶颈。当数据集规模达到数百万甚至数十亿样本时,传统的文件系统随机访问方式会导致I/O效率急剧下降,让昂贵的GPU资源处于闲置等待状态。WebDataset通过流式处理和顺序读取的设计理念,可以极大提升数据加载性能。 什么是WebDataset? ...
大模型微调评测入门:看懂这些指标,才知道模型好不好 从“瞎评”到“精准评”:大模型微调核心评测指标全拆解 大家好,我是七七!最近后台收到很多粉丝的共性提问:“我用LoRA微调了Llama 2 7B模型做情感分析,怎么判断它好不好用?”“微调后的文案生成模型,凭感觉比原版好,但是怎么证明?” 这其实戳 ...
大模型微调的GPU选型,核心是“匹配场景+平衡成本”——个人追求性价比,团队兼顾稳定性,企业看重规模化。今天这篇文章,我就从三类GPU的核心差异、适配场景、实操选型三个维度,用大白话讲透选择逻辑,附实测数据和选型步骤,帮你不管是个人入门还是企业落地,都能选到最适合的GPU。 ...
不管是16G显卡的个人开发者,还是预算有限的小团队、追求ROI的企业,算力成本控制都是大模型落地的核心必修课。今天这篇文章,我就从微调、推理两个核心环节,拆解成本控制的底层逻辑和实操技巧,附16G显卡可直接套用的代码,帮你在不牺牲效果的前提下,把算力成本砍到最低。 ...
一、起点:从手动查找到一键问答 开发初期,我只是想解决自己的一个高频痛点:在写代码、看PDF、甚至答题时,经常需要复制一段文本 → 打开浏览器 → 打开AI对话页 → 粘贴 → 等待回复 → 再切回原窗口。这个过程重复、低效,且打断心流。 于是,第一个版本诞生了:一个简单的窗口程序,内置大模型调用, ...
1. 互动 1.1. 亲密无间且直觉化的交互体验从此成为衡量人机互动的黄金准则 1.2. 对于产品发明者来说,理解人与产品之间只能通过预先编程好的零散规则进行交流互动,这很重要 1.3. 作为消费者和设计师,我们成长的环境都让人理所当然地认为产品就是功能的集合 1.4. 在设计产品的过程中最好是放弃 ...
目录1.发展史2.斜杠命令 commands3.skill 技能包4.钩子 HOOK5. MCP 服务器6.插件 plugins7.子代理 SubAgents8.项目记忆文件 CLAUDE.md9.Plan模式暂时的结语 很少有人真的喜欢天天学新东西,我一个 java 技术栈的朋友,说我们怎么天天能 ...
本文介绍了一个基于YOLO算法的PCB板元器件检测系统,该系统可识别22种元器件,支持图片、视频、批量文件和摄像头实时检测。系统采用Python3.10开发,前端使用PyQt5,数据库为SQLite,集成了YOLOv5/v8/v11/v12等多种模型。通过对比测试显示,YOLO12n模型精度最高(m... ...
书接上回,这次学习一种更高级的模式:监督者模式。职场上的牛马们,大家回想一下,每次部门的OKR,是怎样层层拆解最终落地的?是不是得有一个大佬(即:监督者),根据OKR先做拆解计划(plan),然后把活儿派给各组去落地(action),中间还会时不时的review? 这个就叫做监督者模式。 仍然还是这 ...