AI
刷新
HNSWlib-PySpark召回测试

在大数据场景下,高效地进行近似最近邻搜索(Approximate Nearest Neighbors, ANN)是许多应用的关键,如推荐系统、图像检索等。传统的单机版 HNSWlib 在处理大规模数据时速度较慢,因此我们尝试采用分布式解决方案 HNSWlib-PySpark 进行召回实验。 背景 H ...

你的聚类模型靠谱吗?5大外部指标彻底揭秘

博主头像 在聚类分析中,我们常常需要评估聚类结果的质量。 外部指标是一种通过与已知的“真实标签”进行比较来评估聚类性能的方法。 这些指标可以帮助我们判断聚类算法是否能够准确地将数据划分为有意义的类别。 本文将介绍几种常见的外部指标,包括 Jaccard 系数、FM 指数、Rand 指数、DB 指数和 Dunn ...

全网资源无水印下载!支持抖音、视频号、小红书等,Rubik下载介绍

博主头像 在日常生活和工作中,我们经常要用到一些优质的影音或图片素材,然而,随着各种平台的限制越来越多,不是需要付费订阅后才能下载,就是完全不提供下载渠道,想要找到一个广泛又好用的下载工具变得格外困难 Rubik是一款功能强大的网络资源嗅探与下载神器,基于electron-vite-vue的先进架构,能从众多 ...

mcp~客户端与服务端的通讯技术

博主头像 mcp通讯协议 stdio sse streamable http JSON_RPC MCP 的传输层负责将 MCP 协议消息转换为 JSON-RPC 格式进行传输,并将接收到的 JSON-RPC 消息转换回 MCP 协议消息 请求 { jsonrpc: "2.0", id: number | st ...

同样的数据,更强的效果:如何让模型学会‘互补思维’?

博主头像 集成学习虽然能够通过组合多个学习器来提高预测性能,然而,如果这些学习器过于相似,集成的效果可能并不理想。 因此,增强学习器的多样性是提升集成学习性能的关键。 多样性带来的优势在于: 群体智慧原理:多样化的模型可以从不同角度捕捉数据规律 误差互补效应:不同模型的错误模式不同,投票后误差相互抵消 防止过 ...

补全llm知识体系的地基:Transformer

博主头像 Transformer模型结构: 示例:输入“我爱你”,输出“I love you”第一步:分词,将序列变为一个个token组成的向量,形状:[seq_len,]。本步涉及tokenizer相关技术 第二步:input embedding,将分词结果中的每一个token,编码成一个固定维数的embe ...

卷积和池化到底在做什么?

博主头像 深度学习神经网络中,卷积层和池化层是很经典且有效的操作,尤其在视觉领域,到现在为止也是很多SOTA模型中无法去除的模块,很多经典的模块,比如残差、dense、CSP、SE等等都是在这两个基础算子上展开的,可以说对于深度学习而已,卷积和池化就像0和1一样重要。在这里笔者分享一下自己对这两个算子的学习和 ...

EKO 智能体SDK架构介绍

博主头像 EKO 智能体SDK架构的概述EKO 智能体SDK(Eko框架)是由清华大学、复旦大学和斯坦福大学联合开发的智能体开发框架,旨在通过自然语言与简单代码快速构建“虚拟员工”,实现自动化任务执行。以下是其核心功能与技术特点的详细解析:核心功能与应用场景自动化任务执行数据收集与分析:例如,自动抓取雅虎财经 ...

RAG越来越不准?你可能忽略了“元数据”的力量

博主头像 你是否也有这样的困扰? 问大模型一个很具体的问题:“请告诉我A软件的安装方法。” 结果它却信誓旦旦地告诉了你B软件的安装步骤。 在这个过程中,你可能已经花了大量时间解析和清洗上千份文档,接入RAG,但结果仍然不理想。 为什么会这样? 其中一个很重要的原因是,我们花了很多时间构建知识库,却忽略了一个看 ...

集成学习中的多样性密码:量化学习器的多样性

博主头像 在集成学习中,多样性是一个关键概念,简单来说,多样性衡量的是各个学习器之间的差异程度。 如果学习器之间差异很大,那么它们的组合就更有可能覆盖更多的情况,从而提高集成模型的性能, 就像足球队需要不同位置的球员配合一样。 下面介绍四种常用的多样性度量方法及其实现。 1. 不合度量(Disagreemen ...

从专业视角详细解读生成式人工智能大模型备案

博主头像 AI产品商用前必须通过网信办等机构的审批备案,以规范AI发展。备案需区分大模型与算法,重点在于大模型的内容创新性。提交的备案材料应包括安全评估,确保语料来源和内容的安全性。备案流程通常需要4至7个月,选择服务商时需慎重考虑。 一、大模型备案定义: 大模型备案是大型AI模型在公开发布和商业化前,需通过 ...

<123···50>