AI
刷新
Midscene与Qwen-VL模式小试UI自动化

博主头像 背景Midscene.js是一款由字节跳动Web Infra团队开发的开源、基于AI技术的UI自动化工具,其应用场景广泛且多样:1. 自动化测试功能测试:Midscene.js能够模拟用户操作,如点击按钮、输入文本等,对Web应用进行功能测试,确保应用在不同情况下都能稳定运行。冒烟测试:对于简单的站 ...

万字长文详解Text-to-SQL

博主头像 什么是Text-to-SQL 在各个企业数据量暴涨的现在,Text-to-SQL越来越重要了,所以今天就来聊聊Text-to-SQL。 Text-to-SQL是一种将自然语言查询转换为数据库查询的技术。它可以让用户通过自然语言来查询数据库,而不需要编写复杂的SQL语句。 Text-to-SQL的应用 ...

AI开发系列一:概念扫盲

博主头像 大模型演变与概念 人工智能 人工智能是一个非常广泛的领域,涵盖了多种技术和方法,包括但不限于机器学习、自然语言处理、计算机视觉、专家系统、机器人学等。 人工智能旨在创建能够模拟人类智能行为的系统或软件。它包括感知、推理、学习、决策和语言理解等多种能力,目标是让计算机能够像人类一样思考和行动。 在人工 ...

【AI News | 20250327】每日AI进展

AI Repos 1、playwright-mcp 使用Playwright提供浏览器自动化功能的MCP服务,核心是让LLM通过结构化的可访问性快照与网页交互,不需要依赖截图或视觉模型。可以用来自动填写网页表单、自动收集网页信息、自动进行网页测试等。支持两种模式:快照模式(默认):使用可访问性快照; ...

让 LLM 既能“看”又能“推理”!

博主头像 DeepSeek-R1 会推理,GPT-4o 会看。能否让 1 LLM既能看又能推理? DeepSeek-R1取得很大成功,但它有个问题——无法处理图像输入。 1.1 DeepSeek模型发展 自2024.12,DeepSeek已发布: DeepSeek-V3(2024.12):视觉语言模型(VLM ...

Function Calling 执行流程和历史消息结构

博主头像 在 function calling(工具调用)的场景中,传递给大语言模型(LLM)的历史消息需要包含完整的对话上下文,包括用户输入、模型生成的工具调用请求(tool_calls),以及工具执行后的返回结果。以下是详细的格式说明和示例: 核心流程与消息结构 用户提问 → 2. 模型生成工具调用请求  ...

为什么 AI 模型离科学革命还差得很远?

博主头像 作者:Thomas Wolf, Hugging Face 联合创始人和首席科学家 发布日期:2025 年 2 月 26 日 原文链接: The Einstein AI model 几天前,我在一个活动上分享了一个略显争议的观点,后来我决定把它写下来:我担心人工智能无法带来所谓的“压缩的 21 世 ...

常见的 AI 模型格式

博主头像 来源:博客链接 过去两年,开源 AI 社区一直在热烈讨论新 AI 模型的开发。每天都有越来越多的模型在 Hugging Face 上发布,并被用于实际应用中。然而,开发者在使用这些模型时面临的一个挑战是模型格式的多样性。 在本文中,我们将探讨当下常见的 AI 模型格式,包括: GGUF PyTorc ...

cs231n-图像分类:kNN与线性分类器

博主头像 声明:根据ppt以及子豪哥的讲解,同时含有自己的一些理解,逐渐构成的该部分文章。若有哪里有问题,欢迎各位积极提出宝贵的意见,谢谢大家。 十分感谢cs231n的课程老师以及b站up主:同济子豪兄 1.概述 图像分类,物体检测。 宗旨: 2.图像分类:kNN与线性分类器 图像分类:只要检查出对应物体的类 ...

Ollama系列06:C#使用OllamaSharp集成Ollama服务

博主头像 本文是Ollama系列教程的第6篇,主要介绍如何通过SDK将ollama集成到c#程序中。 Ollama系列教程目录(持续更新中): 轻松3步本地部署deepseek 快速上手搭建私有的AI对话框和智能体—chatbox版 快速上手搭建私有的AI对话框和智能体—cherryStudio版 进阶篇-搭 ...

【调研】Vision Language Model Safety

博主头像 Adversarial Attacks White-box Attacks Task-specific Attacks 的目标是针对某个具体的任务(如图像描述生成、指代表达理解等),通过精心设计的对抗样本,使得模型在该任务上产生错误的输出。例如,攻击者可能希望模型生成错误的图像描述,或者在对图像进行 ...

从按键到语音:家电设备交互的演进之旅

博主头像 家电,在人们的日常生活中扮演着不可或缺的角色,也是提升人们幸福感的重要组成部分,那你了解家电的发展史吗? #70年代 结婚流行“四大件”:手表、自行车、缝纫机,收音机,合成“三转一响”。 #80年代 随着改革开放的深化,中国经济开始飞速发展,黑白电视机、冰箱、洗衣机这“新三件”,成为了人们对生活的新 ...

知识蒸馏实战

博主头像 蒸馏实战小实验 本实验相关代码已开源至github 失败经历 爱爱医数据蒸馏Qwen2.5-7B 1.用爬虫在爱爱医网站爬取1k条数据。(刚学一点爬虫,不会越过验证码,还是自己一次一次验证) 2.数据格式预处理,例如: { "instruction": "你需要基于我提供的患者病历,推理并生成完 ...

Windows系统上使用Ollama本地部署DeepSeek

博主头像 前排提醒: 1. 操作系统为Windows11 2. 受限于硬件资源,本地部署的DeepSeek为DeepSeek-R1 14B Ollama安装 第一步: 打开浏览器,在地址栏输入网址:https://ollama.com/ ,进入Ollama官网 第二步: 点击上图中的“Download”按钮, ...

张高兴的大模型开发实战:(三)使用 LangGraph 为对话添加历史记录

目录基础概念环境搭建与配置将对话历史存储至内存将对话历史存储至 PostgreSQL 在构建聊天机器人时,对话历史记录是提升用户体验的核心功能之一,用户希望机器人能够记住之前的对话内容,从而避免重复提问。LangGraph 是 LangChain 生态中一个工具,通过将应用逻辑组织成有向图(Grap ...

<1···252627···50>