Apache DolphinScheduler社区答疑Star第三期评选活动圆满完成啦!本次活动旨在表彰那些长期为社区用户提供专业解答、积极推动技术交流的社群管理员。经过社区成员的公开票选,和上期一样,在25个社区群中共有2位表现突出的管理员获得最多投票。让我们热烈祝贺以下获奖者(按排名顺序): � ...
作者 | Tina Agent 正在成为 2025 年 AI 世界最炙手可热的关键词之一。 无论是大模型厂商、AI 初创公司,还是企业级应用团队,几乎都在讨论“多智能体协作”“自动化决策流程”以及“具备工具调用能力的 AI 系统”。 谷歌、英伟达等科技巨头纷纷布局,上个月亚马逊还成立了一个专注于 A ...
Apache DolphinScheduler 社区 Meetup 又来啦!本次活动,我们特别邀请到了来自 Zoom 的技术专家师彬杰,带来《DolphinScheduler 在 Zoom 的生产实践》主题分享,揭秘全球最大的线上会议平台 Zoom 是如何在业务中高效使用 DolphinSchedu ...
1. 伦理数据的收集 1.1. 隐私保护技术,如加密、模糊处理和差分隐私,这些技术着眼于保持隐私与个人数据的收集和存储之间的平衡 1.2. 有偏差的数据科学模型通常是由所收集的数据的偏差造成的 1.3. 重视伦理的数据收集实践是人体实验 1.4. 所有的数据科学项目都离不开数据 1.4.1. 就隐私 ...
两种不同的用户活跃度,留存率居然完全一致。这究竟是为什么?欢迎阅读【数分基本功】系列的第 1 篇。该系列会讲一些数据分析的基本问题,必要时增加拓展和深入 ...
引言 2025 年 5 月 13 日至 16 日(蒙特利尔时间),一年一度的 PostgreSQL 开发者大会 PGConf.dev(原 PGCON 会议)将在加拿大蒙特利尔盛大举行。 PGConf.dev(PostgreSQL Development Conference)是全球 PostgreS ...
1. 概述 1.1. 任何一种框架或核查表都会很快过时(因此需要定期更新):数据源、技术、应用程序和伦理考量都在不断地变化 1.2. 将FAT流程框架作为通用的指导准则 2. 三个属性 2.1. 公平、责任和透明(FAT) 2.1.1. 前两个准则用于评定伦理概念,比如隐私、歧视和可解释性 2.1 ...
[20250511]truncate table恢复实战3(包含lob类型字段).txt--//测试看看脚本如果表包含lob类型字段,truncate table后使用该脚本恢复数据是否可行。--//并且记录自己操作的过程以及相关错误。1.环境:SCOTT@book01p> @ ver2 PORT_ ...
1. 数据科学伦理的兴起 1.1. 数据科学实践包括:获取数据、(预)处理数据、分析数据、对数据进行建模、评估结果,然后使用模型或结果学习知识、支持论点或做决策 1.2. 数据科学家 1.2.1. 被誉为21世纪最具吸引力的职业 1.2.2. 不仅要在现有数据集上调用预先定义库,还要在数据科学项目 ...
爬虫爬取抖音和快手的短视频数据时,如果遇到数据缺失的情况,如何使用 SQL 语句完成数据的补全 —— 前向填充、后向填充、平均数填充、分位数填充 ...
1. 基本信息 数据自助服务实践指南:数据开放与洞察提效 [美] 桑迪普·乌坦坎达尼 (Sandeep Uttamchandani) 著 机械工业出版社,2022年05月出版 1.1. 读薄率 书籍总字数271千字,笔记总字数75696字。 读薄率75696÷271000≈27.93% 1.2. 读 ...
引言 在之前的文章中,我们讨论了 PostgreSQL 表访问方法 API 的基础知识以及堆元组(heap tuple)与元组表槽(Tuple Table Slot,简称 TTS)之间的区别。 本文将深入探讨 PostgreSQL 核心如何通过特定的 API 调用实现顺序扫描。 涉及的 API 为了 ...
这是一道来自于 Uber 面试的题目,利用 SQL 给出每周获得连续 5 星数量最多的司机。如果中间获得其他评价,则“连续 5 星”的次数中断清零。 ...
GreatSQL Hash Join 条件列长度对执行计划的影响 一、问题发现 在一次开发中发现当执行 Hash Join 用 VARCHAR 字段作为连接的时候,字段长度长短不同时候,执行计划也不一样。看下面3个例子。 1、连接条件字段长度为20的场景 greatsql> CREATE TABLE ...
在ABP框架结合Entity Framework(非Core版)与MySQL实现大数据量高效分页查询****时,需结合MySQL特性与EF的分页机制进行优化。以下是具体方案及实现要点: 一、避免使用传统LIMIT OFFSET 传统Skip().Take()在EF中会转换为LIMIT OFFSET, ...
背景与目标 我们之前曾评估使用过SeaTunnel做CDC入湖验证:SeaTunnel-CDC入湖实践,这些场景都是能直连数据库的场景,业务需求中经常会出现无法直连数据库做CDC进行数据同步的场景,而这些场景就需要使用API进行数据对接,用Apache DolphinScheduler定时同步数据。 ...
1. 成本管理服务 1.1. 为了利用云中可用的无限资源,企业需要无限的预算 1.1.1. 成本管理对于确保数据平台的有限预算与业务优先级的有效配合至关重要 1.1.2. 由于有众多选择,所以成本管理就像黑盒,需要不断优化成本,以适应日常工作中变化的工作负载 1.2. 操作阶段的最后一部分是成本管理 ...
作者:史德昇 随着数据来源的不断复杂化及业务需求的快速演进,通用的数据集成框架在实际落地过程中往往面临诸多挑战:数据结构不规范、字段缺失、敏感信息混杂、数据语义不清等问题频繁出现。为了更好地应对这些复杂场景,某上市网络安全龙头企业基于 Apache SeaTunnel 进行了二次开发,构建了一套可扩 ...
Hi~同学! 想和技术大牛一起参与开源吗? 如果你对数据库、PostgreSQL 感兴趣,那么就来参与开源之夏吧!一年一度的开源之夏已经开启,是高校学生参与开源的不二之选,绝对不容错过。 IvorySQL 社区再一次参与其中,发布了 2 个项目。欢迎各位同学来认领哦! 开源之夏简介 开源之夏是由中国 ...
2020年1月COPU(中国开源软件推进联盟)成员开会讨论面向高校的开源示范课程,由联盟副秘书长北京大学荆琦老师牵头筹备,并首先在北大软微学院试点。本次是中国PostgreSQL分会联合会员企业应邀第五次参与授课,课程吸引了国内头部开源大厂积极加入,包括众多开源项目。课程面向北大研一学生(研一第二学 ...