跳到正文

方法

技术方法与最佳实践

专题
标签
维度建模基础 - 分析型数据建模的核心方法
数据工程 · 方法

维度建模基础 - 分析型数据建模的核心方法

维度建模是由Ralph Kimball在1990年代提出的专门用于数据仓库和分析型数据库的建模方法。它采用"事实-维度"的结构,将业务过程转化为可分析的数据模型,是数据仓库建模中最重要和广泛应用的方法。。业务过程驱动是维度建模的根本设计思维,将业务中的具体过程作为建模起点:。事务性事件:销售订单、支付交易、用户注...

数据建模概述 - 数据世界的设计蓝图
数据工程 · 方法

数据建模概述 - 数据世界的设计蓝图

数据建模是将现实世界的业务概念、实体关系和业务规则通过系统化的设计方法,转化为结构化数据模型的工程设计过程。这个过程包含三个核心维度:。就如同优秀的建筑作品既要满足功能需求,又要考虑美学价值和工程可行性,卓越的数据建模需要在多个维度达到平衡:。关键输出:业务实体关系图、核心业务规则、概念数据字典。关键输出:逻辑数...

数据治理工程师 L2:治理实践
数据治理 · 方法

数据治理工程师 L2:治理实践

数据治理工程师实战进阶路线:系统掌握数据质量评估与监控、元数据管理平台搭建、数据标准化规范制定3大核心实践能力。从理论框架到落地执行,解决「治理制度写了一堆但没人执行」的典型难题,帮助1-3年数据治理从业者建立可复用的治理实践体系。

MLOps最佳实践 - 机器学习工程化 PRO
AI · 方法

MLOps最佳实践 - 机器学习工程化

MLOps(Machine Learning Operations)是将DevOps实践应用于机器学习的方法论,旨在统一机器学习系统的开发(Dev)和运营(Ops),实现ML系统的可靠、可扩展和高效部署。。机器学习基础 - ML基础理论。Spark MLlib - 大数据ML实践。机器学习 - Python ML...

Agentic RAG工程实战 PRO
AI · 方法

Agentic RAG工程实战

#为什么选 Corrective RAG 作为实战目标。#第二步:State 定义。#第四步:条件边(决策逻辑)。#第五步:图的编译与执行。#第六步:FastAPI 封装。#效果评估:与 Naive RAG 的对比。Agentic RAG进阶架构 介绍了四种 Agentic RAG 架构。选 Corrective...

LLM评估体系
AI · 方法

LLM评估体系

传统 NLP 评估指标与人类判断之间的相关性,在 LLM 时代几乎崩塌了。BLEU 高不代表答案好,ROUGE 低不代表答案差。LLM 评估需要一套完全不同的体系。。#为什么 LLM 评估很难。#第一层:自动化评估(RAGAS)。#第二层:LLM-as-Judge。#评估驱动的开发工作流。1. 开放域输出,没有唯...

数据地基(三):最稀缺的能力,不在简历上
数据治理 · 方法

数据地基(三):最稀缺的能力,不在简历上

数据地基系列第三篇:当两张报表数字对不上,谁能在30分钟内定位到是哪条ETL链路的哪个口径出了问题?数据血缘追踪能力——这项不写在简历上的稀缺技能,正是区分普通数据工程师和资深架构师的关键分水岭。本文通过真实排查场景,拆解这项能力的本质。

Text-to-SQL 自然语言查询实战
AI · 方法

Text-to-SQL 自然语言查询实战

#是什么,为什么现在才真正可用。#主流工具全景(2025年实际在用的)。#工程实践:一个完整的实现。#数据分析师的日常用法。#对数据岗位的真实影响。Text-to-SQL 做的事情直白说就一件:把人话翻译成 SQL。。这个转换过程拆开来有三个核心子任务:。1. 意图理解:判断用户要做什么(查询、聚合、排名、趋势....

AI数据标注与数据飞轮 - 数据才是AI的核心壁垒 PRO
AI · 方法

AI数据标注与数据飞轮 - 数据才是AI的核心壁垒

不同的 AI 任务需要不同类型的标注,理解它们的差异是选择工具和工作流的前提:。一个反直觉的发现:使用 1 万条高质量标注数据训练的模型,往往优于使用 10 万条低质量噪声标注数据训练的模型。噪声标注会误导模型学习错误的决策边界,且越是边界附近的样本,噪声的危害越大。。Kappa 系数(标注一致性指标)的工程意义...

向量数据库与RAG工程实践 - 让AI真正懂你的数据 PRO
AI · 方法

向量数据库与RAG工程实践 - 让AI真正懂你的数据

传统搜索用关键词匹配——"苹果手机"搜不到"iPhone"的结果,因为字面上不相似。Embedding 技术的突破在于:把语义相似的内容映射到向量空间中相近的位置。。假设知识库有 100 万条文档,每条 Embedding 是 768 维的 float32:。存储:768 × 4 bytes × 1,000,00...