知识库

# 知识库

共 108 篇文章

MLOps最佳实践 - 机器学习工程化

MLOps（Machine Learning Operations）是将DevOps实践应用于机器学习的方法论，旨在统一机器学习系统的开发(Dev)和运营(Ops)，实现ML系统的可靠、可扩展和高效部署。。机器学习基础 - ML基础理论。Spark MLlib - 大数据ML实践。机器学习 - Python ML...

Elazer (石头) 2026年2月11日

职业成长 · 方法

数据分析师用实践驱动学习法，3周内独立完成销售分析报告

数据分析师、业务分析师、运营岗新人通过实践驱动学习法，70%技能来自真实项目，20%来自同事指导，10%来自课程；3周内从零做出可交付的销售数据分析报告，解决‘学了Python但不会做报表’痛点。

Elazer (石头) 2026年2月10日

PRO

AI · 方法

Agentic RAG工程实战

#为什么选 Corrective RAG 作为实战目标。#第二步：State 定义。#第四步：条件边（决策逻辑）。#第五步：图的编译与执行。#第六步：FastAPI 封装。#效果评估：与 Naive RAG 的对比。Agentic RAG进阶架构介绍了四种 Agentic RAG 架构。选 Corrective...

Elazer (石头) 2026年2月8日

AI · 方法

LLM评估体系

传统 NLP 评估指标与人类判断之间的相关性，在 LLM 时代几乎崩塌了。BLEU 高不代表答案好，ROUGE 低不代表答案差。LLM 评估需要一套完全不同的体系。。#为什么 LLM 评估很难。#第一层：自动化评估（RAGAS）。#第二层：LLM-as-Judge。#评估驱动的开发工作流。1. 开放域输出，没有唯...

Elazer (石头) 2026年2月6日

数据治理 · 方法

数据地基（三）：最稀缺的能力，不在简历上

数据地基系列第三篇：当两张报表数字对不上，谁能在30分钟内定位到是哪条ETL链路的哪个口径出了问题？数据血缘追踪能力——这项不写在简历上的稀缺技能，正是区分普通数据工程师和资深架构师的关键分水岭。本文通过真实排查场景，拆解这项能力的本质。

Elazer (石头) 2026年2月5日

AI · 方法

Text-to-SQL 自然语言查询实战

#是什么，为什么现在才真正可用。#主流工具全景（2025年实际在用的）。#工程实践：一个完整的实现。#数据分析师的日常用法。#对数据岗位的真实影响。Text-to-SQL 做的事情直白说就一件：把人话翻译成 SQL。。这个转换过程拆开来有三个核心子任务：。1. 意图理解：判断用户要做什么（查询、聚合、排名、趋势....

Elazer (石头) 2026年2月4日

PRO

AI · 方法

AI数据标注与数据飞轮 - 数据才是AI的核心壁垒

不同的 AI 任务需要不同类型的标注，理解它们的差异是选择工具和工作流的前提：。一个反直觉的发现：使用 1 万条高质量标注数据训练的模型，往往优于使用 10 万条低质量噪声标注数据训练的模型。噪声标注会误导模型学习错误的决策边界，且越是边界附近的样本，噪声的危害越大。。Kappa 系数（标注一致性指标）的工程意义...

Elazer (石头) 2026年2月2日

求职面试 · 方法

电商数据分析师面试题库：GMV诊断/用户分层/SQL实战（含答案框架）

面向初级至中级电商数据分析师的高频面试题库，覆盖GMV异常分析、用户留存归因、商品转化SQL实现等6大类问题；含双11GMV下降15%真实场景拆解、UV/PV/复购率等23个核心指标应用，适配淘宝、京东、拼多多等平台业务逻辑。

Elazer (石头) 2026年2月1日

PRO

AI · 方法

向量数据库与RAG工程实践 - 让AI真正懂你的数据

传统搜索用关键词匹配——"苹果手机"搜不到"iPhone"的结果，因为字面上不相似。Embedding 技术的突破在于：把语义相似的内容映射到向量空间中相近的位置。。假设知识库有 100 万条文档，每条 Embedding 是 768 维的 float32：。存储：768 × 4 bytes × 1,000,00...

Elazer (石头) 2026年1月31日

PRO

职业成长 · 观点

求职核心方法论与心法

招聘从来不是在寻找「最好的人」，而是在寻找「最合适的信号」。本文拆解面试官的3层决策逻辑（能力匹配、文化契合、性价比），提供信号传递的STAR框架、薪资谈判的锚定策略和多Offer抉择的评分模型，帮助数据从业者在求职市场掌握真正的主动权。

Elazer (石头) 2026年1月30日

PRO

AI · 方法

AI工程化实践指南 - 从模型训练到生产落地的完整链路

每个做过AI项目的人都经历过这个场景：模型在 Jupyter Notebook 里跑得很好，准确率亮眼，但一到要上线就陷入泥潭——环境不一致、代码不可复现、接口没有标准化、性能不达标……。这道鸿沟不是技术能力问题，而是工程体系问题。。机器学习的版本管理比普通软件更复杂，因为它有三个需要同步追踪的维度：。代码版本：...

Elazer (石头) 2026年1月28日

求职面试 · 方法

金融数据分析师面试题库：风控建模、合规监管与量化策略实战题

覆盖银行/券商/保险行业数据分析师、风控建模师、量化研究员等12类岗位，含信用评分卡、PD/LGD建模、反洗钱（AML）场景题、监管报告开发、组合优化等56道高频真题及答题框架。

Elazer (石头) 2026年1月27日

PRO

AI · 方法

AI多Agent协作系统

Agent概述 - 单Agent基础知识。Agent框架 - 框架详细使用。提示工程 - Agent Prompt设计。大语言模型 - Agent的核心引擎

Elazer (石头) 2026年1月26日

PRO

AI · 方法

AI Agent开发框架实战

Agent概述 - 了解Agent基础概念。RAG实战 - 检索增强技术详解。提示工程 - Agent Prompt技巧。向量数据库 - 检索基础设施。大语言模型 - Agent的"大脑"

Elazer (石头) 2026年1月24日

AI · 方法

AI Agent智能体概述

大语言模型很强，但本质上只是一个"嘴上功夫"选手——能说会道，却不能真正做事。。AI Agent = LLM + 记忆 + 工具 + 规划能力。一个能够自主感知环境、制定计划、执行行动、并根据反馈调整的AI系统。。Agent的"思考引擎"，负责：。将复杂任务分解为可执行的步骤。。Agent的"手脚"，让AI能与...

Elazer (石头) 2026年1月22日

数据分析 · 方法

数据运营 L1:数据思维建立

数据运营入门路线图：建立数据驱动思维，掌握DAU/MAU/留存率/转化率等核心运营指标体系，学会用SQL和Excel完成基础数据分析。面向0-1年运营新人或转型数据运营的从业者，提供从「拍脑袋做决策」到「用数据说话」的思维转变方法和实践路径。

Elazer (石头) 2026年1月22日

求职面试 · 方法

互联网数据分析师面试题库：用户增长/AB测试/SQL实战题与解题框架

面向互联网行业数据分析师、数据科学家、商业分析岗的面试真题库，覆盖用户留存下降分析、A/B实验设计、指标体系搭建等高频考点，含SQL代码示例与结构化回答框架，适用于字节、腾讯、阿里等大厂面试准备。

Elazer (石头) 2026年1月20日

AI · 方法

RAG检索增强生成实战

大语言模型很强大，但有三个致命问题：。RAG（Retrieval-Augmented Generation）= 检索 + 生成。先从知识库中检索相关文档，再让大模型基于检索结果生成回答。。把各种格式的文档转成纯文本。。把文本转换成向量（一串数字），让计算机能计算"语义相似度"。。详见 → 向量数据库与语义搜索。...

Elazer (石头) 2026年1月19日

数据分析 · 方法

数据分析师 L2:实战进阶

1-3年数据分析师实战进阶路线：从被动取数到主动分析，掌握业务分析框架、SQL窗口函数、统计假设检验和AI辅助分析4大核心能力。解决「为什么我的报告老板看完没反应」的L2阶段典型困惑，帮你从取数工具人蜕变为业务伙伴。

Elazer (石头) 2026年1月19日

AI · 方法

Prompt Engineering提示工程

同一个大语言模型，不同的提示词可能带来天壤之别的效果：。掌握Prompt工程，你可以：。将AI的效果提升 3-10倍。完成之前"AI做不好"的任务。显著减少来回修改的次数。建立可复用的"提示词资产库"。最简单但非常有效的技巧：。在 RAG系统中，Prompt设计至关重要：。在 AI Agent 中，Promp...

Elazer (石头) 2026年1月17日

AI · 方法

大语言模型全景解析

2022年底ChatGPT的发布，标志着AI进入了一个新时代。如今（2025年），大语言模型已经：。正在改变几乎所有行业的工作方式。催生了全新的职业（如Prompt工程师）。成为企业数字化转型的核心技术。语言模型的本质很简单：预测下一个词。。当模型大到一定程度，会突然"涌现"出小模型不具备的能力：。所有主流大模型...

Elazer (石头) 2026年1月15日