跳到正文
全部标签

# ai

共 36 篇文章

  • AI 进了数据团队,最先被放大的不是效率,而是协作问题

    AI 进了数据团队,最先被放大的不是效率,而是协作问题

    企业开始把 AI Agent、Copilot 和自动化分析工具放进数据团队,但效率并不会自动出现。真正先被放大的,是需求表达、口径治理、代码审查、权限边界和跨角色协作中的旧问题。
  • DeepSeek V4 把价格打到 1/7:数据人的工作流要不要切

    DeepSeek V4 把价格打到 1/7:数据人的工作流要不要切

    DeepSeek V4 上周末发布,1.6T 参数、1M 上下文、编码 benchmark 拉平 GPT-5.4 和 Claude Opus 4.6,但价格只要 $3.48 / 百万 token——是 Claude 的 1/7。问题来了:你的日常工作流要不要切?切的隐性成本有哪些?什么时候该切、什么时候别动?
  • 数据开发的八股文,现在还值得背吗

    数据开发的八股文,现在还值得背吗

    一个朋友在群里问:知识库里有没有初级数据开发的八股文?我的回答是——有,但你不该在这上面押注。面试里八股文的占比已经从三分之二降到塞牙缝,工作里 80% 写 SQL 的时代也过去了。真正的问题不是背不背八股文,而是你还在用执行者的思路寻找出路。这篇讲讲 AI 这波变革为什么躲不过去。
  • Agentic Data Engineering 方法论

    Agentic Data Engineering 方法论

    数据工程师会被 Agent 取代吗?答案是:不会,但「写管道的数据工程师」会。这篇文章把 2026 年数据工程的价值重心从执行指令迁移到设计意图、护栏和数据产品契约的完整方法论讲清楚——包含 MCP、Data Product、Intent 三层架构,以及工程师该补的三类能力。
  • Iceberg V3 深度解析:为 AI workload 重新设计的表格式

    Iceberg V3 深度解析:为 AI workload 重新设计的表格式

    2026 年 4 月 6 日 Dremio 宣布 Iceberg V3 在云服务正式可用,意味着 V3 从规范走向生产。这篇深度解析拆开 V3 的四大变化:行级血缘、Row Lineage、Deletion Vectors、Variant 类型,以及它们为什么是为 AI workload 重新设计——数据工程师和数据架构师读完能拿到一张清晰的升级路径图。
  • Agentic Analytics:分析师角色的终局推演

    Agentic Analytics:分析师角色的终局推演

    2026 年 Snowflake Cortex Analyst 和 Databricks AI/BI Genie 宣称 Text-to-SQL 准确率达到 90%,数据分析师真的要失业了吗?这篇文章把问题问对:哪种数据分析师要失业、哪种会因此受益。给出三类角色的终局推演和一条清晰的转型路径——写给还在写 SQL 导表的分析师。
  • 什么时候才该 Fine-tune:2026 决策框架

    什么时候才该 Fine-tune:2026 决策框架

    AI 工程师和数据负责人最容易踩的坑之一:问题一出现就想着 Fine-tune。但 Fine-tune 不是默认选项,是最后选项。这篇文章给出一套 2026 年的决策框架:先穷尽 RAG、Prompt、工具调用,再考虑 SFT / LoRA / DPO,并配上成本、数据量、迭代速度三个维度的判断阈值——帮你把钱和时间花在对的地方。
  • 2026 数据人必学 TOP 10

    2026 数据人必学 TOP 10

    2026 年数据工程师、数据分析师、数据架构师到底该补哪些课?从 Databricks、Snowflake、Atlan、Cloudera 2025 年底到 2026 年 4 月的一系列动作里筛出最硬的十项:Agentic DE、Iceberg V3、MCP、Unity/Polaris、Agent 可观测性、Fine-tune 决策框架——每项都附上为什么要学和通往知识库的入口。
  • 分析师如何建立不可替代性 MAX

    分析师如何建立不可替代性

    新来的分析师工资是你一半,两个月就能独立完成大部分日常需求。你的5年经验值什么?本文提出不可替代性的三个层次:执行稀缺性、知识稀缺性、关系稀缺性。大部分分析师只在第一层竞争,而真正的护城河在第二层和第三层。
  • AI 时代,数据从业者的位置在哪

    AI 时代,数据从业者的位置在哪

    GPT能写SQL、能做分析、能出报告。你每天80%的工作AI都能做。但这不是末日,是分水岭。本文分析AI对数据分析师和数据工程师的真实影响,划出「会被替代」和「不会被替代」的分界线,帮你找到AI时代的新定位。
  • 技术更新太快,该学什么 MAX

    技术更新太快,该学什么

    Spark还没学完Flink又火了,Flink还没熟AI又来了。你学得越多越焦虑,因为新技术出现的速度远快于你学习的速度。本文提供一个判断框架:区分「必须学」和「可以不学」,把有限精力投入到半衰期最长的知识上。
  • AI 工具铺得满地都是,为什么你公司的数据还是一锅粥?

    AI 工具铺得满地都是,为什么你公司的数据还是一锅粥?

    Deloitte《AI现状2026》调研3235位全球高管发现:企业AI工具覆盖率同比增长50%,但数据基础设施就绪度仅43%、数据管理就绪度仅40%,比去年还在下降。工具越铺越多,数据底座却越来越乱——本文解读这份报告的核心发现,分析为什么大多数企业的AI落地注定失败。
  • 特征工程平台(Feature Store) PRO

    特征工程平台(Feature Store)

    实时ML架构 - 特征在实时系统中的应用。MLOps实践 - 模型生命周期管理。机器学习基础 - ML核心概念。RAG实战 - 向量化特征应用
  • 实时机器学习系统架构 PRO

    实时机器学习系统架构

    Feature Store - 特征管理详解。MLOps实践 - 模型生命周期管理。Spark MLlib - 批量训练基础。机器学习基础 - ML核心概念
  • MLOps最佳实践 - 机器学习工程化 PRO

    MLOps最佳实践 - 机器学习工程化

    MLOps(Machine Learning Operations)是将DevOps实践应用于机器学习的方法论,旨在统一机器学习系统的开发(Dev)和运营(Ops),实现ML系统的可靠、可扩展和高效部署。。机器学习基础 - ML基础理论。Spark MLlib - 大数据ML实践。机器学习 - Python ML...
  • Agentic RAG工程实战 PRO

    Agentic RAG工程实战

    #为什么选 Corrective RAG 作为实战目标。#第二步:State 定义。#第四步:条件边(决策逻辑)。#第五步:图的编译与执行。#第六步:FastAPI 封装。#效果评估:与 Naive RAG 的对比。Agentic RAG进阶架构 介绍了四种 Agentic RAG 架构。选 Corrective...
  • LLM评估体系

    LLM评估体系

    传统 NLP 评估指标与人类判断之间的相关性,在 LLM 时代几乎崩塌了。BLEU 高不代表答案好,ROUGE 低不代表答案差。LLM 评估需要一套完全不同的体系。。#为什么 LLM 评估很难。#第一层:自动化评估(RAGAS)。#第二层:LLM-as-Judge。#评估驱动的开发工作流。1. 开放域输出,没有唯...
  • 数据职业2026

    写给数据人的 2026:当技术护城河被填平,我们靠什么端稳饭碗?

    2026年数据行业深度研究报告:AI填平技术护城河后,数据分析师和数据工程师靠什么端稳饭碗?从大厂到独角兽的行业数据分析,涵盖市场行情研判、技能重构方向、高潜力赛道选择和具体避坑指南,帮助数据从业者在技术大变局中找到进阶路径。
  • Text-to-SQL 自然语言查询实战

    Text-to-SQL 自然语言查询实战

    #是什么,为什么现在才真正可用。#主流工具全景(2025年实际在用的)。#工程实践:一个完整的实现。#数据分析师的日常用法。#对数据岗位的真实影响。Text-to-SQL 做的事情直白说就一件:把人话翻译成 SQL。。这个转换过程拆开来有三个核心子任务:。1. 意图理解:判断用户要做什么(查询、聚合、排名、趋势....
  • AI数据标注与数据飞轮 - 数据才是AI的核心壁垒 PRO

    AI数据标注与数据飞轮 - 数据才是AI的核心壁垒

    不同的 AI 任务需要不同类型的标注,理解它们的差异是选择工具和工作流的前提:。一个反直觉的发现:使用 1 万条高质量标注数据训练的模型,往往优于使用 10 万条低质量噪声标注数据训练的模型。噪声标注会误导模型学习错误的决策边界,且越是边界附近的样本,噪声的危害越大。。Kappa 系数(标注一致性指标)的工程意义...
  • 向量数据库与RAG工程实践 - 让AI真正懂你的数据 PRO

    向量数据库与RAG工程实践 - 让AI真正懂你的数据

    传统搜索用关键词匹配——"苹果手机"搜不到"iPhone"的结果,因为字面上不相似。Embedding 技术的突破在于:把语义相似的内容映射到向量空间中相近的位置。。假设知识库有 100 万条文档,每条 Embedding 是 768 维的 float32:。存储:768 × 4 bytes × 1,000,00...