跳到正文
#
拾穗
beta
登录
加入会员
最新
资讯
方法
观点
专题
职场认知
职业成长
商业洞察
数据工程
AI
数据分析
数据治理
求职面试
视听
播客
视频
知识库
专属
咨询
关于
#
拾穗
beta
最新
资讯
方法
观点
专题
视听
知识库
专属
咨询
关于
登录
加入会员
最新
资讯
方法
观点
专题
职场认知
职业成长
商业洞察
数据工程
AI
数据分析
数据治理
求职面试
视听
播客
视频
知识库
专属
咨询
关于
全部标签
ai
#
ai
共 36 篇文章
AI
·
观点
AI 进了数据团队,最先被放大的不是效率,而是协作问题
企业开始把 AI Agent、Copilot 和自动化分析工具放进数据团队,但效率并不会自动出现。真正先被放大的,是需求表达、口径治理、代码审查、权限边界和跨角色协作中的旧问题。
AI
·
观点
DeepSeek V4 把价格打到 1/7:数据人的工作流要不要切
DeepSeek V4 上周末发布,1.6T 参数、1M 上下文、编码 benchmark 拉平 GPT-5.4 和 Claude Opus 4.6,但价格只要 $3.48 / 百万 token——是 Claude 的 1/7。问题来了:你的日常工作流要不要切?切的隐性成本有哪些?什么时候该切、什么时候别动?
职业成长
·
观点
数据开发的八股文,现在还值得背吗
一个朋友在群里问:知识库里有没有初级数据开发的八股文?我的回答是——有,但你不该在这上面押注。面试里八股文的占比已经从三分之二降到塞牙缝,工作里 80% 写 SQL 的时代也过去了。真正的问题不是背不背八股文,而是你还在用执行者的思路寻找出路。这篇讲讲 AI 这波变革为什么躲不过去。
数据工程
·
观点
Agentic Data Engineering 方法论
数据工程师会被 Agent 取代吗?答案是:不会,但「写管道的数据工程师」会。这篇文章把 2026 年数据工程的价值重心从执行指令迁移到设计意图、护栏和数据产品契约的完整方法论讲清楚——包含 MCP、Data Product、Intent 三层架构,以及工程师该补的三类能力。
数据工程
·
方法
Iceberg V3 深度解析:为 AI workload 重新设计的表格式
2026 年 4 月 6 日 Dremio 宣布 Iceberg V3 在云服务正式可用,意味着 V3 从规范走向生产。这篇深度解析拆开 V3 的四大变化:行级血缘、Row Lineage、Deletion Vectors、Variant 类型,以及它们为什么是为 AI workload 重新设计——数据工程师和数据架构师读完能拿到一张清晰的升级路径图。
职业成长
·
观点
Agentic Analytics:分析师角色的终局推演
2026 年 Snowflake Cortex Analyst 和 Databricks AI/BI Genie 宣称 Text-to-SQL 准确率达到 90%,数据分析师真的要失业了吗?这篇文章把问题问对:哪种数据分析师要失业、哪种会因此受益。给出三类角色的终局推演和一条清晰的转型路径——写给还在写 SQL 导表的分析师。
AI
·
观点
什么时候才该 Fine-tune:2026 决策框架
AI 工程师和数据负责人最容易踩的坑之一:问题一出现就想着 Fine-tune。但 Fine-tune 不是默认选项,是最后选项。这篇文章给出一套 2026 年的决策框架:先穷尽 RAG、Prompt、工具调用,再考虑 SFT / LoRA / DPO,并配上成本、数据量、迭代速度三个维度的判断阈值——帮你把钱和时间花在对的地方。
职业成长
·
观点
2026 数据人必学 TOP 10
2026 年数据工程师、数据分析师、数据架构师到底该补哪些课?从 Databricks、Snowflake、Atlan、Cloudera 2025 年底到 2026 年 4 月的一系列动作里筛出最硬的十项:Agentic DE、Iceberg V3、MCP、Unity/Polaris、Agent 可观测性、Fine-tune 决策框架——每项都附上为什么要学和通往知识库的入口。
MAX
职场影响力
·
方法
分析师如何建立不可替代性
新来的分析师工资是你一半,两个月就能独立完成大部分日常需求。你的5年经验值什么?本文提出不可替代性的三个层次:执行稀缺性、知识稀缺性、关系稀缺性。大部分分析师只在第一层竞争,而真正的护城河在第二层和第三层。
职场影响力
·
方法
AI 时代,数据从业者的位置在哪
GPT能写SQL、能做分析、能出报告。你每天80%的工作AI都能做。但这不是末日,是分水岭。本文分析AI对数据分析师和数据工程师的真实影响,划出「会被替代」和「不会被替代」的分界线,帮你找到AI时代的新定位。
MAX
职场影响力
·
方法
技术更新太快,该学什么
Spark还没学完Flink又火了,Flink还没熟AI又来了。你学得越多越焦虑,因为新技术出现的速度远快于你学习的速度。本文提供一个判断框架:区分「必须学」和「可以不学」,把有限精力投入到半衰期最长的知识上。
AI
·
资讯
AI 工具铺得满地都是,为什么你公司的数据还是一锅粥?
Deloitte《AI现状2026》调研3235位全球高管发现:企业AI工具覆盖率同比增长50%,但数据基础设施就绪度仅43%、数据管理就绪度仅40%,比去年还在下降。工具越铺越多,数据底座却越来越乱——本文解读这份报告的核心发现,分析为什么大多数企业的AI落地注定失败。
PRO
AI
·
方法
特征工程平台(Feature Store)
实时ML架构 - 特征在实时系统中的应用。MLOps实践 - 模型生命周期管理。机器学习基础 - ML核心概念。RAG实战 - 向量化特征应用
PRO
AI
·
方法
实时机器学习系统架构
Feature Store - 特征管理详解。MLOps实践 - 模型生命周期管理。Spark MLlib - 批量训练基础。机器学习基础 - ML核心概念
PRO
AI
·
方法
MLOps最佳实践 - 机器学习工程化
MLOps(Machine Learning Operations)是将DevOps实践应用于机器学习的方法论,旨在统一机器学习系统的开发(Dev)和运营(Ops),实现ML系统的可靠、可扩展和高效部署。。机器学习基础 - ML基础理论。Spark MLlib - 大数据ML实践。机器学习 - Python ML...
PRO
AI
·
方法
Agentic RAG工程实战
#为什么选 Corrective RAG 作为实战目标。#第二步:State 定义。#第四步:条件边(决策逻辑)。#第五步:图的编译与执行。#第六步:FastAPI 封装。#效果评估:与 Naive RAG 的对比。Agentic RAG进阶架构 介绍了四种 Agentic RAG 架构。选 Corrective...
AI
·
方法
LLM评估体系
传统 NLP 评估指标与人类判断之间的相关性,在 LLM 时代几乎崩塌了。BLEU 高不代表答案好,ROUGE 低不代表答案差。LLM 评估需要一套完全不同的体系。。#为什么 LLM 评估很难。#第一层:自动化评估(RAGAS)。#第二层:LLM-as-Judge。#评估驱动的开发工作流。1. 开放域输出,没有唯...
职业成长
·
观点
写给数据人的 2026:当技术护城河被填平,我们靠什么端稳饭碗?
2026年数据行业深度研究报告:AI填平技术护城河后,数据分析师和数据工程师靠什么端稳饭碗?从大厂到独角兽的行业数据分析,涵盖市场行情研判、技能重构方向、高潜力赛道选择和具体避坑指南,帮助数据从业者在技术大变局中找到进阶路径。
AI
·
方法
Text-to-SQL 自然语言查询实战
#是什么,为什么现在才真正可用。#主流工具全景(2025年实际在用的)。#工程实践:一个完整的实现。#数据分析师的日常用法。#对数据岗位的真实影响。Text-to-SQL 做的事情直白说就一件:把人话翻译成 SQL。。这个转换过程拆开来有三个核心子任务:。1. 意图理解:判断用户要做什么(查询、聚合、排名、趋势....
PRO
AI
·
方法
AI数据标注与数据飞轮 - 数据才是AI的核心壁垒
不同的 AI 任务需要不同类型的标注,理解它们的差异是选择工具和工作流的前提:。一个反直觉的发现:使用 1 万条高质量标注数据训练的模型,往往优于使用 10 万条低质量噪声标注数据训练的模型。噪声标注会误导模型学习错误的决策边界,且越是边界附近的样本,噪声的危害越大。。Kappa 系数(标注一致性指标)的工程意义...
PRO
AI
·
方法
向量数据库与RAG工程实践 - 让AI真正懂你的数据
传统搜索用关键词匹配——"苹果手机"搜不到"iPhone"的结果,因为字面上不相似。Embedding 技术的突破在于:把语义相似的内容映射到向量空间中相近的位置。。假设知识库有 100 万条文档,每条 Embedding 是 768 维的 float32:。存储:768 × 4 bytes × 1,000,00...
← 上一页
1 / 2
下一页 →
未在播放
✕
0:00
0:00
✕
喜欢这里的内容?
加入社区免费交流,或升级会员解锁全部深度内容。
免费加入社区
了解会员