跳转到主要内容
Chinese, Simplified

category

从LLM将现代数据堆栈转换为向量数据库的数据可观察性,以下是我对2024年顶级数据工程趋势的预测。

“数据和人工智能领域发展迅速。如果你不偶尔停下来环顾四周,你可能会错过它。”

2023年是GenAI的一年。2024年将成为GenAI的又一年。

但在2023年,团队争先恐后地点名,2024年,团队将优先考虑人工智能模型的实际业务问题。随着新的关注,出现了新的优先事项

当谈到数据的未来时,上涨的浪潮会让所有的船只都振奋起来。GenAI将在2024年继续崛起,同时提高数据行业的标准和优先事项。

以下是我对数据和人工智能团队下一步的十大预测,以及你的团队如何保持领先。

1.LLM将变革技术堆栈

这是一个既定的。

可以毫不夸张地说,在过去的12个月里,大型语言模型(LLM)已经改变了技术的面貌。从拥有合法用例的公司到拥有技术寻找问题的夜间飞行团队,每个人和他们的数据管理员都试图以这样或那样的方式使用生成人工智能(GenAI)。

LLM将在2024年及以后继续这一转变——从推动对数据的需求增加和需要向量数据库(也称为“人工智能堆栈”)等新架构,到改变我们为最终用户操纵和使用数据的方式

自动化数据分析和激活将成为每个产品和数据堆栈各个级别的预期工具。问题是:我们如何确保这些新产品在2024年提供真正的价值,而不仅仅是公关信贷的一点新闪光?

 

2.数据团队看起来像软件团队

最复杂的数据团队将他们的数据资产视为真正的数据产品——包括产品需求、文档、冲刺,甚至最终用户的SLA。

因此,随着组织开始将越来越多的价值映射到其定义的数据产品中,越来越多的数据团队将开始像他们的关键产品团队一样寻找并被管理。

3.软件团队将成为数据从业者

当工程师试图在不考虑数据的情况下构建数据产品或GenAI时,结果并不好。问问联合医疗就知道了。

随着人工智能继续吞噬世界,工程和数据将成为一体。如果没有对人工智能的关注,任何主要的软件开发都不会进入市场——如果没有某种程度的真实企业数据为其提供动力,任何主要人工智能也不会进入市场。

这意味着,当工程师们寻求提升新的人工智能产品时,他们需要着眼于数据——以及如何使用数据——以构建增加新的持续价值的模型。

4.RAG将是所有的RAGe

在一系列备受瞩目的GenAI失败之后,对干净、可靠和精心策划的上下文数据的需求变得越来越明显,以增强人工智能产品

随着人工智能领域的不断发展,普通LLM培训中的盲点变得非常明显,拥有专有数据的团队将转向RAG(检索增强生成)和大规模微调,以增强其企业人工智能产品,并为其利益相关者提供可证明的价值护城河。

RAG在市场上仍然相对较新(它于2020年由Meta AI首次引入),各组织尚未开发出关于RAG的经验或最佳实践,但它们正在到来。

 

5.团队将运营适合企业的人工智能产品

保持趋势的数据工程趋势——数据产品。毫无疑问,人工智能是一种数据产品。

如果说2023年是人工智能的一年,那么2024年将是人工智能产品投入运营的一年。无论是出于需要还是胁迫,各行业的数据团队都将采用适合企业的人工智能产品。问题是,他们真的会为企业做好准备吗?

(希望)当董事会提出要求时,创建随机聊天功能来表示你正在集成人工智能的日子已经一去不复返了。2024年,团队可能会变得更加复杂,如何开发人工智能产品,利用更好的培训实践来创造价值,并识别需要解决的问题,而不是推出技术来制造新问题。

 

6.数据可观察性将支持人工智能和向量数据库

在亚马逊网络服务公司(AWS)2023年的CDO Insights调查中,受访者被问及他们的组织在实现生成人工智能的潜力方面面临的最大挑战是什么。

最常见的答案是什么?数据质量。

生成型人工智能的核心是一种数据产品。和任何数据产品一样,没有可靠的数据,它就无法正常工作。但在LLM的规模上,手动监测无法提供使任何人工智能可靠所需的全面有效的质量覆盖。

为了真正取得成功,数据团队需要一种针对人工智能堆栈量身定制的活的、呼吸式的数据可观察性策略,使他们能够在不断增长的动态环境中始终如一地检测、解决和防止数据停机。而且,这些解决方案需要优先考虑分辨率、管道效率和支持人工智能的流媒体/向量基础设施,才能成为2024年现代人工智能可靠性之战的竞争者。

7.大数据会变小

30年前,个人电脑还是个新奇事物。现在,随着现代Macbook拥有与2012年Snowflake推出MVP仓库的AWS服务器相同的计算能力,硬件正在模糊商业和企业解决方案之间的界限。

由于大多数工作负载都很小,数据团队将开始使用进程内和内存/进程内数据库来分析和移动数据集。

特别是对于需要快速扩展的团队来说,这些解决方案起步很快,可以通过商业云产品提升到企业级功能。

8.优先选择合适的尺寸

今天的数据领导者面临着一项不可能完成的任务。使用更多的数据,创造更多的影响力,利用更多的人工智能——但要降低这些云成本。

正如《哈佛商业评论》所言,首席数据官和人工智能官注定会失败。IDC报告称,截至2023年第一季度,云基础设施支出增至215亿美元。麦肯锡表示,许多公司的云支出每年增长30%。

低影响的方法,如元数据监控和允许团队查看和适当规模利用率的工具,在2024年将是非常宝贵的。

 

9. Iceberg将升起(Apache Iceberg)

Apache Iceberg是一种开源数据lakehouse表格式,由Netflix的数据工程团队开发,旨在提供一种更快、更容易的大规模处理大型数据集的方法。它被设计为可以使用SQL轻松查询,即使是对于数据量为PB的大型分析表也是如此。

 

在现代数据仓库和湖畔小屋将同时提供计算和存储的地方,Iceberg专注于提供经济高效的结构化存储,这些存储可以由许多不同的引擎访问,这些引擎可能会同时在您的组织中使用,如Apache Spark、Trino、Apache Flink、Presto、Apache Hive和Impala。

 

最近,Databricks宣布,Delta表元数据也将与Iceberg格式兼容,Snowflake也一直在积极与Icebeberg集成。随着lakehouse成为许多组织的实际解决方案,Apache Iceberg和Iceberg替代品也可能继续受欢迎。

10.为某人返回办公室

RTO——每个人最不喜欢的缩写。或者可能是他们最喜欢的!老实说,我现在跟不上了。虽然团队在这个问题上似乎存在分歧,但越来越多的团队被召回他们的隔间/开放式平面图/灵活的工作环境,每周至少有几天。

根据Resume Builder2023年9月的一份报告,90%的公司计划在2024年底前执行重返办公室的政策,这距离2020年那个致命的春天已经过去了近四年。

事实上,在过去几个月里,包括亚马逊的Andy Jassy、OpenAI的Sam Altman和谷歌的Sundar Pichai在内的几位有权势的首席执行官已经制定了重返办公室的政策。在办公室工作(至少是兼职)与完全在家工作相比,似乎至少有一些好处。

发现自己在永远呆在家里的营地?答案似乎是——就像数据中的情况一样——提供更多的价值。尽管最近的经济逆风及其对就业市场的影响,但数据和人工智能团队的需求量很大。雇主通常会尽一切努力得到他们——并留住他们。虽然一些公司要求所有员工返回办公室,无论其职位如何,但Salesforce等其他公司则要求非远程工程师减少工作时间,每个季度总共工作10天。

原文地址
https://barrmoses.medium.com/top-10-data-ai-trends-for-2024-7f830196db65
本文地址
Article

微信

知识星球

微信公众号

视频号