当前位置：首页 > news >正文

数据科学在普及 AI 中的角色

news 2026/6/3 18:34:58

原文：towardsdatascience.com/the-role-of-data-science-in-democratizing-ai-bee294724441?source=collection_archive---------3-----------------------#2024-03-06

在 AI 发展的新兴时代，数据科学团队应关注哪些重点？

https://liorsidi.medium.com/?source=post_page---byline--bee294724441--------------------------------https://towardsdatascience.com/?source=post_page---byline--bee294724441-------------------------------- Lior Sidi

·发表于Towards Data Science ·7 分钟阅读·2024 年 3 月 6 日

–

直到最近，AI 模型仅能通过数据科学家或其他服务提供商的解决方案来访问。今天，AI 正被普及，非 AI 专家也可以开发自己的 AI 驱动解决方案。

过去，数据科学团队需要数周甚至数月才能收集数据、标注数据、训练模型并部署，而如今，只需简单的提示词和最新的生成 AI 模型，就能在几分钟内完成模型的构建。随着 AI 技术的进步，人们也期待能采用它并构建更智能的 AI 驱动产品，而作为 AI 专家，我们承担着在组织内部推广这一技术的责任。

自 2016 年以来，Wix 对这一转型并不陌生（远在 ChatGPT（2022 年 11 月 22 日）之前），我们的数据科学团队已经在开发许多具有深远影响的AI 驱动功能。最近，随着生成性 AI 革命的到来，Wix 内越来越多的角色也开始接受这一趋势。我们共同成功推出了许多新功能，借助聊天机器人赋能网站创建，丰富内容创作能力，以及优化代理机构的工作方式。

在我们作为 Wix 数据科学团队的角色中，我们承担着确保AI 质量和广泛接受度的责任。我们认识到积极贡献于 AI 民主化的必要性，并确定了我们必须承担和领导的三个关键角色：1. 确保安全性，2. 增强可访问性，和3. 提高准确性。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/369483c2102e786d2e7b74c1a90d35dc.png

数据科学的三大角色

数据科学 + 产品团队 = AI 影响力

构建 AI 模型的艺术在于能够驾驭并概括未见的边缘案例。这需要一种数据科学实践，包括对业务和数据的理解，并通过反复评估和调整来完善。

将 AI 民主化到产品团队（产品经理、开发人员、分析师、用户体验、内容创作者等）可以加速 AI 驱动的应用程序的发布，但这需要与数据科学团队合作，制定合适的流程和技术。

在下面的 SWOT 图中，我们可以看到数据科学和产品团队如何利用各自的优势和机会，弥补彼此的弱点和威胁，最终按时推出有影响力、可靠的前沿 AI 产品。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a678423645fed2849bacda83786f4a8f.png

产品团队与数据科学的 SWOT 分析

1. 确保 AI 安全性

目前讨论最多的一个话题是使用 AI 的安全性。当聚焦于面向产品的解决方案时，有几个领域我们必须考虑。

监管— 模型可能做出可能歧视某些子群体的决策，例如基于性别给予折扣，或者高薪工作广告中的性别歧视。此外，当使用第三方工具，如外部大型语言模型（LLMs）时，公司的秘密数据或用户的个人可识别信息（PII）可能被泄露。最近，《自然》杂志主张对基于 LLMs 的应用进行监管审查。
声誉— 面向用户的模型可能会出错并产生不良体验，例如，基于大型语言模型（LLMs）的聊天机器人可能会给出错误的答案，或者是过时的答案，或者是有毒的种族主义回答，或者加拿大航空的聊天机器人不一致性。
损害— 决策模型可能预测错误的答案，进而影响业务运营，例如，某个预测房价的模型造成了 5 亿美元的损失。

数据科学家理解 AI 模型的不确定性，并能够提供不同的解决方案来应对这些风险，并允许安全地使用该技术。例如：

安全建模— 开发模型来减少风险，例如 PII（个人身份信息）屏蔽模型和滥用检测模型。
大规模评估— 应用先进的数据评估技术来监控和分析模型的表现和错误类型。
模型定制化— 使用干净的注释数据，筛选出有害和无关的数据点，并构建更小、更具定制化的模型。
伦理研究— 阅读并应用关于 AI 伦理的最新研究，并提出最佳实践。

2.提高 AI 可访问性

人工智能应该易于使用，并且能够让非人工智能专家也能将其集成到他们的产品中。直到最近，与模型的集成方式是通过数据科学家开发的在线/离线模型，它们是可靠的、针对特定用例的模型，并且其预测结果是可访问的。

但它们的主要缺点是非 AI 专家无法进行定制化。这就是为什么我们提出了“自己动手做 AI”（D-AI-Y）的方法，允许你构建自己的模型，并将其作为服务部署到平台上。

目标是快速构建简单但有价值的模型，并且对 AI 的专业知识要求较少。如果模型需要改进和研究，我们有数据科学家参与。

D-AI-Y 包括以下组件：

教育：教育组织如何正确使用 AI，在 Wix，我们有一个 AI 大使计划，这是 Wix 不同小组与数据科学小组之间的 AI 知识桥梁，在这个计划中，各小组的代表会接受培训，并及时更新新的 AI 工具和最佳实践，以提高 Wix 中基于 AI 的项目的规模、质量和速度。
平台：有一种方法可以连接到大型语言模型（LLMs）并编写提示。平台应考虑模型的成本和规模以及对内部数据源的访问。在 Wix，数据科学小组构建了一个 AI 平台，将 Wix 的不同角色与来自多个供应商的模型连接起来（以减少 LLM 供应商锁定）以及其他功能，如语义搜索。该平台充当一个集中的中心，供所有人使用、分享他们的模型、治理、监控并在生产环境中提供服务。
构建简单直接模型的最佳实践和工具：使用提示或专用模型来解决特定学习任务：分类、问答机器人、推荐系统、语义搜索等。
评估：针对每个学习任务，我们建议一种特定的评估流程，并在需要时提供数据整理的指导。

例如，一家公司使用检索增强生成（RAG）方法构建了许多问答模型，这种方法通过搜索能够回答问题的相关证据来回答问题，然后将证据添加到 LLM 的提示中，以便它能基于这些证据生成可靠的答案。

所以，产品数据科学团队可以提出：1. 关于 RAG 主题的教育材料和讲座，例如我曾做的这场关于语义搜索的讲座，用于改进 RAG。2. 为平台配备合适的向量数据库和相关的嵌入器。3. 关于如何构建 RAG 的指南，如何检索证据并编写生成提示。4. 支持 RAG 适当评估的指南和工具，正如在这篇 TDS 文章和Trulens 的 RAG 三元组中所解释的那样。

这将使公司中的许多角色能够以可靠、准确且可扩展的方式构建自己的基于 RAG 的应用模型。

3.提高 AI 准确性

随着 AI 的普及，预计将构建更加复杂、准确和先进的解决方案。最终，非 AI 专家能够提升模型性能的程度是有限的，因为这需要对模型如何运作有更深入的理解。

为了提高模型的准确性，数据科学团队专注于以下类型的工作：

改进通用模型— 定制并改进模型，以容纳 Wix 知识并超越外部的通用即开即用模型。
定制模型— 高优先级且具有挑战性的模型，D-AI-Y 无法支持。与通用模型不同，这里我们有非常特定用例的模型，需要定制化。
改进 D-AI-Y— 随着我们不断改进 D-AI-Y 平台、最佳实践、工具和评估 AI 的准确性，因此我们持续投入研究时间和精力，致力于提升和发掘创新方法，以使其更好。

结论

经过多年的等待，AI 的普及正在发生，让我们拥抱它吧！产品团队对业务的内在理解，加上 GenAI 的易用性，使他们能够构建推动产品能力的 AI 驱动功能。

因为非 AI 专家通常缺乏对 AI 模型如何运作以及如何在大规模上正确评估它们的深刻理解，他们可能会遇到关于结果可靠性和准确性的问题。此时，数据科学团队可以通过指导各团队如何安全使用模型、在需要时创建缓解服务、分享最新的最佳实践、评估模型性能并在大规模上服务模型，来协助和支持他们的工作。

当一个 AI 功能展现出巨大的商业影响时，产品团队会立即开始将精力转向改进结果，这时数据科学家可以提供先进的方法来提高性能，因为他们理解这些模型是如何运作的。

总之，数据科学在实现 AI 普及中的作用至关重要，因为它架起了 AI 技术与那些可能没有深入 AI 专业知识的群体之间的桥梁。通过数据科学家和产品团队的合作，我们可以充分利用两者的优势，创造安全、可及且准确的 AI 驱动解决方案，从而推动创新并提供卓越的用户体验。随着不断的进步和创新，普及化 AI 的未来在各行各业中蕴藏着巨大的变革潜力。

除非另有说明，所有图片均为作者提供

查看全文

http://www.cnnetsun.cn/news/2469542.html

AirSim无人机PID调参实战：用MultirotorClient的底层接口优化飞行性能

量子纠缠转导技术与远程纠缠协议设计

网盘直链下载助手：免费解锁八大平台高速下载的终极解决方案

全流程拆解：老外用 AI 做电商，30 天收入 18.8 万美金

无人机飞控入门：别再混淆姿态角和欧拉角了（附ZXY顺序旋转矩阵推导）

RTX51 Tiny中断冲突与寄存器组配置解决方案

终极滚动控制：如何让Mac鼠标和触控板拥有独立滚动方向

告别命令行！用这个免费软件5分钟搞定Abaqus三维Voronoi泡沫模型

全面战争模组制作终极指南：如何使用RPFM工具打造专业级游戏模组

深度解析DriverStore Explorer：Windows驱动管理专家的进阶指南

天下工厂的 5 维度筛选公式为什么能 2 小时出名单

终极Windows版Mifare Classic工具完全指南：告别命令行，轻松管理NFC卡片

GitHub加速插件终极指南：3分钟解决代码下载慢的痛点

【审计专栏-监督监管】【信息科学与工程学】计算机科学与自动化——第一百五十篇招投标领域中的应用数学05

腾讯云COS对象存储：企业级最佳实践

Python生成器实战：yield深度解析

Diablo Edit2：3分钟掌握暗黑破坏神2角色编辑全技巧

CSS 盒子模型

告别寄存器操作：在RA4M2上体验瑞萨FSP库点灯，对比STM32 HAL/LL库有何不同？

基于ENVI的遥感影像处理实战——以Landsat8数据为例（上）

Ubuntu 22.04 下 Nsight System/Compute 2023.3 保姆级安装与权限配置指南（解决libxcb/perf_event报错）

ppt模板_0032_圣诞主题1

STM32外部中断配置避坑指南：7个中断服务函数如何管好16根线？

【2026】记录在windows编译llama.cpp步骤，AMD CPU本地部署千问3.5本地大模型，内存占用低

终极CAD数据解放方案：深度解析LibreDWG开源DWG转换工具实战指南

ARM架构错误异常处理机制解析与实践

k8s-elk日志分析组件学习

ThinkPHP8多应用实战：手把手教你用PHPStudy配置admin和index双站点（附伪静态规则）

别再手动输API密钥了！Windows/macOS/Linux三平台一键配置OpenAI环境变量（附永久/临时方案）

Sunshine游戏串流终极指南：免费开源打造你的家庭游戏云

在 AI 发展的新兴时代，数据科学团队应关注哪些重点？

数据科学 + 产品团队 = AI 影响力

1. 确保 AI 安全性

2.提高 AI 可访问性

3.提高 AI 准确性

结论

相关文章：