当前位置: 首页 > news >正文

数据科学在普及 AI 中的角色

原文:towardsdatascience.com/the-role-of-data-science-in-democratizing-ai-bee294724441?source=collection_archive---------3-----------------------#2024-03-06

在 AI 发展的新兴时代,数据科学团队应关注哪些重点?

https://liorsidi.medium.com/?source=post_page---byline--bee294724441--------------------------------https://towardsdatascience.com/?source=post_page---byline--bee294724441-------------------------------- Lior Sidi

·发表于Towards Data Science ·7 分钟阅读·2024 年 3 月 6 日

直到最近,AI 模型仅能通过数据科学家或其他服务提供商的解决方案来访问。今天,AI 正被普及,非 AI 专家也可以开发自己的 AI 驱动解决方案。

过去,数据科学团队需要数周甚至数月才能收集数据、标注数据、训练模型并部署,而如今,只需简单的提示词和最新的生成 AI 模型,就能在几分钟内完成模型的构建。随着 AI 技术的进步,人们也期待能采用它并构建更智能的 AI 驱动产品,而作为 AI 专家,我们承担着在组织内部推广这一技术的责任。

自 2016 年以来,Wix 对这一转型并不陌生(远在 ChatGPT(2022 年 11 月 22 日)之前),我们的数据科学团队已经在开发许多具有深远影响的AI 驱动功能。最近,随着生成性 AI 革命的到来,Wix 内越来越多的角色也开始接受这一趋势。我们共同成功推出了许多新功能,借助聊天机器人赋能网站创建,丰富内容创作能力,以及优化代理机构的工作方式。

在我们作为 Wix 数据科学团队的角色中,我们承担着确保AI 质量和广泛接受度的责任。我们认识到积极贡献于 AI 民主化的必要性,并确定了我们必须承担和领导的三个关键角色:1. 确保安全性2. 增强可访问性,和3. 提高准确性

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/369483c2102e786d2e7b74c1a90d35dc.png

数据科学的三大角色

数据科学 + 产品团队 = AI 影响力

构建 AI 模型的艺术在于能够驾驭并概括未见的边缘案例。这需要一种数据科学实践,包括对业务和数据的理解,并通过反复评估和调整来完善。

将 AI 民主化到产品团队(产品经理、开发人员、分析师、用户体验、内容创作者等)可以加速 AI 驱动的应用程序的发布,但这需要与数据科学团队合作,制定合适的流程和技术。

在下面的 SWOT 图中,我们可以看到数据科学和产品团队如何利用各自的优势和机会,弥补彼此的弱点和威胁,最终按时推出有影响力、可靠的前沿 AI 产品。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a678423645fed2849bacda83786f4a8f.png

产品团队与数据科学的 SWOT 分析

1. 确保 AI 安全性

目前讨论最多的一个话题是使用 AI 的安全性。当聚焦于面向产品的解决方案时,有几个领域我们必须考虑。

  1. 监管— 模型可能做出可能歧视某些子群体的决策,例如基于性别给予折扣,或者高薪工作广告中的性别歧视。此外,当使用第三方工具,如外部大型语言模型(LLMs)时,公司的秘密数据或用户的个人可识别信息(PII)可能被泄露。最近,《自然》杂志主张对基于 LLMs 的应用进行监管审查。

  2. 声誉— 面向用户的模型可能会出错并产生不良体验,例如,基于大型语言模型(LLMs)的聊天机器人可能会给出错误的答案,或者是过时的答案,或者是有毒的种族主义回答,或者加拿大航空的聊天机器人不一致性。

  3. 损害— 决策模型可能预测错误的答案,进而影响业务运营,例如,某个预测房价的模型造成了 5 亿美元的损失。

数据科学家理解 AI 模型的不确定性,并能够提供不同的解决方案来应对这些风险,并允许安全地使用该技术。例如:

2.提高 AI 可访问性

人工智能应该易于使用,并且能够让非人工智能专家也能将其集成到他们的产品中。直到最近,与模型的集成方式是通过数据科学家开发的在线/离线模型,它们是可靠的、针对特定用例的模型,并且其预测结果是可访问的。

但它们的主要缺点是非 AI 专家无法进行定制化。这就是为什么我们提出了“自己动手做 AI”(D-AI-Y)的方法,允许你构建自己的模型,并将其作为服务部署到平台上。

目标是快速构建简单但有价值的模型,并且对 AI 的专业知识要求较少。如果模型需要改进和研究,我们有数据科学家参与。

D-AI-Y 包括以下组件:

  1. 教育:教育组织如何正确使用 AI,在 Wix,我们有一个 AI 大使计划,这是 Wix 不同小组与数据科学小组之间的 AI 知识桥梁,在这个计划中,各小组的代表会接受培训,并及时更新新的 AI 工具和最佳实践,以提高 Wix 中基于 AI 的项目的规模、质量和速度。

  2. 平台:有一种方法可以连接到大型语言模型(LLMs)并编写提示。平台应考虑模型的成本和规模以及对内部数据源的访问。在 Wix,数据科学小组构建了一个 AI 平台,将 Wix 的不同角色与来自多个供应商的模型连接起来(以减少 LLM 供应商锁定)以及其他功能,如语义搜索。该平台充当一个集中的中心,供所有人使用、分享他们的模型、治理、监控并在生产环境中提供服务。

  3. 构建简单直接模型的最佳实践和工具:使用提示或专用模型来解决特定学习任务:分类、问答机器人、推荐系统、语义搜索等。

  4. 评估:针对每个学习任务,我们建议一种特定的评估流程,并在需要时提供数据整理的指导。

例如,一家公司使用检索增强生成(RAG)方法构建了许多问答模型,这种方法通过搜索能够回答问题的相关证据来回答问题,然后将证据添加到 LLM 的提示中,以便它能基于这些证据生成可靠的答案。

所以,产品数据科学团队可以提出:1. 关于 RAG 主题的教育材料和讲座,例如我曾做的这场关于语义搜索的讲座,用于改进 RAG。2. 为平台配备合适的向量数据库和相关的嵌入器。3. 关于如何构建 RAG 的指南,如何检索证据并编写生成提示。4. 支持 RAG 适当评估的指南和工具,正如在这篇 TDS 文章和Trulens 的 RAG 三元组中所解释的那样。

这将使公司中的许多角色能够以可靠、准确且可扩展的方式构建自己的基于 RAG 的应用模型。

3.提高 AI 准确性

随着 AI 的普及,预计将构建更加复杂、准确和先进的解决方案。最终,非 AI 专家能够提升模型性能的程度是有限的,因为这需要对模型如何运作有更深入的理解。

为了提高模型的准确性,数据科学团队专注于以下类型的工作:

  1. 改进通用模型— 定制并改进模型,以容纳 Wix 知识并超越外部的通用即开即用模型。

  2. 定制模型— 高优先级且具有挑战性的模型,D-AI-Y 无法支持。与通用模型不同,这里我们有非常特定用例的模型,需要定制化。

  3. 改进 D-AI-Y— 随着我们不断改进 D-AI-Y 平台、最佳实践、工具和评估 AI 的准确性,因此我们持续投入研究时间和精力,致力于提升和发掘创新方法,以使其更好。

结论

经过多年的等待,AI 的普及正在发生,让我们拥抱它吧!产品团队对业务的内在理解,加上 GenAI 的易用性,使他们能够构建推动产品能力的 AI 驱动功能。

因为非 AI 专家通常缺乏对 AI 模型如何运作以及如何在大规模上正确评估它们的深刻理解,他们可能会遇到关于结果可靠性和准确性的问题。此时,数据科学团队可以通过指导各团队如何安全使用模型、在需要时创建缓解服务、分享最新的最佳实践、评估模型性能并在大规模上服务模型,来协助和支持他们的工作。

当一个 AI 功能展现出巨大的商业影响时,产品团队会立即开始将精力转向改进结果,这时数据科学家可以提供先进的方法来提高性能,因为他们理解这些模型是如何运作的。

总之,数据科学在实现 AI 普及中的作用至关重要,因为它架起了 AI 技术与那些可能没有深入 AI 专业知识的群体之间的桥梁。通过数据科学家和产品团队的合作,我们可以充分利用两者的优势,创造安全、可及且准确的 AI 驱动解决方案,从而推动创新并提供卓越的用户体验。随着不断的进步和创新,普及化 AI 的未来在各行各业中蕴藏着巨大的变革潜力。

除非另有说明,所有图片均为作者提供

http://www.cnnetsun.cn/news/2469542.html

相关文章:

  • AirSim无人机PID调参实战:用MultirotorClient的底层接口优化飞行性能
  • 量子纠缠转导技术与远程纠缠协议设计
  • 网盘直链下载助手:免费解锁八大平台高速下载的终极解决方案
  • 全流程拆解:老外用 AI 做电商,30 天收入 18.8 万美金
  • 无人机飞控入门:别再混淆姿态角和欧拉角了(附ZXY顺序旋转矩阵推导)
  • RTX51 Tiny中断冲突与寄存器组配置解决方案
  • 终极滚动控制:如何让Mac鼠标和触控板拥有独立滚动方向
  • 告别命令行!用这个免费软件5分钟搞定Abaqus三维Voronoi泡沫模型
  • 全面战争模组制作终极指南:如何使用RPFM工具打造专业级游戏模组
  • 深度解析DriverStore Explorer:Windows驱动管理专家的进阶指南
  • 天下工厂的 5 维度筛选公式为什么能 2 小时出名单
  • 终极Windows版Mifare Classic工具完全指南:告别命令行,轻松管理NFC卡片
  • GitHub加速插件终极指南:3分钟解决代码下载慢的痛点
  • 【审计专栏-监督监管】【信息科学与工程学】计算机科学与自动化——第一百五十篇 招投标领域中的应用数学05
  • 腾讯云COS对象存储:企业级最佳实践
  • Python生成器实战:yield深度解析
  • Diablo Edit2:3分钟掌握暗黑破坏神2角色编辑全技巧
  • CSS 盒子模型
  • 告别寄存器操作:在RA4M2上体验瑞萨FSP库点灯,对比STM32 HAL/LL库有何不同?
  • 基于ENVI的遥感影像处理实战——以Landsat8数据为例(上)
  • Ubuntu 22.04 下 Nsight System/Compute 2023.3 保姆级安装与权限配置指南(解决libxcb/perf_event报错)
  • ppt模板_0032_圣诞主题1
  • STM32外部中断配置避坑指南:7个中断服务函数如何管好16根线?
  • 【2026】记录在windows编译llama.cpp步骤,AMD CPU本地部署千问3.5本地大模型,内存占用低
  • 终极CAD数据解放方案:深度解析LibreDWG开源DWG转换工具实战指南
  • ARM架构错误异常处理机制解析与实践
  • k8s-elk日志分析组件学习
  • ThinkPHP8多应用实战:手把手教你用PHPStudy配置admin和index双站点(附伪静态规则)
  • 别再手动输API密钥了!Windows/macOS/Linux三平台一键配置OpenAI环境变量(附永久/临时方案)
  • Sunshine游戏串流终极指南:免费开源打造你的家庭游戏云