当前位置: 首页 > news >正文

AI知识库投喂:如何让机器“吃”出智慧,而不是“喂”出垃圾?

昨天,我清理手机时,发现相册里全是截图,有菜谱、段子、新闻摘要、某个冷知识等,这些都是乱七八糟的。那一刻,我突然有了这样的想法,我们的人脑,难道不像一个杂乱无章的知识库吗?什么东西都往里塞。

那人工智能又如何?我们常常提及“投喂”数据,就这个词汇而言,仔细思索一番,倒是颇为有趣的。它究竟是类似于填鸭式的做法,还是类似于精心调配膳食那样?

AI知识库投喂到底是什么意思?

实际来讲,那是用于AI学习的“教材”。你得给它展示一万张猫的图片,它才能够识别出猫。然而问题出现了,要是你给它看的是品种猫大赛的图片,它有可能就识别不出街边脏兮兮的流浪猫。教材的质量,直接对AI的“眼界”以及“判断力”起到决定作用。

这可不是随便“喂”就行的。

我记着存在一个项目,在开始的阶段运用网络论坛的对话去训练聊天AI,那后来怎样了呢,AI说话毫无根据且随意乱说,还掌握了各种各样网络上的骂战行为,这便是食用了“垃圾食品”所导致的结果,只要数据出现偏见,那么AI也会产生偏见,并且还会将这种偏见予以放大。

所以,“投喂”是个技术活,更是良心活。

如何避免给AI知识库投喂垃圾数据?

首先是第一关,那便是筛选,并非所有的数据都能够符合被称作拥有“知识”的标准。网络之上的信息数量极为庞大,然而其中存在着更多的噪音。包括虚假的新闻、广告性质的软文以及情绪化的宣泄等等,这些都需要如同淘金那般将其过滤掉。

得要人工去进行标注,哎,没错,正是那种会让人觉得枯燥乏味的活儿,要把图片当中的物体以框的形式给标识出来,还要将对话里面所蕴含的意图划分成不同的类别。此项工作相当逆反人工智能,可是恰恰就是人工智能具备智慧的起始之处。

数据要干净,还得多样。

曾经存在一个图像识别系统,其训练数据之中白人面孔占据多数。然而在对黑人进行识别之时,准确率低得令人不忍直视。这种情况能够怪罪于AI吗?毕竟它未曾见过呐。所以说,在进行数据投喂时要注重均衡,像肤色、场景、角度、光线等等方面,越是丰富多样,AI就会越“见过世面”。

最惧怕的,乃是单一来源,仅仅采用一个论坛、一家媒体得出到的数据,进而导致AI拥有变得狭窄的世界观。

AI知识库投喂的数据从哪里来?

主食是公开数据集,像,它有1400多万张标注图片,还分了两万多个类别,这可是AI界的“经典教材”,然而光吃经典容易脱离现实。

于是,实时数据是很需要的那一种,像新闻、社交媒体之类的。这一部分呢,类似生鲜,新鲜倒着实新鲜,然而存在风险。必须得进行清洗,把敏感以及有害的信息给去除掉。这可是个无底洞呀毕竟网络每时每刻都在产出新得如同“食材”一般的东西哪。

并且存在合成数据,在现实情形里面对欠缺充足数据该如何应对,举例来讲像是训练自动驾驶去识别极端事故情况,总不可以真的去进行撞车行为,于是便运用算法来模拟,进而生成各种各样车祸场景下的图片与视频,这也就是所说的“代餐”,其有时候发挥的作用比真实的数据还要显著。

重要的一环是用户反馈,AI说错后,由用户来纠正它,这如同课后辅导那般,属于最具针对性的“加餐”。

投喂后的AI知识库如何维护更新?

并不是那种做一次就永远不用再管,一直有效的。今天看来是正确的内容,到了明天或许就不正确了。因为整个世界处于不断变化之中,所以知识同样也在持续更新。就像去年很流行的梗,到了今年有可能就已经不再流行了。就连AI知识库也需要进行更新换代。

得进行持续的监控,去查看AI在哪些地方老是出现错误,思考是不是与之对应的“教材”陈旧了,就好比新冠病毒,从阿尔法毒株到奥密克戎毒株,已经变化了好几轮,倘若相关医学知识库不进行更新,那么AI给出的信息便是错误的。

每隔一定时间就要进行重复性的“复习”动作以及带有检验性质的“考核”行为,且运用全新的测试题目去对其展开考查,从而找到存在不足的环节,随后依据具体情形有针对性地增添数据,这是一种周而复始现象,不存在终了的节点。

有时侯,需要将一些过时或者有害的知识“洗掉”,从技术层面来讲这被称作“遗忘学习”,然而实际做起来难度颇大,举例来说,要让你忘掉一个错误的观点并非轻易之举。

所以,维护比初期投喂更磨人。

低质量投喂会对AI产生什么影响?

就会使其变得狭隘,会认为世界就是它所“吃”下去呈现出的那般模样,要是给它看了过多成功学内容,那么它或许会觉得失败是不可接受的,倘若给它看了过多对立言论,它也许就会变得充满攻击性。

更为糟糕的是,会将社会偏见予以放大。倘若招聘AI采用了历史上带有性别歧视的招聘数据,那么它便会使这种歧视得以延续,居然还自以为是地认为自己颇为客观。这是由于它“学习”到的“规律”便是如此这般存在着。

并且还能够“胡言乱语”。对于那些杂乱无章的数据,AI就会毫无条理乱说一通,进而生成一些貌似合乎情理但实际上荒诞不经的内容了。我们把这种情况称作“幻觉”。它有可能会非常认真严肃地告知你,鸡是有着六条腿的,究其原因在于它所接触的数据里存在着书写错误。

最令人恐惧的是,这些所产生的影响属于隐性的,你并非能够即刻察觉。等到察觉到的时候,或许已然对诸多决策造成了影响。

想想就有点后怕。

未来AI知识库投喂的发展方向是什么?

兴许会愈发“个性化”,并非是凭借一套通用教材来通吃局面 ,而是依据不同的用途 ,去定制不一样的“营养餐” ,教育AI与医疗AI ,所学习的核心知识必定是存在差异的。

在进行该项“投喂”操作期间也会变得越发自动化,且更加智能,借助AI去筛选以及生成用来训练那种AI的数据,所呈现出宛如责令高年级学生协助老师编订教材的情形,但在此处务必要倍加留意,切不能形成闭环,进而滋生出怪异无比的“近亲繁殖”模式标点符号。

对于数据伦理的要求将会极其高,数据的来源,数据的用途,数据对于隐私的保护,都会成为备受关注的要点,不能够偷偷地使用用户的数据,不能够暗藏任何歧视,或许需要如同食品制成成分表那般出现类似于所标明数据的“营养成分”以及“潜在风险”的“数据标签”。

说不定,我们最后会建成一个公众的、具备高品质的基础知识储备库,恰似数字时代的“公共图书馆”。所有的人工智能均能够自这里吸纳到最为纯净、最为基础的知识滋养。

然后再去学各自的专业。

实际来讲,往AI之中填充知识,好似教导一回幼童。你向它展示什么内容,教给它哪些东西,它便会成长为那般模样。于我们的手中,攥着一把能够塑造未来智能状态的钥匙。

这责任,可不轻。

不能仅仅只去想办法使它变得聪慧,还要进一步去思索,要让它变得和善,变得公正,化身成为水准更加出色的“思考者”,这般情形,也许才算是投喂所具备的最终极的意义所在吧。

http://www.cnnetsun.cn/news/2433883.html

相关文章:

  • C++编译加速不止ccache:聊聊缓存目录管理、SSD性能影响与那些年我踩过的坑
  • 别再浪费你的STM32定时器了!用PWM波低成本实现8位DAC(附RC滤波器参数计算)
  • Qt + OpenGL实战:手把手教你打造一个可交互的3D点云数据查看器(附CSV加载)
  • 基于STM32C8T6的智能衣柜系统:从环境感知到多模态交互的毕业设计实践
  • 开发者技能树:结构化学习路径与知识库项目解析
  • 别再手动调SVR参数了!用Python的pyswarms库实现粒子群算法自动寻优(附完整代码)
  • AMD锐龙SDT调试工具终极指南:完全掌握处理器深度调优的10个核心技巧
  • 硬件选型指南:钡特电源 VB30-24S09LD 与金升阳 URB2409LD-30WR3 属工业标准模块电源
  • 用PyTorch搞定Million-AID遥感数据集:从下载到训练,一个完整的代码仓库搭建指南
  • DL:单层感知器与多层感知器的基本原理与实现
  • 揭秘Windows微信QQ消息防撤回:逆向工程实战指南
  • Godot引擎Lua绑定插件:实现游戏逻辑热更新与跨语言开发
  • 储能出海欧美:基于容器本地控制下发的边缘计算网关技术实战
  • 多路由器组网实战:让打印机在复杂网络下轻松共享
  • 高效跨平台图片预览解决方案:Windows HEIC缩略图插件深度解析
  • Android 14密钥管理深度解析:从Keystore到Keymint的架构演进与Trusty安全实践
  • D2DX终极指南:如何让《暗黑破坏神2》在现代电脑上完美运行
  • Cursor Free VIP:三步破解AI编程助手试用限制的专业解决方案
  • VSCode低代码插件:元数据驱动与智能代码生成实战
  • TVBoxOSC终极指南:5分钟将电视盒子变身高性能家庭媒体中心
  • 飞书语音技能开发实战:从架构设计到部署落地的完整指南
  • 手把手教你用Mavros向PX4飞控发送正确的位置指令:从ENU到NED的自动转换详解
  • Arm C1-Ultra处理器关键错误解析与修复方案
  • 收藏!小白程序员必看:大模型岗位全解析,面试题+职业发展路线图全在这
  • AI时代个人知识管理:构建从收集到创造的第二大脑系统
  • 网页高亮神器Highlighter:3分钟掌握永久标记的终极技巧
  • 终极指南:3分钟让Windows文件管理器智能显示APK文件图标
  • 如何5分钟搞定Godot游戏资源提取:PCK解包终极指南
  • 掌握高效窗口管理:专业级工具Topit的进阶使用指南
  • Freeplane思维导图模板:从零到专业级视觉设计的完整实战指南