当前位置: 首页 > news >正文

【金猿技术展】数睿数据 数据表智能关联方法——通过复杂数据自动关联促进自动取数分析

数睿数据技术

该技术由数睿数据投递并参与金猿组委会×数据猿×上海大数据联盟共同推出的《2025大数据产业年度创新技术》榜单/奖项评选。


大数据产业创新服务媒体

——聚焦数据 · 改变商业


本公开的实施例公开了数据表关联方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:响应于确定目标数据库中存在触发数据表重关联条件的数据表,确定目标数据表集合中的每个目标数据表对应的数据表操作信息;对于目标数据表,响应于确定目标数据表对应的数据表操作记录序列中存在操作类型为预设操作类型、且操作状态为已执行状态的数据表操作记录,将目标数据表确定为过滤后数据表;确定过滤后数据表对应的数据表描述信息;确定针对过滤后数据表集合的历史数据表关联图;对历史数据表关联图进行关联图更新;对更新后数据表关联图对应的过滤后数据表进行数据表压缩。该实施方式实现了自动数据表关联,提高了数据表的关联效率。

关键突破性技术说明

在传统数据库管理中,数据表之间的关联关系(如外键、连接关系)通常需要人工预先设置和维护。当数据表的结构或关联关系发生变动时(例如,新增字段、修改表结构、变更业务关系),数据库管理员(DBA)或开发人员需要手动重新检查并更新这些关联关系,这一过程存在明显问题:

效率低下:人工处理耗时耗力,尤其在表数量多、结构复杂或变动频繁的系统中。

容易出错:人工操作易遗漏或关联错误,影响数据查询的准确性和一致性。

资源浪费:未经优化的表结构中可能存在大量重复字段,导致存储空间浪费和查询性能下降。

该专利旨在通过“自动化、智能化的数据表关联与压缩”来解决上述问题。

专利提出一套全自动的数据表关联管理流程,主要包括以下几个步骤:

1.触发与感知

监测目标数据库,当检测到触发“数据表重关联条件”(如表结构修改、关联关系变更等操作)时,启动自动化流程。

提取触发时段内的数据表操作日志,解析出关键操作记录。

2.智能过滤

基于操作日志,过滤出真正发生过预设修改类型(如表关联关系修改、表结构修改)且已成功执行的表,作为“过滤后数据表集合”。避免了对所有表的无效扫描,节约计算资源。

3.双态描述信息提取

为每个过滤后的数据表提取两套描述信息:历史数据表描述信息:重关联条件触发前的表状态(字段、结构、关联关系)。实时数据表描述信息:触发后的最新表状态。为后续的对比与更新提供依据。

4.构建与更新关联图

利用邻接矩阵构建“历史数据表关联图”,刻画表之间已有的外键等关联关系。根据最新的实时描述信息,动态更新该关联图,得到反映当前最新关联状态的“更新后数据表关联图”。

5.语义驱动的数据表压缩

在关联图的基础上,智能识别跨表的语义关联字段(如不同表中的“客户名称”、“用户名”可能指向同一实体)。

判断字段的“原子性”(是否可拆分),并进行智能合并或关联:

字段冗余消除:删除同一表内可由原子字段组合而成的复合字段。

跨表关联优化:若语义关联的原子字段分布在多张表中,则自动创建表间关联,并删除冗余的复合字段,实现数据压缩。

其技术亮点在于:

该专利通过“操作感知→智能过滤→双态对比→图关联更新→语义压缩”的闭环流程,实现了一种高度自动化、智能化的数据表关联管理与优化方法。它不仅解决了人工维护关联效率低、易出错的核心痛点,还能主动优化数据结构、减少冗余,从而提升数据库的存储效率、查询性能和数据一致性。

这项技术特别适用于:

大型企业级数据库系统

微服务架构下的多数据库治理

数据仓库与数据湖的元数据管理

需要频繁进行数据模型迭代的业务场景

专利技术应用产品/服务

目前,此技术方法已使用在数睿数据核心产品数据驱动的企业级AI原生开发平台smardaten中,显著提升了应用构建过程、数据分析场景中数据表关联的效率,同时在解决方案产品数据通里,结合该技术进一步提升AI智能问数和取数分析,大大提升数据分析决策效率。300多家企业客户基于本平台进行数字化应用构建或软件项目交付,如中移研究院、中广核、奥克斯、卫健委等,已在工业制造、数字政务、能源电力等10多个行业场景实现数字化落地。

开发团队

·带队负责人姓名:车文彬

大连理工大学博士,数睿数据AI科学家,从事人工智能与大数据分析挖掘相关领域研究数十年,先后在华为担任数据科学家、在360担任高级算法专家等职务。在数据安全相关领域专注同态加密、联邦学习、数据水印等技术的研究,并发表专利10余项。负责smardaten中AI技术的研究与应用,涉及增强分析、自动化开发、无代码GPT等应用场景。

团队其他重要成员姓名:郭丽娜、易岸霖、陈逸帆、李鸿飞

·隶属机构

数睿数据是领先的数智化软件产品与服务提供商,全国9大代表处,新加坡设立子公司,员工规模近400人。以“让天下数据快速使用”为使命、“让人人尽享数据价值”为愿景,通过丰富的产品矩阵、领先的AI技术、完善的服务体系和创新应用场景,全面助力行业数智化转型升级。

数睿数据打造的核心产品smardaten数据驱动的企业级AI原生开发平台,以“AI原生+数据驱动”为核心,推动软件工程与数据应用全链路革新。通过将多场景AI Agent贯穿一体化平台,加速数字化应用构建、提高数据治理与应用决策效能,实现让软件快速定制、让数据快速使用。已实现在智慧城市、工业制造、智慧政务、企业数字化、智慧能源等10多个行业领域的标杆应用打造。

公司已获得包括CMMI5认证、国家高新技术企业、国家级专精特新“小巨人”企业、江苏省软件核心竞争力企业(创新型)等资质认证,参与低代码应用开发国家标准编制,积累30多项技术专利和100余项软件著作权。

相关评价

数睿数据凭借这个一站式的数据治理和数据一体这两个最大的优点,成为我们的数据治理供应商,一阶段的数据治理平台,把业务的数据查询率提升到了90%,因为数据错误导致的投诉减少大概70%。我们也会在26年将与数睿一起从三个方面深化数据驱动价值的目标,比如主动数据治理和AI智能问数,去助力奥克斯集团的一个数字化转型。

——奥克斯集团数据管理体系负责人 黄总

全市40多家的医疗机构,以前构建一份医疗数据报告需要从各医院调取、手动整理,耗时长达3周,现在基于专家库模型、自动映射和智能分析,同样的报告生成仅需一个多小时!数据使用效率比过去高了很多。

——某市卫健委信息中心主任

提示:直接点击文末左下角“阅读原文”链接可直达该机构官网页面。

http://www.cnnetsun.cn/news/118224.html

相关文章:

  • EmotiVoice用于虚拟主播直播的实时语音推流
  • Android ANR 深度起底:从系统埋雷机制到全链路治理体系
  • 2025提示工程实战手册:7天掌握AI对话优化核心技术
  • OpenWrt LuCI主题大比拼:4款官方界面哪个最适合你?
  • 基于 TCP 的IOT物联网云端服务端和设备客户端通信架构设计与实现
  • XYAdmin:基于Vue3与Ant Design的下一代中后台管理系统,重新定义开发效率
  • 中英混合语音生成效果测试:EmotiVoice表现出色
  • Strapi数据建模实战:从零构建灵活高效的内容管理系统
  • Homepage媒体服务监控:打造智能媒体中心控制台
  • 15、远程应用与Citrix XenApp环境中App Volumes部署指南
  • 打造完美浏览器扩展图标的终极指南:从16px到128px的完整设计方法
  • Transformer Lab完整指南:快速上手大语言模型实验平台
  • 知识付费课程录制:用EmotiVoice节省时间成本
  • 视觉语言导航从入门到精通(一)
  • 5个实战技巧:让你的react-native-vision-camera性能飙升300%
  • 超高性能订单簿系统:5大核心功能打造极致交易体验
  • Orleans分布式追踪:如何选择最适合的监控工具?
  • 耳机vs扬声器:不同设备播放体验差异
  • Photon框架深度解析:构建Electron应用的终极指南
  • 剧透 2026 年第一个值得你奔赴现场的 AI 大会
  • 解锁地理智能:ArcGIS API for Python 全栈开发实战指南
  • 零基础掌握Agent Zero多语言配置:打破语言壁垒的完整指南
  • Wan2GP 完整使用指南:从零开始掌握开源视频生成技术
  • 如何申请EmotiVoice商用授权许可?
  • 【2025年华为秋招(AI)-12月17日-第二题(200分)- 使用线性回归预测手机售价】(题目+思路+JavaC++Python解析+在线测试)
  • 【2025年华为秋招(AI)-12月17日-第三题(300分)- 模型量化最小误差】(题目+思路+JavaC++Python解析+在线测试)
  • Leon Sans字体引擎:零代码基础打造炫酷文字动画
  • Obsidian网页剪藏完整指南:从零开始的高效知识管理方案
  • 终极指南:如何在不受支持的设备上免费启用Sidecar功能
  • 构建高可靠事件驱动架构:Watermill与RabbitMQ的延迟消息与死信队列实战