当前位置: 首页 > news >正文

研究人员发现未加密的16TB数据库泄露43亿条专业记录

16TB开放数据库暴露43亿条专业记录

一个未加密的16TB MongoDB数据库暴露了约43亿条专业记录(主要为LinkedIn风格数据),可能引发大规模AI驱动的社会工程攻击。研究员Bob Diachenko与nexos.ai于2025年11月23日发现该未受保护的数据库,两天后完成修复。目前无法确认此前有哪些人访问过这些数据。

Cybernews团队分析发现,该数据库包含9个数据集,每个数据集名称基本反映了其内容类型:

  • intent – 2,054,410,607条文档(604.76 GB)
  • profiles – 1,135,462,992条文档(5.85 TB)
  • unique_profiles – 732,412,172条文档(5.63 TB)
  • unique_profiles – 732,412,172条文档(5.63 TB)
  • people – 169,061,357条文档(3.95 TB)
  • sitemap – 163,765,524条文档(20.22 GB)
  • companies – 17,302,088条文档(72.9 GB)
  • company_sitemap – 17,301,617条文档(3.76 GB)
  • address_cache – 8,126,667条文档(26.78 GB)
  • intent_archive – 2,073,723条文档(620 MB)

近20亿条个人隐私数据遭泄露

至少三个数据集暴露了近20亿条个人记录,包含姓名、电子邮件、电话号码、LinkedIn链接、职位、雇主、工作经历、教育背景、所在地、技能、语言能力和社交账号等信息。仅"unique_profiles"数据集就包含超过7.32亿条带图片URL的记录。"people"数据集还包含与Apollo.io生态系统关联的画像指标和Apollo ID,但未发现Apollo遭入侵的迹象。

Cybernews报道称:"我们的研究人员确认,特定数据集内的所有记录都是唯一的,但不同数据集之间可能存在重复数据。虽然不同数据集包含不同信息,但其中至少三个数据集(profiles、unique_profiles和people)包含个人身份信息(PII)。"

数据来源与潜在风险

难以确定这些LinkedIn数据的具体生成时间。时间戳显示记录于2025年收集或更新,但部分数据可能来自多年前,包括威胁行为者2021年宣称的大规模LinkedIn数据泄露事件。

泄露数据的所有者尚未确认。研究人员发现线索指向某潜在客户开发公司——其网站路径"/people"和"/company"与数据集中的sitemap记录匹配。该公司声称可访问超7亿专业人士数据,与泄露的"unique_profiles"数量高度吻合,且在收到通知次日数据库即下线。但研究人员未明确归因,指出该公司本身也可能是数据爬取的受害者。

大规模结构化数据的攻击价值

此类海量结构化数据极其危险,可支撑鱼叉式钓鱼、CEO欺诈、企业侦察及大规模AI驱动攻击等定向攻击。凭借数十亿条记录,犯罪分子能自动化实施个性化诈骗,缩短攻击准备时间,重点针对包括《财富》500强员工在内的高价值目标。

Cybernews总结道:"大语言模型(LLM)能基于用户画像生成个性化信息。只需额外投入少量精力,攻击者就能向受害者发送数千万封恶意邮件——整个攻击行动只需攻陷一个高价值目标就能获利。"

研究人员解释:"此类大型数据集是恶意行为者的主要目标,它们能基于其他数据泄露事件进行画像增强,构建可搜索的个人数据仓库。经过增强后,这些数据可能还包含密码、设备标识符、其他社交媒体链接等信息。此类数据集极大简化了社会工程和凭证填充攻击。"

http://www.cnnetsun.cn/news/63173.html

相关文章:

  • 新型高级钓鱼工具包利用AI与MFA绕过技术大规模窃取凭证
  • 快造Snapmaker U1测评:让人眼前一亮的四头3D打印机,重新定义多色
  • 管家婆辉煌软件账套开账前需要录入哪些信息
  • 绕过 Web 应用程序防火墙 (WAF) 的 5 种方法
  • 中国AI创新被低估了吗?
  • 【数据操作与可视化】Serborn绘图-类别散点图和热力图
  • 你的RAG为什么总答非所问?问题可能出在混淆了“语义理解”与“语义检索”!
  • PDF文本提取的“杀手锏”!DeepSeek-OCR+Python,让表格、段落分毫不差!
  • 万能电子画册源码系统,打造专业级在线展示平台
  • ADC的采样频率对于信号检测的影响
  • 36、函数式输入输出编程指南
  • 41、函数式解决常见问题及 XML 读取程序的函数式转换
  • 揭秘Apollo技术:壁画修复与保护的智能透视眼
  • 基于VUE的社区投诉建议处理与评价系统 [VUE]-计算机毕业设计源码+LW文档
  • Transmission Docker 容器化部署指南
  • 9、Ansible Container 构建与定制 MariaDB 容器指南
  • 交通银行广西区分行共谱“金融+文旅+体育”新篇章
  • 冒充密码管理器的钓鱼攻击机制与纵深防御策略研究
  • DTIIA 5.5、辅助和配套设备配置方式
  • 17、基于 Azure Event Grid 的响应式架构实践
  • 如何创建自己的Gitee实现国内镜像
  • 27、大数据存储 - Azure 数据湖全面解析
  • docker部署n8n(AI工作流)
  • Claude Skills 深度解析:从 What、Why、How 构建领域专用 AI 能力
  • 网站被黑后的紧急处理恢复正常步骤是什么?
  • 30、Linux 打印系统全解析
  • MYSQL的学习
  • 8、延迟执行与虚拟零调制解调器驱动解析
  • 7、Linux 网络安全与防火墙配置全解析
  • 基于springboot和vue的校园二手书交易系统_w387km94