当前位置: 首页 > news >正文

我做了一个文本相似度检查工具:两篇文章到底有多像,一测便知

最近在整理我的在线工具站

最近在整理我的在线工具站 toolsonline.run,给 Text Similarity Checker(文本相似度检查)这个工具写文章的时候,突然想到一个场景——

你改了一版文案,老板说"这跟上一版差不多吧?";你写了一篇原创,发出去被投诉抄袭;你从网上找了两段参考文献,想看看有没有大段重复……

这些场景都需要一个东西:文本相似度检测

为什么要做这个工具?

市面上的查重工具,要么要注册,要么要收费,要么上传文件等半天。我想要的很简单:

  • 两段文本丢进去,立刻出结果
  • 不用注册,不用上传文件
  • 纯浏览器计算,数据不经过服务器
  • 支持中文(这个很重要,很多工具对中文支持很差)

于是就自己做了一个。

它能做什么?

把两段文本分别粘贴到 Text A 和 Text B,工具会自动计算:

  • 相似度百分比——基于 Sørensen–Dice 系数,精确衡量两段文本的重合程度
  • 共同词汇数——两段文本中一模一样的词有多少
  • 文本重叠率——内容覆盖了多少

结果是实时更新的,你每改一个字,数字就会变。

技术上有什么特别的?

做这个工具遇到的最大挑战是中文分词。英文用空格分词就行,中文没有天然的分隔符。我用了Intl.Segmenter这个浏览器原生 API,可以正确处理中文、日文、韩文、泰文等 15+ 种语言的分词。不需要后端,纯前端搞定。

算法方面用的是 Sørensen–Dice 系数,这是一个经典的文本相似度算法,简单但够用。它比较两段文本的词频分布的交集和并集,得出一个 0-100% 的分数。

适合谁用?

  • 写作者:检查自己的文章有没有无意间的重复段落
  • SEO 从业者:检测内容是否有大量重复
  • 学生:自查论文初稿
  • 翻译/校对:对比不同版本的译文差异
  • 程序员:比较配置文件或代码片段的差异

免费、开源、无广告

和我做的其他工具一样,这个工具完全免费,没有广告,没有注册门槛。所有计算都在浏览器本地完成,你的文本不会发送到任何服务器。

工具地址:https://toolsonline.run/text-similarity

如果你觉得有用,欢迎分享给需要的人。有问题也可以在评论区告诉我,我会持续优化。

http://www.cnnetsun.cn/news/2166112.html

相关文章:

  • 告别Python命令行!用SheetJS社区版在前端搞定Excel转JSON(附完整代码)
  • STM32CubeMX串口通信保姆级教程:从阻塞到DMA,三种模式一次搞定(附避坑指南)
  • 企业如何通过Taotoken统一管理多个ai项目的api密钥与访问
  • 【RAG】【ingestion01】高级摄取管道 示例
  • 当CAN Driver状态机“卡住”怎么办?AutoSar BSW调试实战:从STOPPED到STARTED的排查日记
  • GetBox-PyMOL-Plugin:分子对接盒子计算终极指南
  • R3nzSkin国服换肤指南:零风险解锁英雄联盟全皮肤体验
  • Redis 事务详解
  • 手把手教你用Windows电脑+可道云搭建私人网盘,没有公网IPv4也能远程访问
  • AutoSar OS实战笔记:Basic Task和Extended Task怎么用?在EB Tresos里配置抢占式任务避坑指南
  • 好用的企业邮箱有哪些?2026主流企业邮箱如何选?
  • 为什么92%的PHP团队在AI集成中踩坑?PHP 9.0新Task Scheduler与LLM Token流协同机制大揭秘
  • 收藏必看|2026版Java程序员别再死磕微服务高并发!不懂大模型直接被淘汰
  • 2026精选10款项目管理软件|全场景实用推荐
  • “3分钟接入,5秒生成周报”——Tidyverse 2.0 + GitHub Actions CI/CD自动化闭环(真实金融客户压测数据:QPS 42.6)
  • 从MSG_PEEK到错误处理:深入挖掘Linux网络编程中recvfrom/sendto的那些高级用法和坑
  • SpringBoot运行后,一会儿停止的问题
  • 别再只用RAID0/1/5了!用mdadm在Ubuntu 22.04上实战搭建RAID10,兼顾速度与安全
  • 项目开发Backlog(待办事项列表)介绍(Sprint Backlog迭代待办列表、MoSCoW法则)Jira、Trello、Notion、GitHub Projects、敏捷开发
  • Linux RT 调度器的 rt_runtime:RT 任务配额管理
  • 如何通过Obsidian Style Settings插件打造个性化笔记体验:终极视觉定制指南
  • 通过taotoken cli在ubuntu上一键配置开发环境与api密钥
  • 在OpenClaw Agent工作流中无缝接入Taotoken聚合模型
  • 神经接口测试标准:软件测试从业者的专业指南
  • 怎样高效使用Adobe-GenP:完整Adobe激活工具实用指南
  • 通过curl命令快速测试Taotoken API连通性与模型响应
  • 如何用AutoDock-Vina进行分子对接:新手完整指南
  • 基于强化学习的量化交易框架TradzQAI:从回测到实盘的实战指南
  • 在aarch64机器上安装使用R语言的季节调整包
  • 太强了!这个开源项目让我告别 PowerPoint,36 套主题一键切换,还自带演讲者模式!