当前位置: 首页 > news >正文

会议论文A RAG Approach for Generating Competency Questions in Ontology Engineering


此文章发表在MTSR2024会议,主题和能力问题有关,另外结合了RAG。

作者信息

荷兰的机构,文章12页。

要点1

我在2024年想到所谓需求驱动,也是结合能力问题的。当时觉得能力问题像是上个世纪的产物,一种古老的验证手段,但我的文章经过24年6月投稿,25年6月一审被拒,现在改投一审结果未出。这段时间,已经看到不少篇结合LLM做问题能力相关工作的文章了。
这篇文章说的是能力问题的生成,我当时想的是结合能力问题库做自动化验证。其实我把问题想简单了,自动化验证不是查询不报错就行的,而且还要查询结果符合预期。

要点2

有关其中的BigCQ参考文献,该作者也提到了BigCQ,表示是最大的CQ模板库。

但这里的CNL有疑问,我当时选取BigCQ中的一些句子举例,但审稿人表示这不是受控自然语言。或许BigCQ中存在一些常识性错误?

要点3

文中提及一种验证方法,针对有既定本体的知识图谱,从本体中提取能力问题,这种能力问题是形式化的,可以转为SPARQL进行查询验证。但这种验证,其实是不合适的,类似于拿自己写的答案作为标准,然后来评估自己。

要点4

方法流程,文章显示了简单的三步走:数据索引、数据获取、生成。从图中看不出有什么特殊设计,那就看文字。

文字表示,首先选择合适的paper作为知识库很重要,然后他设置了三个原则。相当于把这些文章作为RAG的外挂向量库,算是比较直接的想法。
作者还把文章数量作为一个超参数,另外还有大模型的温度和所选取的大模型作为参数。
随后就是提示词工程了,这也没啥好深入说的,还是提示词模板那一套东西(话说大家的想法都差不多啊,应用层面的东西就是这样,太容易撞车了)。

要点5

如何说明它生成的能力问题是好的?
这就是实验验证部分了,看之前先想一想,怎样算是好的能力问题?

  1. 专家审核一下,数量不多的话,可以人工判断哪些能力问题是有实际意义的;
  2. 文中有提到他们生成的是非正式能力问题,那就不是很容易直接转换成SPARQL查询的那种,但要实际验证,必须要想办法把它们转换成SPARQL查询,验证得到预期的结果;
  3. 验证能力问题同样也是验证本体,这里给人的感觉是能力问题是由本体衍生的,而不像我之前做的(能力问题可以用于验证,但它更是需求分析的步骤)。
    那这个文章是怎么做的,他做了两个实验。
  4. 针对需求工程,KG-EmpiRE,通过三个领域专家根据一篇关于研究人员如何开展RE实证研究的现状和发展,手工推导出77个CQ进行评估;
  5. 构建人机交互中的核心参考问题HCIO,针对15个CQ进行评估。
    这里还是看不出评估方法。
要点6

使用precision来评估CQ质量,把生成的CQ质量和专家设计的CQ进行对比。这种感觉还是gold standard,那种把本体和reference本体对比的方法。
在计算所谓precision之前,先用余弦相似度计算了一波。

这让人有些困惑,首先觉得生成的CQ的数量就不一定和专家写的CQ对得上,其次,怎么知道哪两个CQ之间来计算相似度呢?一开始就设定了成对的CQ?
再然后,怎么从相似度到precision的呢?作者给了公式。

这里说明了,TP和FP的含义。比较简单粗暴,意思是有效的生成CQ和无效的生成CQ。
随后,作者还弄了一个consistency的验证,这个验证是来判断CQ生成的稳定性的。大致意思是,我换一些参数,生成的CQ是不是差不多(感觉这个算是对所谓提示词模板的考验吧)?

要点7

说到对比实验了,和谁比?
作者和所谓的Zero-shot比,可以理解为让LLM自由发挥,这个比较好理解,就是体现RAG对CQ生成效果的提升(大概率是有效的,有约束就是比自由发挥厉害一些)。
另外就是N_paper超参数变化的比较,这也是个线性思维,一般来说,外挂库越大,效果就应该越好,事实上基本呈现的就是这个趋势。
最后还有一个绿色的柱子,他表示这个visionary paper给出了最好的precision。

要点8

第二个对比实验,即consistency的实验。作者使用了余弦相似度的标准差来看稳定性。
这里讨论了参数对CQ生成的影响,例如温度参数对任务表现的影响不大。

要点9

从实验部分来看,比较数据来自zero-shot,不同的数据集,不同的参数,但是没有和其他人的方法的比较。我觉得可能是不好比,这种工作不是热点工作,但这样的比较就不太容易被所谓审稿人认可。
但我觉得这样的工作仍然是有意义的,算是个应用测试,能想到去测参数对consistency的影响就很不错了。

要点10

虽然文章涉及了对参数的讨论,但是这类工作的出发点都是找一个老问题,拿大模型来试试,看看效果如何?我之前也是这么想的,所以这类问题容易被人抢先做。看今年的ISWC上的文章,有不少都是借用LLM,老树开新花的。

要点11

回头看,我之前写的文章似乎更没啥意义了。以后再有写文章的需求,得先多了解一些前沿技术,拓宽视野,然后再去考虑可做的点。

http://www.cnnetsun.cn/news/158603.html

相关文章:

  • 2025年软件测试技术发展趋势与从业者应对策略
  • 电驱动(电机+电控)开发验证方法与技巧的高清视频教程,深入讲解精细技术,掌握实用技巧
  • 每天24小时的电价(元/kWh)
  • C#编程下的自定义控件与OpenCVSharp结合应用:卡尺测距功能实现
  • NGBoost-shap方法回归任务,由斯坦福吴恩达团队提出,属于集成模型的一种2019年提出的
  • Langchain-Chatchat Kubernetes集群部署策略
  • Langchain-Chatchat日志监控与性能分析最佳实践
  • Langchain-Chatchat模型微调指南:适配垂直领域任务
  • 如何配置IPv6静态路由?解决企业网络难题
  • 【Linux网络基础】详解 TCP 面向连接 vs UDP 无连接
  • Langchain-Chatchat如何评估问答质量?指标体系构建
  • springboot在线教育系统(11528)
  • 测了多款AI自动生成PPT工具,真正能用的不到一半
  • springboot星之语明星周边产品销售网站的设计与实现(11529)
  • 毕设救星:Spring Boot + Neo4j 打造“医疗知识问答”——基于知识图谱的智能导诊平台
  • 华为网络设备基本配置命令
  • 志同道合交友网站毕业论文+PPT(附源代码+演示视频)
  • 【Java 25 LTS六大核心特性】
  • Langchain-Chatchat助力医疗文档智能检索与问答
  • Langchain-Chatchat如何实现文档相似度比对?查重与去重依据
  • java学习--String和StringBuffer互转
  • 如何用Langchain-Chatchat实现本地化AI智能问答?
  • Langchain-Chatchat如何处理多义词歧义?上下文感知消歧算法
  • Langchain-Chatchat如何实现文档访问统计?了解知识使用情况
  • Langchain-Chatchat与Argo CD持续交付集成:自动化部署流水线
  • Langchain-Chatchat与Consul服务发现集成:动态节点管理
  • Langchain-Chatchat与Airflow工作流集成:复杂ETL流程调度
  • 验证码实现
  • 2.1 CPU脚本性能优化简介
  • Langchain-Chatchat问答系统压测报告:万级QPS承载能力验证