当前位置：首页 > news >正文

【observability】【observability06】使用PostHog和Langfuse分析和调试LlamaIndex应用程序

news 2026/6/8 3:22:48

1. 案例概述

本案例展示了如何使用LlamaIndex构建一个RAG（检索增强生成）应用程序，使用Langfuse追踪操作步骤，并在PostHog中分析数据。具体来说，我们将创建一个关于刺猬护理的聊天应用程序，使用Mistral模型处理查询，并通过Langfuse和PostHog进行监控和分析。

关键组件介绍

Langfuse

Langfuse是一个开源的LLM工程平台，旨在帮助工程师理解和优化用户与语言模型应用的交互。它提供跟踪、调试和改进LLM性能的工具，可用于真实世界的用例。Langfuse提供托管云解决方案和本地或自托管部署选项。

PostHog

PostHog是一个流行的产品分析选择。将Langfuse的LLM分析与PostHog的产品分析相结合，可以轻松实现：

分析用户参与度：确定用户与特定LLM功能的交互频率，了解他们的整体活动模式
关联反馈与行为：查看在Langfuse中捕获的用户反馈如何与PostHog中的用户行为相关联
监控LLM性能：跟踪和分析模型成本、延迟和用户反馈等指标，以优化LLM性能

LlamaIndex

LlamaIndex是一个数据框架，旨在将LLM与外部数据源连接。它帮助有效地结构化、索引和查询数据，使开发人员更容易构建高级LLM应用程序。

2. 技术栈与核心依赖

核心依赖库

llama-index- LlamaIndex核心库，用于构建RAG应用
llama-index-llms-mistralai- Mistral AI模型集成
llama-index-embeddings-mistralai- Mistral AI嵌入模型集成
langfuse- Langfuse客户端，用于LLM追踪和分析
openinference-instrumentation-llama-index- OpenInference LlamaIndex工具，用于自动捕获操作
wget- 用于下载数据文件
nest_asyncio- 允许同步和异步代码一起使用

注意：本示例需要Mistral API密钥和Langfuse API密钥才能正常运行。

3. 环境配置

步骤1：安装依赖

%pip install llama-index llama-index-llms-mistralai llama-index-embeddings-mistralai nest_asyncio --upgrade %pip install langfuse openinference-instrumentation-llama-index wget

步骤2：配置API密钥

import os # 设置Mistral API密钥 os.environ["MISTRAL_API_KEY"] = "***" # 设置Langfuse API密钥 os.environ["LANGFUSE_PUBLIC_KEY"] = "pk-lf-..." os.environ["LANGFUSE_SECRET_KEY"] = "sk-lf-..." os.environ["LANGFUSE_HOST"] = "https://cloud.langfuse.com" # 🇪🇺 欧洲区域 # os.environ["LANGFUSE_HOST"] = "https://us.cloud.langfuse.com" # 🇺🇸 美国区域

步骤3：导入必要的库

# 确保同步和异步代码可以一起使用 import nest_asyncio nest_asyncio.apply() # 导入并设置LlamaIndex from llama_index.llms.mistralai import MistralAI from llama_index.embeddings.mistralai import MistralAIEmbedding from llama_index.core import Settings # 导入Langfuse相关库 from langfuse import get_client, observe from openinference.instrumentation.llama_index import LlamaIndexInstrumentor # 其他工具 import wget from llama_index.core import SimpleDirectoryReader, VectorStoreIndex

4. 案例实现

步骤1：设置LlamaIndex和Mistral

# 定义LLM和嵌入模型 llm = MistralAI(model="open-mixtral-8x22b", temperature=0.1) embed_model = MistralAIEmbedding(model_name="mistral-embed") # 在Settings对象中设置LLM和嵌入模型 Settings.llm = llm Settings.embed_model = embed_model

这里我们使用Mistral的open-mixtral-8x22b模型作为语言模型，mistral-embed作为嵌入模型，并将它们设置为LlamaIndex的全局默认设置。

步骤2：初始化Langfuse

from langfuse import get_client langfuse = get_client() # 验证连接 if langfuse.auth_check(): print("Langfuse客户端已认证并准备就绪！") else: print("认证失败。请检查您的凭据和主机。") # 初始化LlamaIndex工具 LlamaIndexInstrumentor().instrument()

我们初始化Langfuse客户端并验证连接，然后使用OpenInference LlamaIndex工具自动捕获LlamaIndex操作并将OpenTelemetry (OTel) spans导出到Langfuse。

步骤3：下载数据

import wget # 下载刺猬护理指南PDF url = "https://www.pro-igel.de/downloads/merkblaetter_engl/wildtier_engl.pdf" wget.download(url, "./hedgehog.pdf") # 使用LlamaIndex SimpleDirectoryReader加载PDF hedgehog_docs = SimpleDirectoryReader( input_files=["./hedgehog.pdf"] ).load_data()

我们下载一个关于刺猬护理的PDF文件，并使用LlamaIndex的SimpleDirectoryReader加载它，作为我们RAG应用的数据源。

步骤4：构建刺猬文档的RAG

from llama_index.core import VectorStoreIndex # 创建向量索引 hedgehog_index = VectorStoreIndex.from_documents(hedgehog_docs) # 创建可查询引擎 hedgehog_query_engine = hedgehog_index.as_query_engine(similarity_top_k=5) # 查询引擎并打印响应 response = hedgehog_query_engine.query("哪些刺猬需要帮助？") print(response)

我们使用VectorStoreIndex创建刺猬文档的向量嵌入，然后将其转换为可查询引擎，以便基于查询检索信息。

步骤5：实现用户反馈（可选）

@observe() def hedgehog_helper(user_message): response = hedgehog_query_engine.query(user_message) trace_id = langfuse.get_current_trace_id() print(response) return trace_id # 调用函数并获取trace_id trace_id = hedgehog_helper("我可以把刺猬当作宠物养吗？") # 为trace评分，例如添加用户反馈 langfuse.create_score( trace_id=trace_id, name="user-explicit-feedback", value=0.9, data_type="NUMERIC", # 可选，如果未提供则推断 comment="很好知道！", # 可选 )

我们使用Langfuse的observe()装饰器自动为顶级函数创建trace，为任何嵌套函数创建spans。然后使用create_score()方法存储用户反馈（如赞/踩或评论），这些分数可以在PostHog中进行分析。