当前位置: 首页 > news >正文

主动学习数据集划分

此代码在20次循环里通过样本idx将数据集划分为三部分:测试集、未标注样本、已标注样本(每个类至少有一个已标注样本)

df = pd.read_csv("datasets/Automobile.csv", header=None) X = df.iloc[:, :-1].to_numpy() y = df.iloc[:, -1].to_numpy() TEST_SIZE = 0.3 UNLABELED_SIZE = 0.85 # 未标注池占非测试部分的比例,较大 for split_i in range(20): print(f" 第 {split_i} 次循环") seed = 42 + split_i * 100 rng = np.random.default_rng(seed) # 1) 分层抽测试集 sss = StratifiedShuffleSplit(n_splits=1, test_size=TEST_SIZE, random_state=seed) rest_idx, test_idx = next(sss.split(X, y)) y_rest = y[rest_idx] X_test , y_test = X[test_idx] , y[test_idx] # 2) 每个类别至少 1 个放入 labeled classes = np.unique(y_rest) one_per_class = [rng.choice(np.where(y_rest == c)[0], size=1)[0] for c in classes] # 3) 余下部分按比例抽 unlabeled,其余全归 labeled remaining = np.setdiff1d(np.arange(len(y_rest)), one_per_class) #生成剩余数组下标 n_unlabeled = max(1, int(len(remaining) * UNLABELED_SIZE)) unlabeled = rng.choice(remaining, size=n_unlabeled, replace=False) labeled = np.setdiff1d(np.arange(len(y_rest)), unlabeled)
http://www.cnnetsun.cn/news/2591804.html

相关文章:

  • JAVA基于SSM/Vue/Springboot的家用电器在线销售系统的设计与实现 LW
  • 从零构建AI记忆系统:基于向量数据库与LLM的持久化上下文实践
  • 构建367引擎自治系统:自动化价值创造与社区互助的技术实践
  • TypeScript与Zapier SDK构建智能HubSpot公司信息补全工作流
  • 多模态时代下AI软硬件产业链的投资边界与配置权重
  • 具身智能计算方案与感知-决策-控制一体化
  • AI代理在生产数据库运维中的五大认知盲区与实战校正
  • 20260526_204029_RAG外部检索是多余的,英伟达最新成果颠覆认知
  • LLM网关:从成本失控到智能路由,构建AI应用的核心基础设施
  • RAG检索结果不够准?揭秘“双塔+单塔“组合背后的精准秘诀!秒懂工业级RAG架构核心!
  • SVM模型可解释性新视角:正交多项式核与ORCA框架深度解析
  • ESP32硬件IIC驱动SHT30温湿度传感器,从官方例程到实战避坑(附完整工程)
  • 你的电机速度跳来跳去?STM32 HAL库编码器测速的滤波与防溢出实战指南
  • 告别重复登录!用Playwright连接已打开的Chrome浏览器,保留你的会话和Cookie
  • 用STM32和OLED屏做个土壤湿度监测仪(附完整代码和接线图)
  • 别再只测总功耗了!用万用表实测ZCU104开发板在不同Linux负载下的电流变化
  • ViT如何‘喂’给Diffusion Model?图解U-ViT中Patch、Time Token与Long Skip的融合细节
  • 避坑指南:解决Unity Standard Assets导入后GUIText报错(附两种代码修改方案)
  • 从零构建本地语音AI智能体:技术选型、架构与实战优化
  • ESP32开发环境搭建进阶:从Arduino IDE到VSCode+PlatformIO的平滑迁移指南
  • 从“隔离”到“连接”:手把手教你用数字隔离器(如Silicon Labs的Si86xx)搞定STM32与树莓派的“安全对话”
  • 两分钟为AI助手注入实时金融分析能力:FinanceKit MCP实战指南
  • 5分钟搞定Windows AirPods电量显示与低延迟音频优化
  • 别再只会apt install了:深入理解Debian/Ubuntu中ps、netstat等命令的包依赖关系
  • 突破向量检索瓶颈:实现微秒级Graph-RAG的架构设计与性能优化
  • AI时代设计胜任力框架:从界面输出到系统定义的转型路径
  • 为内部工具集成 AI 能力时如何通过统一 API 网关简化运维
  • 芯片供电网络设计避坑指南:当PNS遇到IR Drop和Congestion冲突时怎么办?
  • Zookeeper可视化工具选型指南:为什么我最终选择了PrettyZoo(附3.5.7版本配置避坑点)
  • HyperAgents:AI智能体如何实现自主代码优化与安全自我改进