当前位置：首页 > news >正文

使用PCA、t-SNE和UMAP进行数据降维并应用贝叶斯分类器

news 2026/6/16 13:06:41

#t-SNE #UMAP #PCA #数据降维 #贝叶斯分类器 #多分类 1 分别利用PCA、t-SNE、UMAP对数据进行降维。 2 利用Bayesian分类器对降维后的数据进行训练、预测。 3 计算结果的混淆矩阵，对比请看图。（MATLAB 代码+注释）

在数据科学中，降维技术是处理高维数据的重要手段，它可以帮助我们更好地理解数据的结构，同时减少计算复杂度。本文将介绍三种常见的降维技术：PCA（主成分分析）、t-SNE（t-分布随机邻域嵌入）和UMAP（均匀流形近邻投影），并使用贝叶斯分类器对降维后的数据进行分类。最后，通过混淆矩阵来比较不同降维方法的效果。

1. 数据降维

PCA（主成分分析）

PCA是一种线性降维技术，它通过找到数据的主要成分来降低数据的维度。PCA的目标是保留数据中的最大方差。

MATLAB代码：

% 加载数据 load fisheriris; X = meas; y = species; % 标准化数据 X_normalized = normalize(X); % 应用PCA降维到二维 [coeff,score,latent] = pca(X_normalized); reduced_data_pca = score(:,1:2); % 可视化PCA结果 figure; gscatter(reduced_data_pca(:,1), reduced_data_pca(:,2), y, [], [], [], 'filled'); title('PCA降维后的数据分布');

t-SNE

t-SNE是一种非线性降维技术，特别适用于高维数据的可视化。它能够很好地保留数据的局部结构。

MATLAB代码：

% 应用t-SNE降维到二维 tsneModel = tsne(X_normalized, 'NumDimensions', 2); reduced_data_tsne = tsneModel; % 可视化t-SNE结果 figure; gscatter(reduced_data_tsne(:,1), reduced_data_tsne(:,2), y, [], [], [], 'filled'); title('t-SNE降维后的数据分布');

UMAP

UMAP是一种最近提出的降维技术，它结合了t-SNE和非线性降维的优点，能够更好地保留数据的全局和局部结构。

MATLAB代码：

% 应用UMAP降维到二维 umapModel = umap.fit(X_normalized); reduced_data_umap = umapModel.transform(X_normalized); % 可视化UMAP结果 figure; gscatter(reduced_data_umap(:,1), reduced_data_umap(:,2), y, [], [], [], 'filled'); title('UMAP降维后的数据分布');

2. 贝叶斯分类器

贝叶斯分类器是一种基于概率的分类方法。在本例中，我们将使用MATLAB中的fitcnb函数来训练一个朴素贝叶斯分类器。

MATLAB代码：

% 划分训练集和测试集 cv = cvpartition(size(y,1), 'Holdout', 0.3); idx_train = cv.training; idx_test = cv.test; % 对每种降维后的数据进行分类 dims = [reduced_data_pca, reduced_data_tsne, reduced_data_umap]; titles = {'PCA', 't-SNE', 'UMAP'}; for i = 1:3 X_train = dims{i}(idx_train,:); y_train = y(idx_train,:); X_test = dims{i}(idx_test,:); y_test = y(idx_test,:); % 训练贝叶斯分类器 model = fitcnb(X_train, y_train); % 预测 y_pred = predict(model, X_test); % 计算混淆矩阵 C = confusionmat(y_test, y_pred); acc = sum(diag(C)) / sum(C(:)) * 100; figure; plotconfusion(C); title(sprintf('%s分类混淆矩阵（准确率=%.2f%%）', titles{i}, acc)); end