From 713bbab751453e22b673d10a9b89da9d8e3febf3 Mon Sep 17 00:00:00 2001 From: Vladimir Protsenko Date: Tue, 7 Sep 2021 11:05:52 +0000 Subject: [PATCH] Update lab2.md --- lab2.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/lab2.md b/lab2.md index d66f4a0..0bb5987 100644 --- a/lab2.md +++ b/lab2.md @@ -191,7 +191,7 @@ frame1['cluster'].value_counts() frame_minik['cluster'].value_counts() ``` -Из-за большого количества запросов не совсем удобно смотреть таблицы и хотелось бы больше интерактивности для понимания. Поэтому сделаем графики взаимного расположения запросов друг относительного друга. Сначала необходимо вычислить расстояние между векторами. Для этого можно применить косинусное расстояние. При этом можно использовать вычитание из единицы, чтобы не было отрицательных значений и находиться в пределах от $0$ до $1$. +Из-за большого количества запросов не совсем удобно смотреть таблицы и хотелось бы больше интерактивности для понимания. Поэтому сделаем графики взаимного расположения запросов друг относительного друга. Сначала необходимо вычислить расстояние между векторами. Для этого можно применить косинусное расстояние. При этом можно использовать вычитание из единицы, чтобы не было отрицательных значений и находиться в пределах от $`0`$ до $`1`$. Так как графики будут двух- и трехмерные, а исходная матрица расстояний n-мерная, то придется применять алгоритмы снижения размерности. На выбор есть много алгоритмов (MDS, PCA, t-SNE), но остановим выбор на Incremental PCA. Этот выбор сделан вследствие выигрыша данного алгоритма в ресурсоемкости.