Dropbox Paper

Задача 1

Плюсы и минусы PCA

A = UDV^\intercal

+ Стандартная техника, присутствует практически во всех пакетах, связанных со статистическим анализом или машинным обучением

+ Обычно, сравнительно мало первых главных компонент описывают большую часть дисперсии в данных

– Метод задуман для работы с объектами в действительных шкалах (идеально, с многомерными нормальными величинами, так как PCA выделяет наиболее информативные направления, то есть направления наибольшей дисперсии) и все оттуда вытекающее.

В реализации алгоритма PCA вычисляется корреляционная матрица

C

C = \frac{X^\intercal X}{n - 1} = V^\intercal L V

Которая на самом деле равна

C = \frac{UDV^\intercal VD^\intercal U^\intercal}{n - 1} = V^\intercal \frac{D^2}{n - 1} V

Проблема с дискретными величинами в том, что вычисление

C

в PCA определено только для непрерывных величин (так как предполагается многомерное нормальное распределение). Решить эту проблему мы можем предварительной обработкой категариальных фичей, у которых нет порядка каким-то энкодером (OneHotEncoding), а затем переформульровать корреляцию для разных компонент векторов

x

таким образом, чтобы она была вычислима также для дискретных величин.

Polychoric correlation

Дискретизируем непрерывную фичу по квантилям, а затем для преобразованной фичи можно считать корреляцию с ординальной фичей.