Задача 1
Плюсы и минусы PCA

A=UDVA = UDV^\intercal

  • + Стандартная техника, присутствует практически во всех пакетах, связанных со статистическим анализом или машинным обучением
  • + Обычно, сравнительно мало первых главных компонент описывают большую часть дисперсии в данных
  • – Метод задуман для работы с объектами в действительных шкалах (идеально, с многомерными нормальными величинами, так как PCA выделяет наиболее информативные направления, то есть направления наибольшей дисперсии) и все оттуда вытекающее.

В реализации алгоритма PCA вычисляется корреляционная матрица CC

C=XXn1=VLVC = \frac{X^\intercal X}{n - 1} = V^\intercal L V

Которая на самом деле равна

C=UDVVDUn1=VD2n1VC = \frac{UDV^\intercal VD^\intercal U^\intercal}{n - 1} = V^\intercal \frac{D^2}{n - 1} V

Проблема с дискретными величинами в том, что вычисление CC в PCA определено только для непрерывных величин (так как предполагается многомерное нормальное распределение). Решить эту проблему мы можем предварительной обработкой категариальных фичей, у которых нет порядка каким-то энкодером (OneHotEncoding), а затем переформульровать корреляцию для разных компонент векторов xx таким образом, чтобы она была вычислима также для дискретных величин.

Polychoric correlation

Дискретизируем непрерывную фичу по квантилям, а затем для преобразованной фичи можно считать корреляцию с ординальной фичей.