Задача 1
Плюсы и минусы PCA
A=UDV⊺
- + Стандартная техника, присутствует практически во всех пакетах, связанных со статистическим анализом или машинным обучением
- + Обычно, сравнительно мало первых главных компонент описывают большую часть дисперсии в данных
- – Метод задуман для работы с объектами в действительных шкалах (идеально, с многомерными нормальными величинами, так как PCA выделяет наиболее информативные направления, то есть направления наибольшей дисперсии) и все оттуда вытекающее.
В реализации алгоритма PCA вычисляется корреляционная матрица C
C=n−1X⊺X=V⊺LV
Которая на самом деле равна
C=n−1UDV⊺VD⊺U⊺=V⊺n−1D2V
Проблема с дискретными величинами в том, что вычисление C в PCA определено только для непрерывных величин (так как предполагается многомерное нормальное распределение). Решить эту проблему мы можем предварительной обработкой категариальных фичей, у которых нет порядка каким-то энкодером (OneHotEncoding), а затем переформульровать корреляцию для разных компонент векторов x таким образом, чтобы она была вычислима также для дискретных величин.
Polychoric correlation
Дискретизируем непрерывную фичу по квантилям, а затем для преобразованной фичи можно считать корреляцию с ординальной фичей.