Definición
Es un método de codificación de variables categóricas en variables numéricas, eso lo hace determinar un valor para cada categoría, expresarlo en binario y ponerlo en columnas. Esto es mejor que el One hot encoding ya que la cantidad de columnas es
Ejemplo
Tenemos la siguiente tabla:
| Ciudad | Gasto | Ad |
|---|---|---|
| Moscu | 100 | 0 |
| Moscu | 20 | 1 |
| Paris | 105 | 1 |
| Moscu | 50 | 0 |
| Roma | 120 | 0 |
| Paris | 40 | 0 |
| Roma | 80 | 0 |
| Londres | 50 | 1 |
Al codificarla entremos
| Gasto | Ad | C2 | C1 | C0 |
|---|---|---|---|---|
| 100 | 0 | 0 | 0 | 1 |
| 20 | 1 | 0 | 0 | 1 |
| 105 | 1 | 0 | 1 | 0 |
| 50 | 0 | 0 | 0 | 1 |
| 120 | 0 | 0 | 1 | 1 |
| 40 | 0 | 0 | 1 | 0 |
| 80 | 0 | 0 | 1 | 1 |
| 50 | 1 | 1 | 0 | 0 |
Con Moscu = 001, Paris = 010, Roma = 011, y Londres = 100.