Detección de dominios lookalike: señales prácticas más allá de la distancia de edición

La mayoría de organizaciones empiezan la detección de dominios lookalike con una sola idea: “encontrar dominios a una o dos ediciones de nuestra marca”. Es un buen punto de partida, pero se rompe rápido en el mundo real. Los atacantes optimizan para humanos, no para algoritmos, y combinan varios trucos — typos, cambios de TLD, palabras clave y reutilización de infraestructura — para evitar comprobaciones simples de similitud.

Por qué falla la distancia de edición

La distancia de Levenshtein (u otras métricas de similitud) trata cada carácter por igual. El abuso real no:

Homoglifos usan caracteres que se ven idénticos entre tipografías (por ejemplo, sustituir “o” por “0” o emplear caracteres Unicode visualmente parecidos).
Trucos con límites de palabra añaden keywords que cambian el significado: “support”, “secure”, “login”, “verify”, “billing”.
Cambio de TLD registra la misma etiqueta bajo un TLD más barato o menos regulado.
Engaño con subdominios mueve la marca a un subdominio, dejando el dominio registrable sin relación.
Reutilización de infraestructura de campaña hace que el string del dominio sea nuevo, pero el stack de hosting no lo sea.

Regla del modelo de amenazas

La detección de lookalikes funciona mejor cuando tratas el nombre de dominio como una señal más entre muchas. Los casos de mayor confianza aparecen cuando varias señales independientes coinciden.

Generar candidatos lookalike

Empieza por cobertura. Tu pipeline debería poder generar y evaluar candidatos en estos patrones:

1. Variantes por typo (errores humanos)

Las familias típicas incluyen transposiciones, caracteres omitidos, caracteres duplicados y sustituciones por teclas adyacentes. Muchos atacantes registran los typos más probables porque también capturan tráfico accidental.

2. Combinaciones marca + keyword

Son de alto riesgo porque encajan directamente con narrativas de phishing. Ejemplos: “{brand}-login”, “{brand}-support”, “{brand}-secure”, “{brand}-billing”. Incluso cuando el token de marca no es un match perfecto, la keyword incrementa mucho la probabilidad de maliciosidad.

3. Variantes de TLD e IDN

Evalúa la misma etiqueta en TLDs relevantes (geográficos y genéricos). Si procesas dominios internacionalizados, normaliza los IDN a una forma canónica y puntúa en función de lo que el usuario ve realmente en la UI del navegador.

Señales de DNS y hosting

Una vez existe el dominio, el comportamiento DNS a menudo revela intención antes de que la página de phishing esté activa.

Patrones de nameservers

Las campañas reutilizan proveedores DNS y pares de nameservers. Identifica clusters donde muchos dominios sospechosos comparten la misma configuración NS o cambian de NS poco después del registro.

Hosting A/AAAA y reputación de ASN

La infraestructura maliciosa se concentra en ciertas redes. Asigna pesos de riesgo en función de:

Histórico del proveedor de hosting y del ASN.
Co-hosting por IP con dominios maliciosos conocidos.
Cambios tipo fast-flux a lo largo del tiempo.

MX y postura de correo

Si un dominio lookalike configura MX pronto, puede usarse para suplantación saliente o para recibir respuestas de víctimas. Revisa también la postura SPF/DMARC; las políticas mal configuradas son comunes en dominios desechables.

Señales de TLS y Certificate Transparency

Los logs de Certificate Transparency (CT) son una fuente potente de alerta temprana. Muchos dominios de phishing solicitan certificados poco después de ser resolubles.

Qué vigilar en CT

Nuevas entradas SAN que incluyan el token de marca o keywords sospechosas.
Patrones de emisores reutilizados entre campañas (no es malo por sí mismo, pero ayuda a correlacionar).
Timing del certificado: certificados emitidos a las pocas horas del registro son un patrón común de pre-lanzamiento.

Señales de contenido web

Cuando el dominio sirve contenido, combina chequeos ligeros (seguros y frecuentes) con análisis más profundos cuando el riesgo ya es alto.

Similitud estructural

En lugar de comparar píxeles, genera huellas de estructura: campos de formulario, árboles DOM, assets clave y bundles comunes. Los kits copian plantillas, así que puedes detectarlos incluso entre marcas distintas.

Cadenas de redirección y cloaking

Busca comportamiento condicional: redirecciones solo para ciertos user agents, geofencing o puertas con CAPTCHA. Son controles anti-análisis; aumentan el riesgo incluso cuando no puedes ver la página final.

Scoring, triaje y falsos positivos

Un modelo de scoring práctico suele tener tres capas:

Riesgo por nombre: similitud de marca + keywords + TLD.
Riesgo por infraestructura: correlaciones DNS, hosting, CT.
Riesgo por contenido: similitud, indicadores de captura de credenciales, cloaking.

Los falsos positivos suelen venir de revendedores, afiliados y dominios legítimos de “fans” o reseñas. Reduce el ruido con listas blancas de partners conocidos y exigiendo al menos una señal no basada en el nombre (infraestructura o contenido) antes de escalar.

Puntos clave

La similitud del string por sí sola se pierde los lookalikes más dañinos.
Los logs CT y la postura DNS suelen dar detección más temprana que el crawling web.
La correlación de infraestructura convierte un incidente confirmado en detección más rápida del siguiente.
Los casos de alta confianza aparecen por acuerdo multi-señal, no por una única métrica.