La mayoría de organizaciones empiezan la detección de dominios lookalike con una sola idea: “encontrar dominios a una o dos ediciones de nuestra marca”. Es un buen punto de partida, pero se rompe rápido en el mundo real. Los atacantes optimizan para humanos, no para algoritmos, y combinan varios trucos — typos, cambios de TLD, palabras clave y reutilización de infraestructura — para evitar comprobaciones simples de similitud.
Por qué falla la distancia de edición
La distancia de Levenshtein (u otras métricas de similitud) trata cada carácter por igual. El abuso real no:
- Homoglifos usan caracteres que se ven idénticos entre tipografías (por ejemplo, sustituir “o” por “0” o emplear caracteres Unicode visualmente parecidos).
- Trucos con límites de palabra añaden keywords que cambian el significado: “support”, “secure”, “login”, “verify”, “billing”.
- Cambio de TLD registra la misma etiqueta bajo un TLD más barato o menos regulado.
- Engaño con subdominios mueve la marca a un subdominio, dejando el dominio registrable sin relación.
- Reutilización de infraestructura de campaña hace que el string del dominio sea nuevo, pero el stack de hosting no lo sea.
La detección de lookalikes funciona mejor cuando tratas el nombre de dominio como una señal más entre muchas. Los casos de mayor confianza aparecen cuando varias señales independientes coinciden.
Generar candidatos lookalike
Empieza por cobertura. Tu pipeline debería poder generar y evaluar candidatos en estos patrones:
1. Variantes por typo (errores humanos)
Las familias típicas incluyen transposiciones, caracteres omitidos, caracteres duplicados y sustituciones por teclas adyacentes. Muchos atacantes registran los typos más probables porque también capturan tráfico accidental.
2. Combinaciones marca + keyword
Son de alto riesgo porque encajan directamente con narrativas de phishing. Ejemplos: “{brand}-login”, “{brand}-support”, “{brand}-secure”, “{brand}-billing”. Incluso cuando el token de marca no es un match perfecto, la keyword incrementa mucho la probabilidad de maliciosidad.
3. Variantes de TLD e IDN
Evalúa la misma etiqueta en TLDs relevantes (geográficos y genéricos). Si procesas dominios internacionalizados, normaliza los IDN a una forma canónica y puntúa en función de lo que el usuario ve realmente en la UI del navegador.
Señales de DNS y hosting
Una vez existe el dominio, el comportamiento DNS a menudo revela intención antes de que la página de phishing esté activa.
Patrones de nameservers
Las campañas reutilizan proveedores DNS y pares de nameservers. Identifica clusters donde muchos dominios sospechosos comparten la misma configuración NS o cambian de NS poco después del registro.
Hosting A/AAAA y reputación de ASN
La infraestructura maliciosa se concentra en ciertas redes. Asigna pesos de riesgo en función de:
- Histórico del proveedor de hosting y del ASN.
- Co-hosting por IP con dominios maliciosos conocidos.
- Cambios tipo fast-flux a lo largo del tiempo.
MX y postura de correo
Si un dominio lookalike configura MX pronto, puede usarse para suplantación saliente o para recibir respuestas de víctimas. Revisa también la postura SPF/DMARC; las políticas mal configuradas son comunes en dominios desechables.
Señales de TLS y Certificate Transparency
Los logs de Certificate Transparency (CT) son una fuente potente de alerta temprana. Muchos dominios de phishing solicitan certificados poco después de ser resolubles.
Qué vigilar en CT
- Nuevas entradas SAN que incluyan el token de marca o keywords sospechosas.
- Patrones de emisores reutilizados entre campañas (no es malo por sí mismo, pero ayuda a correlacionar).
- Timing del certificado: certificados emitidos a las pocas horas del registro son un patrón común de pre-lanzamiento.
Señales de contenido web
Cuando el dominio sirve contenido, combina chequeos ligeros (seguros y frecuentes) con análisis más profundos cuando el riesgo ya es alto.
Similitud estructural
En lugar de comparar píxeles, genera huellas de estructura: campos de formulario, árboles DOM, assets clave y bundles comunes. Los kits copian plantillas, así que puedes detectarlos incluso entre marcas distintas.
Cadenas de redirección y cloaking
Busca comportamiento condicional: redirecciones solo para ciertos user agents, geofencing o puertas con CAPTCHA. Son controles anti-análisis; aumentan el riesgo incluso cuando no puedes ver la página final.
Scoring, triaje y falsos positivos
Un modelo de scoring práctico suele tener tres capas:
- Riesgo por nombre: similitud de marca + keywords + TLD.
- Riesgo por infraestructura: correlaciones DNS, hosting, CT.
- Riesgo por contenido: similitud, indicadores de captura de credenciales, cloaking.
Los falsos positivos suelen venir de revendedores, afiliados y dominios legítimos de “fans” o reseñas. Reduce el ruido con listas blancas de partners conocidos y exigiendo al menos una señal no basada en el nombre (infraestructura o contenido) antes de escalar.
Puntos clave
- La similitud del string por sí sola se pierde los lookalikes más dañinos.
- Los logs CT y la postura DNS suelen dar detección más temprana que el crawling web.
- La correlación de infraestructura convierte un incidente confirmado en detección más rápida del siguiente.
- Los casos de alta confianza aparecen por acuerdo multi-señal, no por una única métrica.