Eliminador de líneas duplicadas — Limpia listas al instante
Pega cualquier lista de líneas y esta herramienta elimina todos los duplicados, conservando solo las entradas únicas. Las opciones permiten controlar la sensibilidad a mayúsculas, recortar los espacios iniciales y finales antes de comparar, y elegir si conservar la primera o la última aparición de cada grupo de duplicados.
Pega texto arriba para eliminar las líneas duplicadas.
Cómo funciona
Cuándo las líneas duplicadas realmente importan
Las líneas duplicadas son inofensivas en la poesía, pero crean problemas reales en datos estructurados. En un archivo CSV, una fila duplicada infla silenciosamente el recuento de registros, sesga los agregados y puede provocar violaciones de clave primaria al importar el archivo a una base de datos. En archivos de registro del servidor, entradas de registro idénticas repetidas de un proceso que falla pueden llenar un disco en cuestión de minutos. En archivos de configuración, las claves duplicadas se sobrescriben silenciosamente — o peor aún, causan errores de análisis — dependiendo del analizador.
Los repositorios de código también sufren de duplicación accidental de líneas: errores de copiar y pegar en listas de dependencias (requirements.txt, package.json), declaraciones de importación repetidas o entradas duplicadas en .gitignore. Las comprobaciones automatizadas de CI a menudo las detectan, pero pegar y deduplicar rápidamente antes de confirmar es más rápido que depurar un fallo de pipeline.
Las líneas en blanco merecen atención especial. Dos líneas en blanco consecutivas son técnicamente duplicadas, pero muchos formatos de texto (Markdown, fuente Python, cuerpos de correo electrónico) usan líneas en blanco dobles como separadores intencionales. La opción 'recortar espacios' de esta herramienta normaliza las líneas que parecen estar en blanco debido a espacios extraviados, sin destruir las líneas en blanco intencionales — el resultado depende de tu contenido específico, así que revisa la salida.
Sensibilidad a mayúsculas: cuándo importa y cuándo no
De forma predeterminada, esta herramienta compara líneas sin distinción de mayúsculas, por lo que 'Apple', 'apple' y 'APPLE' se consideran la misma línea y solo se conserva la primera. Esta es la configuración correcta para listas legibles por humanos como nubes de etiquetas, listas de palabras clave, nombres de ciudades y direcciones de correo electrónico donde deseas fusionar variantes de la misma cosa.
El modo sensible a mayúsculas es esencial para el código. En Python, los imports 'os' y 'OS' son técnicamente diferentes (aunque 'OS' fallaría en tiempo de ejecución en la mayoría de los sistemas), y los nombres de variables como 'Result' y 'result' son identificadores distintos. Las palabras clave de SQL son insensibles a mayúsculas por convención, pero los nombres de tablas son sensibles a mayúsculas en los sistemas de archivos de Linux. Al deduplicar fragmentos de código, claves de configuración o rutas, habilita siempre el modo sensible a mayúsculas.
Un punto intermedio práctico es ejecutar la herramienta dos veces: una vez sin distinción de mayúsculas para detectar duplicados casi idénticos para revisión, y una vez con distinción de mayúsculas para la deduplicación definitiva. Este enfoque de dos pasadas detecta errores tipográficos y capitalización inconsistente que la dedup automática por sí sola pasaría por alto.
Cómo funciona el manejo de líneas en blanco y espacios
Los espacios finales son invisibles en la mayoría de los editores de texto y operaciones de copiar y pegar, pero hacen que las líneas se comparen como desiguales. 'apple ' (dos espacios finales) y 'apple' son cadenas diferentes, por lo que sin el recorte habilitado conservarías ambas — dejando un duplicado sutil en la salida. La opción 'Recortar espacios' elimina los espacios iniciales y finales de cada línea antes de comparar, sin modificar el contenido de las líneas de salida (el texto recortado se escribe en el resultado).
Los espacios iniciales en código sangrado o listas esquemáticas son significativos: recortarlos destruiría la jerarquía de sangría. Para código o esquemas estructurados, deshabilita el recorte y usa el modo sensible a mayúsculas para preservar el contenido exacto de las líneas. Para listas de texto plano como palabras clave, nombres de ciudades o rutas de URL, el recorte es casi siempre la elección correcta.
El interruptor 'conservar primero vs conservar último' importa más cuando tu lista tiene metadatos adjuntos a posiciones. Por ejemplo, un registro de eventos donde las entradas posteriores representan estados más recientes — en ese escenario, conservar la última aparición (registro más reciente para cada clave) es semánticamente correcto, mientras que conservar la primera preservaría datos obsoletos.
Preguntas frecuentes
›¿La herramienta preserva el orden de las líneas?
Sí. Las líneas no se ordenan — solo se eliminan los duplicados. El orden relativo de las líneas supervivientes es idéntico al orden de entrada.
›¿Qué se considera un duplicado?
Dos líneas son duplicadas si son idénticas después de aplicar las opciones elegidas (cambio de mayúsculas y/o recorte de espacios). Solo se compara el contenido del texto; los números de línea y las posiciones no se consideran.
›¿Se eliminarán las líneas en blanco?
Las líneas en blanco solo se eliminan si son duplicadas entre sí. Si tu texto tiene tres líneas en blanco consecutivas y tienes 'Conservar primera' habilitada, solo sobrevive la primera línea en blanco. Si quieres eliminar todas las líneas en blanco, usa un clasificador de texto con la opción 'eliminar líneas vacías'.
›¿Qué hace 'Conservar la última aparición'?
Cuando 'Conservar primera' está desmarcada, la herramienta conserva la última aparición de cada grupo de duplicados en lugar de la primera. El resultado sigue apareciendo en el orden del documento original — solo cambia la instancia que sobrevive.
›¿Puedo usar esto para deduplicar listas de correo electrónico?
Sí. Pega una dirección de correo electrónico por línea. Usa el modo insensible a mayúsculas (el predeterminado) ya que las direcciones de correo electrónico no distinguen mayúsculas por especificación. El recorte de espacios también se recomienda para datos de correo electrónico copiados y pegados.
›¿Hay un límite de líneas?
No hay límite forzado. La herramienta procesa todo en la memoria de tu navegador. En la práctica, los navegadores modernos manejan cientos de miles de líneas sin retrasos notables.
›¿Mis datos abandonan el navegador?
No. Todo el procesamiento ocurre completamente en JavaScript en tu dispositivo. Nada se carga en ningún servidor.
›¿Cómo deduplico un CSV por una columna específica?
Esta herramienta funciona en líneas completas. Para deduplicar por una sola columna, primero ordena o extrae esa columna en una lista de una sola columna, deduplica y luego vuelve a unir. Para conjuntos de datos grandes, una herramienta dedicada como pandas de Python o la función UNIQUE de una hoja de cálculo es más precisa.
Herramientas relacionadas
Última actualización: