La fusión de registros probabilisticos, a veces denominada correspondencia difusa (también fusión probabilística o fusión difusa en el contexto de la fusión de bases de datos), adopta un enfoque diferente del problema de fusión de registros al tener en cuenta una gama más amplia de identificadores potenciales, calculando pesos para cada identificador en función de su capacidad estimada para identificar correctamente una coincidencia o una no coincidencia, y utilizando estos pesos para calcular la probabilidad de que dos registros dados se refieran a la misma entidad. Los pares de registros con probabilidades superiores a un determinado límite se consideran coincidentes, mientras que los pares con probabilidades inferiores a otro límite se consideran no coincidentes; los pares que se sitúan entre estos dos límites "Límite (matemática)") se consideran "posibles coincidencias" y pueden tratarse en consecuencia (por ejemplo, revisados por personas, vinculados o no vinculados, según los requisitos). Mientras que la vinculación determinista de registros requiere la programación previa de una serie de reglas potencialmente complejas, los métodos de fusión de registros probalilistica pueden "entrenarse" para funcionar bien con mucha menos intervención humana.[1].
Muchos algoritmos probabilísticos de vinculación de registros asignan pesos de coincidencia/no coincidencia a los identificadores por medio de dos probabilidades llamadas u y m. La probabilidad u es la probabilidad de que un identificador en dos registros no coincidentes coincida por pura casualidad. Por ejemplo, la probabilidad u para el mes de nacimiento (donde hay doce valores que se distribuyen aproximadamente de forma uniforme) es 1/12 0,083; los identificadores con valores que no se distribuyen de forma uniforme tendrán diferentes probabilidades u para diferentes valores (posiblemente incluyendo los valores perdidos). La probabilidad m es la probabilidad de que un identificador en pares coincidentes coincida (o sea suficientemente similar, como cadenas con baja distancia Jaro-Winkler o Levenshtein). Este valor sería 1.0 en el caso de datos perfectos, pero dado que esto es raramente (si es que alguna vez lo es) cierto, puede ser estimado. Esta estimación puede realizarse basándose en el conocimiento previo de los conjuntos de datos, identificando manualmente un gran número de pares coincidentes y no coincidentes para "entrenar" el algoritmo de fusión de registros probabilistica, o ejecutando iterativamente el algoritmo para obtener estimaciones más cercanas de la probabilidad m. Si se estimara un valor de 0,95 para la probabilidad m, las ponderaciones de coincidencia/no coincidencia para el identificador del mes de nacimiento serían:.
Los mismos cálculos se harían para todos los demás identificadores considerados para encontrar su peso de coincidencia/no coincidencia. A continuación, cada identificador de un registro se compararía con el identificador correspondiente de otro registro para calcular el peso total del par: el peso de coincidencia se añade al total en curso siempre que un par de identificadores coincida, mientras que el peso de no coincidencia se añade (es decir, el total en curso disminuye) siempre que el par de identificadores no coincida. El peso total resultante se compara con los límites antes mencionados para determinar si el par debe estar vinculado, no vinculado o reservado para una consideración especial (por ejemplo, la validación manual)[2][11].
Determinar dónde establecer los límites de coincidencia/no coincidencia es un acto de equilibrio entre la obtención de una sensibilidad aceptable (o exhaustividad, la proporción de registros realmente coincidentes que son vinculados por el algoritmo) y el valor predictivo positivo (o precisión, la proporción de registros vinculados por el algoritmo que realmente coinciden). Existen varios métodos manuales y automatizados para predecir los mejores límites, y algunos paquetes de software de fusión de registros tienen herramientas integradas para ayudar al usuario a encontrar los valores más aceptables. Dado que esta tarea puede ser muy exigente desde el punto de vista informático, sobre todo en el caso de grandes conjuntos de datos, a menudo se utiliza una técnica conocida como bloqueo para mejorar la eficacia. El bloqueo intenta restringir las comparaciones a sólo aquellos registros en los que coinciden uno o más identificadores particularmente discriminantes, lo que tiene el efecto de aumentar el valor predictivo positivo (precisión) a expensas de la sensibilidad (exhaustividad)[11].Por ejemplo, el bloqueo basado en un apellido y un código postal fonéticamente codificado reduciría el número total de comparaciones necesarias y mejoraría las posibilidades de que los registros vinculados fueran correctos (puesto que los dos identificadores ya coinciden), pero potencialmente se perderían registros que se refirieran a la misma persona cuyo apellido o código postal fuera diferente (debido a un matrimonio o un traslado, por ejemplo). El bloqueo basado en el mes de nacimiento, un identificador más estable que se espera que cambie sólo en caso de error en los datos, proporcionaría una ganancia más modesta en el valor predictivo positivo y una pérdida en la sensibilidad, pero crearía sólo doce grupos distintos los cuales, para conjuntos de datos extremadamente grandes, pueden no proporcionar una gran mejora neta en la velocidad de cálculo. Por lo tanto, los amplios sistemas de fusión de registros suelen utilizar múltiples pases de bloqueo para agrupar los datos de diversas maneras con el fin de obtener grupos de registros que deban compararse entre sí.[3].
Aprendizaje automático.
En los últimos años, se han utilizado una variedad de técnicas de aprendizaje automático en la vinculación de registros. Se ha reconocido que el algoritmo clásico de Fellegi-Sunter para la vinculación de registros probabilísticos descrito anteriormente es equivalente al algoritmo Naive Bayes en el campo del aprendizaje automático y adolece de la misma suposición de la independencia de sus características ( una suposición que normalmente no es cierta). A menudo, se puede lograr una mayor precisión mediante el uso de otras técnicas de aprendizaje automático, incluido un perceptrón de una sola capa. Junto con las tecnologías distribuidas, la precisión y la escala para la vinculación de registros se pueden mejorar aún más.