A fusão probabilística de registros, às vezes chamada de correspondência difusa (também fusão probabilística ou fusão difusa no contexto da fusão de bancos de dados), adota uma abordagem diferente para o problema de fusão de registros, considerando uma gama mais ampla de identificadores potenciais, calculando pesos para cada identificador com base em sua capacidade estimada de identificar corretamente uma correspondência ou não correspondência e usando esses pesos para calcular a probabilidade de que dois registros fornecidos se refiram à mesma entidade. Pares de registros com probabilidades superiores a um determinado limite são considerados correspondentes, enquanto pares com probabilidades inferiores a outro limite são considerados não correspondidos; pares que ficam entre esses dois limites "Limite (matemática)") são considerados "correspondências potenciais" e podem ser tratados adequadamente (por exemplo, revisados por humanos, vinculados ou desvinculados, dependendo dos requisitos). Embora a vinculação determinística de registros exija a pré-programação de uma série de regras potencialmente complexas, os métodos probalísticos de mesclagem de registros podem ser "treinados" para funcionar bem com muito menos intervenção humana.[1].
Muitos algoritmos de ligação de registros probabilísticos atribuem pesos de correspondência/não correspondência a identificadores usando duas probabilidades chamadas u e m. A probabilidade u é a probabilidade de que um identificador em dois registros sem correspondência corresponda por puro acaso. Por exemplo, a probabilidade u para o mês de nascimento (onde há doze valores distribuídos aproximadamente uniformemente) é 1/12 0,083; identificadores com valores que não são distribuídos uniformemente terão probabilidades diferentes u para valores diferentes (possivelmente incluindo valores ausentes). A probabilidade m é a probabilidade de um identificador em pares correspondentes corresponder (ou ser suficientemente semelhante, como strings com baixa distância de Jaro-Winkler ou Levenshtein). Este valor seria 1,0 no caso de dados perfeitos, mas como isso raramente (ou nunca) é verdade, pode ser estimado. Esta estimativa pode ser feita com base no conhecimento prévio dos conjuntos de dados, identificando manualmente um grande número de pares correspondentes e não correspondentes para "treinar" o algoritmo de fusão de registros probabilísticos, ou executando iterativamente o algoritmo para obter estimativas mais próximas da probabilidade m. Se um valor de 0,95 fosse estimado para a probabilidade m, os pesos de correspondência/não correspondência para o identificador do mês de nascimento seriam:.
Os mesmos cálculos seriam feitos para todos os outros identificadores considerados para encontrar seu peso de correspondência/não correspondência. Cada identificador em um registro seria então comparado ao identificador correspondente em outro registro para calcular o peso total do par: o peso correspondente é adicionado ao total acumulado sempre que um par de identificadores corresponde, enquanto o peso não correspondente é adicionado (ou seja, o total acumulado é decrementado) sempre que o par de identificadores não corresponde. O peso total resultante é comparado com os limites mencionados acima para determinar se o par deve ser vinculado, desvinculado ou reservado para consideração especial (por exemplo, validação manual)[2][11].
Determinar onde definir os limites de correspondência/não correspondência é um ato de equilíbrio entre a obtenção de sensibilidade aceitável (ou completude, a proporção de registros verdadeiramente correspondentes que são vinculados pelo algoritmo) e valor preditivo positivo (ou precisão, a proporção de registros vinculados pelo algoritmo que realmente correspondem). Existem vários métodos manuais e automatizados para prever os melhores limites, e alguns pacotes de software de fusão de logs possuem ferramentas integradas para ajudar o usuário a encontrar os valores mais aceitáveis. Como esta tarefa pode ser computacionalmente exigente, especialmente para grandes conjuntos de dados, uma técnica conhecida como bloqueio é frequentemente usada para melhorar a eficiência. O bloqueio tenta restringir as comparações apenas aos registros nos quais um ou mais identificadores particularmente discriminantes correspondem, o que tem o efeito de aumentar o valor preditivo positivo (precisão) em detrimento da sensibilidade (completude).[11] Por exemplo, o bloqueio com base em um sobrenome e um CEP codificado foneticamente reduziria o número total de comparações necessárias e aumentaria as chances de os registros vinculados estarem corretos (uma vez que os dois identificadores já correspondem), mas potencialmente perderia registros que se referissem à mesma pessoa cujo sobrenome ou CEP fosse diferente (devido a um casamento ou mudança, por exemplo). O bloqueio baseado no mês de nascimento, um identificador mais estável que se espera que mude apenas em caso de erro de dados, proporcionaria um ganho mais modesto no valor preditivo positivo e uma perda na sensibilidade, mas criaria apenas doze grupos distintos que, para conjuntos de dados extremamente grandes, podem não proporcionar uma grande melhoria líquida na velocidade de cálculo. Portanto, sistemas extensivos de fusão de registros geralmente usam múltiplas passagens de bloqueio para agrupar dados de várias maneiras para obter grupos de registros que devem ser comparados entre si.[3].
Aprendizado de máquina.
Nos últimos anos, uma variedade de técnicas de aprendizado de máquina têm sido usadas na vinculação de registros. O algoritmo clássico de Fellegi-Sunter para ligação de registros probabilísticos descrito acima foi reconhecido como equivalente ao algoritmo Naive Bayes no campo do aprendizado de máquina e sofre da mesma suposição de independência de seus recursos (uma suposição que geralmente não é verdadeira). Muitas vezes, maior precisão pode ser alcançada usando outras técnicas de aprendizado de máquina, incluindo um perceptron de camada única. Juntamente com tecnologias distribuídas, a precisão e a escala da vinculação de registros podem ser melhoradas ainda mais.