@MASTERSTHESIS{ 2024:2126297021, title = {Natural language processing for sensitive data recognition and privacy in digital documents}, year = {2024}, url = "http://tede.upf.br:8080/jspui/handle/tede/2765", abstract = "Manter informações confidenciais seguras em documentos pessoais sempre foi fundamental para garantir a privacidade de pessoas ou empresas. Com a frequente digitalização de documentos e a adoção de leis e regulamentos, esta tarefa tornou-se ainda mais relevante. Neste contexto, as aplicações de segurança podem censurar textos críticos em documentos digitais. Como a proteção de dados por meio de censura pode exigir trabalho manual intensivo para identificar a localização específica de dados confidenciais e está sujeita a erros humanos, a automação é uma opção para lidar com todo o processo. Pensando nisso, este trabalho apresenta o DOCDOM, um software de prova de conceito que integra múltiplas ferramentas para o reconhecimento de dados sensíveis e privacidade em documentos digitais. A abordagem considera o reconhecimento ótico de caracteres para obter dados de texto de documentos, aplica um modelo de processamento de linguagem natural focado no reconhecimento de entidades nomeadas para identificar dados confidenciais, e censura estes usando recursos de bibliotecas para processamento de documentos digitais. Os resultados preliminares mostraram que o DOCDOM funciona bem, alcançando métricas de avaliação razoáveis para dois conjuntos de dados de teste de 1000 arquivos cada (Curvas AUC-PR 0,9266 e 0,6681). Uma análise detalhada identificou que existem problemas de ruído em alguns arquivos durante tarefas de classificação de texto, que ainda precisam ser tratados por meio de estratégias de distinção e filtragem de ruído. Apesar disso, a solução proposta apresentou resultados iniciais aceitáveis para uma prova de conceito, com boa precisão e acurácia para arquivos de estrutura simples e conteúdos sensíveis não numéricos.", publisher = {Universidade de Passo Fundo}, scholl = {Programa de Pós-Graduação em Computação Aplicada}, note = {Instituto de Tecnologia – ITEC} }