Extração de informação e documentação de laudos médicos.

Bacic, Alice Shimada

doi:10.11606/T.3.2017.tde-24032017-084209

Home

Facilities

Doctoral Thesis

DOI

https://doi.org/10.11606/T.3.2017.tde-24032017-084209

Document

Doctoral Thesis

Author

Bacic, Alice Shimada (Catálogo USP)

Full name

Alice Shimada Bacic

Institute/School/College

Escola Politécnica

Knowledge Area

Electronic Systems

Date of Defense

2007-05-09

Published

São Paulo, 2007

Supervisor

Furuie, Sergio Shiguemi (Catálogo USP)

Committee

Furuie, Sergio Shiguemi (President)
Gutierrez, Marco Antonio
Moreno, Ramon Alfredo
Silva, Luciano
Zuffo, Marcelo Knorich

Title in Portuguese

Extração de informação e documentação de laudos médicos.

Keywords in Portuguese

Processamento de linguagem natural
Sistemas de informação em radiologia
Torax

Abstract in Portuguese

Os sistemas de informação hospitalares geram diariamente uma quantidade significativa de dados em formato de texto livre, principalmente através de laudos médicos. Os laudos geralmente são recuperados do sistema através de informações associadas, como identificação do paciente, por datas ou profissional responsável. A recuperação da informação a partir do conteúdo descritivo é uma tarefa não trivial, pois os sistemas hospitalares em geral não são capazes de verificar o conteúdo de um texto livre em uma busca. Não havendo uma estrutura básica de organização, categorização ou indexação do texto livre armazenado nas bases hospitalares, uma grande quantidade de informação deixa de estar disponível para profissionais que necessitam delas, pois não sabem como recuperá-las. A capacidade de recuperação do conhecimento armazenado nestas bases de dados seria de grande valia para pesquisadores, estudantes ou mesmo para o estudo de casos clínicos. Segundo o contexto descrito, este trabalho propõe a criação de uma ferramenta de documentação automática que tem por objetivo gerar uma formatação associada ao texto livre de laudos em radiologia através da adição de informações obtidas a partir de sistemas de terminologias médicos padronizados. Com este procedimento, pretende-se facilitar a pesquisa pelo conhecimento armazenado em uma base de dados médicos através da informação adicional gerada. Para tanto o trabalho envolve pesquisas nas áreas de Ontologias e Extração deInformação, uma subárea do Processamento de linguagem Natural. As ontologias são importantes neste trabalho por tratarem o problema da padronização das terminologias usadas na escrita dos laudos, bem como para fornecer a organização e formatação necessária para que os laudos passem a ser partes de uma base de conhecimento. ) A Extração de Informação fornece os algoritmos e técnicas necessárias para que os laudos sejam documentados de forma automática, minimizando a necessidade de intervenção humana, normalmente muito custosa em termos de trabalho manual e tempo. Como resultado final obteve-se um conjunto de metodologias e ferramentas capazes de receber um laudo em texto livre e gerar um documento XML rotulado com códigos de conceitos definidos em um sistema de terminologias médico, como o UMLS ou o Radlex. Em todas as fases de processamento, até a obtenção do arquivo XML de saída, obteve-se valores de precisão superiores a 70%, um resultado bastante satisfatório se considerado que os algoritmos de PLN utilizados são todos baseados em regras. Em adição às ferramentas de PLN desenvolvidas, cita-se como resultados, os trabalhos desenvolvidos para avaliação de ontologias médicas segundo uma área médica prédefinido, a organização das ontologias em um formato útil para a utilização por algoritmos de PLN, a criação de um Corpus de laudos de Raio-X de Tórax em português para treinamento e testes de aplicações de PLN e um modelo de informação para documentação dos laudos.

Title in English

Information extraction and medical reports documentation.

Keywords in English

Information extraction
Medical reports
Natural language processing
Ontologies
RadLex
UMLS

Abstract in English

Hospital Information Systems generate each day a significant amount of data in free text format, mainly as medical reports. Normally the reports are recovered from the system through associated information like patient identification, dates or responsible identification, for example. To recover a report by its content is not a trivial task since hospital systems are not capable of searching the free text content. Without a basic organizational structure, some categorization and indexing the free text stored on the hospital database is not accessible, since it cannot be recovered in the right context when it is needed. The ability of recovering the knowledge stored on these databases would be valuable for researchers, students or for the study of clinical cases. According to the described context, this work considers the creation of a tool for automatic documentation of medical reports written in free text. The main objective is to format radiological reports to achieve a more efficient way of recovering the knowledge stored in medical report's databases. To achieve this goal, information from medical terminology systems is added to the original report automatically. Such task requires some research in the field of Ontologies and Information Extraction, a sub field of Natural Language Processing. Ontologies are important in this work because they provide the standardization needed for the terminologies used in the written reports. It is important too forsupplying the organization necessary to format the reports in an adequate way to be stored on the knowledge base. Information Extraction supplies the algorithms and the necessary techniques to register in an automatic way the radiological reports, minimizing the human intervention, normally with a high cost in terms of handwork and time. ) The final result achieved was a set of methodologies and tools used to process a free text report, generating a XML document tagged with codes extracted from a medical terminology system. Considering all process steps, it was achieved a precision of at least 70%, in each step, a good score, if we consider that all the algorithms are rule based. In addiction to the NLP tools results, there are results concerning to medical ontologies evaluation for a pre-defined medical area, the organization need to make the ontologies usable by the NLP tools, the creation of a x-ray Corpus of reports in Portuguese and an information model used to document the reports. The Corpus could be used on the evaluation and test of NLP tools.

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

AliceShimadaBacic.pdf (10.17 Mbytes)

Publishing Date

2017-03-24

Derived works

WARNING: The material described below relates to works resulting from this thesis or dissertation. The contents of these works are the author's responsibility.

BACIC, Alice Shimada, and FURUIE, S. S. Sharing and archiving medical knowledge through collaborative tools [doi:10.1117/12.536055]. In Medical Imaging 2004: PACS and Imaging Informatics, San Diego, 2004. Proceedings of SPIE., 2004.
CASTILLA, André Coutinho, BACIC, Alice Shimada, and FURUIE, S. S. Machine translation on the medical domain: the role of BLEU/NIST and METEOR in a controlled vocabulary setting. In the tenth Machine Translation Summit, Phuket, 2005. Conference Proceedings: the tenth Machine Translation Summit., 2005.
BACIC, Alice Shimada, FURUIE, S. S., e GUTIERREZ, M. A. Recuperação de Conceitos Médicos em uma Base de Dados UMLS em Língua Portuguesa. In XII Congresso Brasileiro de Informatica em Saude, Porto de Galinhas, 2010. Anais do XII Congresso Brasileiro de Informatica em Saude., 2010.
[equipe do Serviço de Informática] Prêmio SUCESU 40 ANOS - SUCESU
[equipe] Prêmio Info CORPORATE - Os Melhores Cases de TI na Categoria Saude (Edicao 2007), com o Projeto "Uso de Dispositivos Moveis na Assistencia `a Beira de Leito" - Editora Abril (Revista Info Corporate)
[equipe]Certificado de Qualidade do 10º Prêmio de Excelência em Informática Aplicada aos Serviços Públicos (CONIP 2007) - CONIP