Новости
12.04.2024
Поздравляем с Днём космонавтики!
08.03.2024
Поздравляем с Международным Женским Днем!
23.02.2024
Поздравляем с Днем Защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

СОЗДАНИЕ АЛГОРИТМОВ АВТОМАТИЗИРОВАННОГО ЛЕКСИЧЕСКОГО КОНТРОЛЯ МЕДИЦИНСКИХ ДОКУМЕНТОВ

Авторы:
Город:
Москва
ВУЗ:
Дата:
27 марта 2016г.

Вопросы анализа медицинских данных, представленных, в том числе, в текстовой форме, относятся к активно исследуемой и развиваемой области научных знаний [1]. Однако в настоящее время отсутствуют работы в области адаптации лингвистических методов анализа текстов к медицинским документам именно на русском языке. Разрабатываемые методы автоматизированного лексического контроля, включающая интеллектуальные механизмы контроля, учитывающие некорректное заимствование информации, и регулярно обновляемый словарь специальной лексики, позволяющая вести полнотекстовый поиск в интересах научной, лечебной и административной деятельности, ориентированы на обработку медицинской информации на русском языке.

Основываясь на вышеизложенном нами было проведено исследование и дальнейшее создание автоматизированной системы лексического контроля медицинских текстов. Наиболее важным моментом работы явилось создание основных алгоритмов автоматизированного лексического контроля медицинских документов.

На первом этапе данного проекта нами было реализовано следующее:

1.   Создан Сервис получения документов из файлового хранилища.

Сервис осуществляет сбор документов по протоколу FTP, что позволяет взаимодействовать с информационными системами, не поддерживающими современные методы обмена данными.

2. Создан Сервис получения документов по SOA-модели взаимодействия.

Данный сервис предназначен для загрузки документов, из систем, поддерживающих работу по c SOAP или REST сервисами.

3. Создан Сервис создания индекса документов в базе данных.

Данный сервис регистрирует факт получения документа с учѐтом источника, и стадии его обработки. В дальнейшем именно данные в индексе используются остальными сервисами системы в случае, если необходим доступ к документу.

4. Создана База данных содержимого документа, словаря и типовых элементов.

Все сервисы, преобразующие полученный документ, ведут запись в эту базу с привязкой к индексу документов. Построена на основе реляционной СУБД FireBird 2.5. Содержит следующую информацию: индекс документов, индекс слов словаря в документе, словарь, индекс чешуек в документе, чешуйки, справочник типов документов, справочник ftp-источников

5.    Создан Сервис файлового хранения полученных документов в привязке к индексу. Данный сервис получает и хранит первичные данные полученного документа в неизмененном виде.

6. Создан Сервис первичного разбора полученного документа.

Производит разбор документа на отдельные элементы, с созданием соответствующих данных о документе в базе. Сервис выделяет фрагменты документа длинной в одно слово для сверки со словарѐм, длиной пять и десять слов – для сверки в сервисе структурного анализа.

7. Создан Сервис структурного и лексического анализа.

Осуществляет сопоставление элементов, полученных в ходе работы предыдущего сервиса, с данными словаря и данными сервиса типовых элементов по «чешуйчатому» алгоритму. Практика показала наибольшую эффективность использования чешуек длиной пять и десять слов.

8. Сервис формирования реестра типовых элементов документа.

Осуществляет формирование реестра типовых элементов документа и сверку данных вновь поступающего документа с реестром с целью выявления так называемых «элементов шаблонов» - часто повторяющихся фрагментов документов, которые целесообразно отнести к структуре документа, а не к его содержательной части.

9. Создан Сервис оценки документа.

Выполняет количественную оценку документа по ряду формальных критериев:

·   Наполненность медицинской лексикой (процент медицинских терминов по отношению к общему количеству слов в документе);

· Объем использованных «элементов шаблонов» (так же в процентах слов);

· Содержательная целостность документа.

Данный сервис работает, основываясь на внесенных в базу результатах работы сервисов, описанных выше.

10.   Создан Сервис формирования словаря.

Используется для формирования словаря медицинской и немедицинской лексики. Словарь наполняется автоматически по результатам анализа поступающих документов, вручную производится только классификация элементов, что позволяет существенно снизить трудозатраты на его ведение. Каждое новое слово поступает оператору «на разбор». Оператор должен вручную отнести слово к одной из групп:

· Медицинская лексика;

· Общая лексика;

· «Несловарное» слово.

И установить один из признаков:

· Ссылка на родительскую словоформу(оставить пустым, если это слово и есть она);

· Орфографическая ошибка(если такая есть);

· Область медицины.

11.   Создан Сервис формирования признаков содержательной целостности.

Позволяет установить минимальный набор элементов, присутствие которых необходимо в документе, в привязке к типу документа. Используется в случае, если известен тип полученного документа (осмотр, эпикриз, протокол операции, и.т.д.).

12.   Сервис поиска в хранилище.

Позволяет производить высокопроизводительный поиск по всей базе документов, основываясь на индексах, построенных описанными выше  сервисами. При использовании сервисе можно указать дополнительные параметры:

· Какой тип документа рассматриваем

· Точное соответствие ищем, или нет

· Каких слов не должно быть в документе

·   Как далеко друг от друга находятся разыскиваемы нами слова: только вместе, вблизи, вдалеке. На втором этапе были реализованы следующие алгоритмы:

1.     Алгоритм вычисления критериев оценки количественного содержания медицинской информации в текстовом документе. Данный алгоритм основывается на выделении медицинских терминов в тексте и оценке их частотности.

2.     Для оценки степени уникальности (оригинальности формулировок) текста проверяемого медицинского документа предложено использовать пофрагментное сопоставление текста проверяемого с ранее созданными медицинскими текстами, имеющимися в индексной базе. В качестве фрагмента сравнения выступает предложение (возможно, сложное).

Количественный анализ синтаксической и семантической информации по вышеприведѐнным критериям позволяет учесть специфику медицинских текстов, в которых значительная доля однословных терминов полисемична, но вместе с тем многословные, составные, термины вполне однозначно соответствуют определяемым ими понятиям.

Таким образом, разработанные критерии оценки степени уникальности текста проверяемого медицинского документа учитывают:

· совместную встречаемость, порядок слов запроса и расстояние между словами в текстах документов;

· синтаксические и семантические связи между словами запроса;

Критерии первой группы относятся к нелингвистическим. Критерии второй группы основываются на результатах синтаксического и семантического анализа для установления соответствующих характеристик текстов. Учѐт лингвистической информации способствует повышению точности сравнения текстов.

3.     Построена модель алгоритмов вычисления критериев оценки содержащейся в документе медицинской информации по степени уникальности.

Общий алгоритм оценки сходства предложений проверяемого медицинского документа включает следующие шаги:

1)     Лингвистический анализ текста, построение НСС.

2)     Выбор фрагментов-кандидатов на проверку степени уникальности.

3)     Для каждого фрагмента:

a)     поиск, выборка и фильтрация информации из поисковых индексов;

b)     предварительная оценка сходства проверяемого фрагмента и предложений из индексной базы;

c)      оценка сходства проверяемого фрагмента и предложений из индексной базы на основе разработанных критериев.

4)     Оценка доли проверенных фрагментов, для которых превышено пороговое значение оценки сходства с

фрагментами из индексной базы. Степень уникальности медицинского документа – есть доля заимствованных предложений в числе проверенных.

Общий алгоритм многокритериального сравнения текстов допускает настройку своих параметров для варьирования значимости тех или иных критериев при получении общей оценки сходства двух текстов. Это позволяет адаптировать общий метод лексического контроля для учѐта только тех слов фраз и предложений, которые являются значимыми и не являются структурными элементами форм медицинских документов.

Необходимо отметить, что в рамках разработанных алгоритмов тексты медицинских документов подвергаются полному лингвистическому анализу. В результате строится неоднородная семантическая сеть (НСС) текста. Затем осуществляется наполнение индексной базы данных специальной структуры [2], которая позволяет осуществлять поиск и сравнение текстов друг с другом. Индексные структуры данных организованы таким образом, что НСС текста хранится в виде линейно упорядоченных последовательностей элементов данных, характеризующих словоупотребления текстов. Задача поиска с применением индексных структур решается путѐм выборки последовательностей элементов данных, слиянию их модифицированным  алгоритмом и итоговому ранжированию.

 

Список литературы

1.     Берсенева Е.А., Седов А.А., Голухов Г.Н. Актуальные вопросы создания автоматизированной системы лексического контроля медицинских документов. // Врач и информационные технологии. – 2014. - № 1. – С. 11-17.

2.     Соченков И.В., Суворов Р.Е. Сервисы полнотекстового поиска в информационно-аналитической системе (Часть 1) // Информационные технологии и вычислительные системы. – М.:ИСА РАН. №2, 2013. С. 69–78.