Новости
12.04.2024
Поздравляем с Днём космонавтики!
08.03.2024
Поздравляем с Международным Женским Днем!
23.02.2024
Поздравляем с Днем Защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

АВТОМАТИЗИРОВАННЫЙ ЛЕКСИЧЕСКИЙ КОНТРОЛЬ МЕДИЦИНСКИХ ДОКУМЕНТОВ: ПРЕДЛАГАЕМЫЕ ПОДХОДЫ

Авторы:
Город:
Москва
ВУЗ:
Дата:
08 марта 2016г.

В настоящее время можно смело утверждать, что информационные технологии вошли не только в жизнь врача, но и пациента [1].

Вопросы анализа медицинских данных, представленных, в том числе, в текстовой форме, относятся к активно исследуемой и развиваемой области научных знаний. Однако в России в настоящее время отсутствуют работы в области адаптации лингвистических методов анализа текстов, оценки качества медицинских текстов, в том числе поиска фрагментных заимствований и оценки оригинальности текстового содержания этих документов.

В рамках нашего исследования создаѐтся и исследуется новый подход к обработке русскоязычных медицинских текстов, включающий комплекс методов, как хорошо проверенных при решении сходных задач в других областях, так и перспективных подходов – поиск с учѐтом семантико-синтаксических структур предложений с учѐтом медицинской терминологии и специфичной лексики.

В частности, при проведении работ в рамках настоящего исследования рассматривались возможности применения известных методов выявления нечѐтких дубликатов и заимствований, приведѐнные в работах [2] и [3]. Известны программы, способные осуществлять поиск заимствований в текстах: «Программа Плагиата.НЕТ» [4], «Программа Etxt Антиплагиат» [5], ресурс Антиплагиат.РУ [6]. Однако ни одно из этих решений не ориентировано на анализ текстов медицинской тематики. При этом в указанных программах не учитывается тот факт, что  в медицинских документах присутствуют повторяющиеся  текстовые элементы,  определяющие  не содержание, а структуру текста (заголовки разделов, названия столбцов таблиц, граф и полей и т.п.). Это значит, что во многих документах, схожих по структуре, будут обнаружены заимствования, что негативно скажется на точности процедуры лексического контроля. В предлагаемых нами методах этот факт учтѐн в том числе за счѐт создания специализированного словаря медицинской лексики. По этим причинам применение метода шинглирования следует признать ограниченно применимым для решения поставленных задач.

При разработке критериев оценки количественного содержания медицинской информации в текстовом документе был учтѐн опыт исследователей, представленный в работе [7]. С опорой на известные результаты и опыт анализа медицинских текстов было принято решение применить подход к выделению терминологии на основе анализа синтаксических структур предложений. В ходе исследований предлагается применять также частотный анализ к составным терминам-кандидатам, относящимся к медицинской лексике для оценки доли содержания медицинской информации в текстовом документе.

Таким образом, для лексического анализа медицинских документов нами предлагаются следующие подходы:

1.     Алгоритм вычисления критериев оценки количественного содержания медицинской информации в текстовом документе основывается на выделении медицинских терминов в тексте и оценке их частотности. Для повышения точности оценки количественного содержания медицинской информации в текстах эта оценка должна выполняться с учѐтом составных (многословных терминов). Выделение составных терминов выполняется с помощью обработки результатов морфологического и синтаксического анализа текста алгоритмом, выделяющим в тексте синтаксические поддеревья глубины, не превосходящей заданной (исходный параметр алгоритма). Выделенные синтаксические конструкции (например, именные группы) сверяются со словарѐм в системе управления базами данных (СУБД). При этом сопоставление этих конструкций ведѐтся как с учѐтом совпадения нормальных форм, входящих в них слов, так и с учѐтом вхождения соответствующих слов в одинаковые синтаксические связи (например, управление, подчинение). В зависимости от уровня совпадений определяется полное или частичное соответствие термина в тексте и термина в словаре. Обнаруженные таким образом медицинские термины получают соответствующую пометку. На следующем этапе производится расчѐт частотных характеристик всех слов и словосочетаний в тексте (рассчитывается текстовая частота - TF). Составные термины рассматриваются как одна лексическая единица. Кроме того, на основе частотного анализа заранее сформированной коллекции медицинских документов различных типов (анамнезы, эпикризы и т.п.) осуществляется оценка значимости медицинских терминов (рассчитывается обратная документная частота - IDF). Эта величина позволяет отделить общеупотребительные («служебные») медицинские термины, относящиеся к общемедицинской тематике,  от специфичных медицинских терминов,  описывающих, например,  конкретные диагнозы, симптомы. Таким образом с применением классических формул TFIDF (с нормировкой на 1) выполняется оценка количественного содержания медицинской информации в текстовом документе.

2.     Для оценки степени уникальности (оригинальности формулировок) текста проверяемого медицинского документа предлагается использовать пофрагментное сопоставление текста проверяемого с ранее созданными медицинскими текстами, имеющимися в индексной базе. В качестве фрагмента сравнения выступает предложение (возможно, сложное). Предполагается, что сопоставление текстов может производиться с учѐтом замены слов на синонимы и изменения порядка слов в предложении, не меняющего его смысла, а также с точностью до замены численных значений различных медицинских показателей. Для этой цели разработаны 4 критерия, основанных на анализе лексического состава предложений, а также совпадения их семантических и синтаксических структур. Текстовая информация при этом представляется в виде неоднородной семантической сети (НСС).

А) Первый критерий заключается в оценке количественного «пословного» совпадения предложения проверяемого текста и предложений - потенциальных источников заимствований. Эта оценка представляет собой TFIDF-оценку с нормировкой на 1.

Б) Второй критерий представляет собой оценку соответствия синтаксической структуры проверяемого предложения с предложениями-источниками.

В) Третий критерий основан на подсчѐте количества совпадающих семантических значений у соответственных слов (совпадающих по нормальной форме).

Г) Четвѐртый критерий базируется на подсчѐте количества совпадающих семантических связей между соответственными словами (совпадающих по нормальной форме) в проверяемом предложении и предложениях- источниках.

Количественный анализ синтаксической и семантической информации по вышеприведѐнным критериям позволяет учесть специфику медицинских текстов, в которых значительная доля однословных терминов полисемична, но вместе с тем многословные, составные, термины вполне однозначно соответствуют определяемым ими понятиям.

Таким образом, разработанные критерии оценки степени уникальности текста проверяемого медицинского документа учитывают:

– совместную встречаемость, порядок слов запроса и расстояние между словами в текстах документов;

– синтаксические и семантические связи между словами запроса.

 

 

Список литературы

1.     Амиров Р.И., Марапов Д.И. Реализация кластерного подхода при создании единого информационного пространства в сфере здравоохранения на программной платформе компании «Витакор». // Материалы Всероссийской конференции «Информационные технологии в медицине». – М.: «Консэф», 2013. – С. 35- 38.

2.     Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для WEB-документов // Труды 9ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL’2007: Сб. работ участников конкурса/ Переславль-Залесский, Россия, 2007.

3.     Косинов, Д.И. Использование статистической информации при выявлении схожих документов / Д. И. Косинов // Интернет-математика 2007 : сборник работ участников конкурса. — Екатеринбург: Изд-во Урал. ун-та, 2007. — С. 84—91

4.     http://www.mywebs.ru/plagiatanet.html

5.     http://www.etxt.ru/antiplagiat

6.     http://www.antiplagiat.ru

7.     Браславский П., Соколов Е. Сравнение пяти методов извлечения терминов произвольной длины // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4–8 июня 2008 г.). Вып. 7 (14).– М.: РГГУ, 2008. - С. 67-74