Новости
09.05.2023
с Днём Победы!
07.03.2023
Поздравляем с Международным женским днем!
23.02.2023
Поздравляем с Днем защитника Отечества!
Оплата онлайн
При оплате онлайн будет
удержана комиссия 3,5-5,5%








Способ оплаты:

С банковской карты (3,5%)
Сбербанк онлайн (3,5%)
Со счета в Яндекс.Деньгах (5,5%)
Наличными через терминал (3,5%)

АВТОМАТИЗИРОВАННЫЙ ЛЕКСИЧЕСКИЙ КОНТРОЛЬ МЕДИЦИНСКИХ ДОКУМЕНТОВ: ОБЩЕМИРОВЫЕ ТЕНДЕНЦИИ И ОСОБЕННОСТИ РЕАЛИЗАЦИИ В СИСТЕМЕ «ЭЛЕКС»

Авторы:
Город:
Москва
ВУЗ:
Дата:
27 марта 2016г.

На сегодняшний день компьютеры прочно вошли в ежедневную жизнь любого медицинского учреждения [1] независимо от профиля оказываемых услуг, подчиненности и формы собственности, и невозможно представить формирование любого содержательного медицинского документа без использования компьютера.

Побочным эффектом данного процесса информатизации медицинских учреждений стало то, что теперь врач теперь имеет возможность взять готовый документ и просто «вставить» туда фамилию пациента, или «собрать» такой документ из фрагментов, подготовленных ранее, без связи с конкретным событием в клинической практике. При этом, в текущих условиях погоня за экономией времени в клинической практике подталкивает врача использовать наиболее простой путь для формирования содержательной части медицинского документа. Это приводит к тому, что снижается качество медицинских документов.

По нашему мнению, компьютеру должен быть противопоставлен компьютер. Осуществление контроля качества медицинской документации, просто вычитывая документы, крайне трудоемко и требует специального штата для решения этой задачи. Все вышеизложенное свидетельствует о безусловной практической необходимости в автоматизированной системе лексического контроля медицинских документов.

При реализации нами проекта по созданию автоматизированной системы лексического контроля был исследован новый подход к обработке русскоязычных медицинских текстов, включающий комплекс методов, как хорошо проверенных при решении сходных задач в других областях, так и перспективных подходов – поиск с учетом семантико-синтаксических структур предложений с учетом медицинской терминологии и специфичной лексики. Все разработанные нами и реализованные в автоматизированной системе «Элекс» подходы являются новыми и оригинальными в части анализа медицинских текстов на русском языке.

При проведении исследований в рамках нашей работы мы в начале рассматривали возможности применения известных методов выявления нечѐтких дубликатов и заимствований, приведѐнные в работах [2] и [3]. Известны программы, способные осуществлять поиск заимствований в текстах: «Программа Плагиата.НЕТ» [4], «Программа Etxt Антиплагиат» [5], ресурс Антиплагиат.РУ [6]. Однако ни одно из этих решений не ориентировано на анализ текстов медицинской тематики. При этом в указанных программах не учитывается тот факт, что  в медицинских  документах присутствуют повторяющиеся текстовые элементы,  определяющие  не содержание, а структуру текста (заголовки разделов, названия столбцов таблиц, граф и полей и т.п.). Это значит, что во многих документах, схожих по структуре, будут обнаружены заимствования, что негативно скажется на точности процедуры лексического контроля. По этим причинам применение метода шинглирования следует признать ограниченно применимым для решения поставленных в проекте задач. Обойти данную проблему было решено за счѐт создания и дальнейшего использования специализированного словаря медицинской лексики.

При разработке критериев оценки количественного содержания медицинской информации в текстовом документе был учтѐн опыт исследователей, представленный в работе [7]. С опорой на известные результаты и опыт анализа медицинских текстов было принято решение применить подход к выделению терминологии на основе анализа синтаксических структур предложений, а также обязательно применять частотный анализ к составным терминам-кандидатам, относящимся к медицинской лексике для оценки доли содержания медицинской информации в текстовом документе.

В настоящее время в мировой практике отсутствуют прямые аналоги созданным критериям оценки количественного содержания медицинской информации в текстовом документе, а также критериям оценки содержащейся в документе медицинской информации по степени уникальности.

В настоящее время в области анализа текстов наблюдается переход от векторного представления текстовой информации (в виде «мешка слов») к более сложным представлениям. В этой связи для повышения качества решения аналитических задач (в том числе, на автоматизацию решения которых направлен настоящий проект) применяют методы синтаксического и семантического анализа. Это позволяет, в частности, выделять составные термины [8], [9].

Учѐт синтаксической и семантической информации текста, получаемой в результате компьютерного анализа, лежит в русле современных тенденций в области информационного поиска.

При выработке критериев оценки уникальности текстового содержания медицинских текстов нами был учтѐн опыт систем обнаружения текстовых заимствований: Chimpsky; CitePlag; CopyTracker; eTBLAST; Plagium; SeeSources; The Plagiarism Checker; Attributor; Copyscape; PlagTracker; Iparadigms: Ithenticate, Turnitin; PlagiarismDetect; PlagScan; VeriGuide.

В этих системах применяются различные методы: от классического чешуйчатого алгоритма [10] до

методов на основе извлечения концептов [11]. В литературе также описаны высокопроизводительные методы, например, на основе полиномов Карпа-Рабина [12] и поиска совпадающих вхождений строк [13]. Эти методы находят своѐ применения в некоторых задачах выявления «почти полных дубликатов» текстов, однако их применимость в задаче лексического контроля текстов медицинских документов вызывает сомнения. Как отмечалось ранее, при анализе медицинских документов необходимо учитывать структурные элементы, повторяющиеся в различных вариантах от одного документа к другому. Это означает, что при сопоставлении текстов МЭД необходимо учитывать эти элементы с минимальным весом (или не учитывать вовсе). Также для решения задачи нашего исследования не применимы методы на основе анализа библиографических ссылок [14], являющиеся эффективными в сфере обнаружения плагиата в научных публикациях.

В свете применения методов семантического анализа текстовой информации для представления результатов еѐ анализа в виде неоднородной семантической сети (НСС) были рассмотрены методы семантического анализа предложений.  В известных  на  сегодняшних  день системах семантического анализа медицинских текстов [15], [16] реализуются подходы, позволяющие строить семантическую сеть текста, используя принципы семантической разметки – semantic role labeling [17]. Эти решения учитывают специфику медицинских текстов на английском языке, заключающуюся в использовании специфичной терминологии и специфичных глаголов.

Для проведения морфологического анализа расширяют словари, пополняя их часто употребляемыми медицинскими терминами. Также формируют аннотированные корпуса текстов медицинской тематики и проводят дополнительное обучение анализаторов или их перенастройку, что позволяет проводить анализ медицинских текстов с приемлемым качеством [18].

Более сложной задачей является выявление в тексте семантических отношений между выделенными сущностями, например, таких как, причина – следствие. Для решения этой задачи применяют глубокий анализ текста, включающий синтаксический и семантический анализ [17], [19]. Из текста выбираются предложения, которые могут содержать некоторые востребованные отношения (например, по ключевым словам). В отобранных предложениях с помощью семантического анализа строятся предикатно-аргументные отношения, которые затем используются для определения необходимых отношений между сущностями в предложении. Полученные отношения используются для пополнения онтологий и баз знаний. Они также могут быть использованы для решения задач информационного поиска. К задаче выявления из текстов отношений между сущностями последнее время наблюдается растущий интерес исследователей в области биологии и медицины: был создан ряд размеченных корпусов  в рамках семинара BioNLP’11 [20], на которых проводилась оценка существующих методов выявления связей в текстах по биомедицине.

 

Список литературы

1.     http://www.medlinks.ru/article.php?sid=39541,   2010

2.     Зеленков Ю.Г., Сегалович И.В. Сравнительный анализ методов определения нечетких дубликатов для WEB-документов // Труды 9ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» RCDL’2007: Сб. работ участников конкурса / Переславль-Залесский, Россия, 2007.

3.     Косинов, Д.И. Использование статистической информации при выявлении схожих документов / Д. И. Косинов // Интернет-математика 2007 : сборник работ участников конкурса. — Екатеринбург: Изд-во Урал. ун-та, 2007. — С. 84—91

4.     http://www.mywebs.ru/plagiatanet.html

5.     http://www.etxt.ru/antiplagiat

6.     http://www.antiplagiat.ru

7.     Браславский П., Соколов Е. Сравнение пяти методов извлечения терминов произвольной длины // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Бекасово, 4–8 июня 2008 г.). Вып. 7 (14).– М.: РГГУ, 2008. - С. 67-74.

8.     Frantzi K., Ananiadou S., Mima H. Automatic recognition of multi-word terms:. the c-value/nc-value method//International Journal on Digital Libraries. – 2000. – Т. 3. – №. 2. – С. 115-130.

9.     Clouet E., Daille B. Compound Terms and Their Multi-word Variants: Case of German and Russian Languages//Computational Linguistics and Intelligent Text Processing. – Springer Berlin Heidelberg, 2014. – С. 68-78.

10.    Broder, Glassman, Manasse, and Zweig. Syntactic Clustering of the Web. SRC Technical Note. 1997.

11. Yuen-Hsien Tseng, " Generic Title Labeling for Clustered Documents", Expert Systems With Applications, Vol.37, No. 3, 15 March 2010, pp. 2247-2254.

12.    David Andersen. Exploiting Similarity for Multi-Source Downloads using File Handprints, 2007.

13. Monostori, Krisztián; Zaslavsky, Arkady; Schmidt, Heinz (2000), "Document Overlap Detection System for Distributed Digital Libraries", Proceedings of the fifth ACM conference on Digital libraries, ACM, pp. 226–227.

14. Bela, Gipp; Norman, Meuschke; Breitinger, Corinna; Lipinski, Mario; Nürnberger, Andreas (Jul. 28 - Aug. 1 2013), "Demonstration of Citation Pattern Analysis for Plagiarism Detection", Proceedings of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval, ACM.

15. Lanfranchi A, Fredriksen A, Styler WF, Warner C, Hwang JD, Choi JD, Dligach D, Nielsen RD, Martin J, Ward W, Palmer M, Savova GK. Towards comprehensive syntactic and semantic annotations of the clinical narrative//Journal of the American Medical Informatics Association. – 2013.

16. Savova G., Masanz J., Ogren P., Zheng J., Sohn S., KipperSchuler K., Chute C. Mayo clinical Text Analysis and Knowledge Extraction System (cTAKES): architecture, component evaluation and applications //Journal of the American Medical Informatics Association. – 2010. – Т. 17. – №. 5. – С. 507-513.

17.    Pham X. Q., Le M. Q., Ho B. Q. A Hybrid Approach for Biomedical Event Extraction //ACL 2013. – 2013. – С.121.

18. Pakhomov S. V., Coden A., Chute C. G. Developing a corpus of clinical notes manually annotated for part-of- speech //International journal of medical informatics. – 2006. – Т. 75. – №. 6. – С. 418-429.

19.    Aggarwal C. C., Zhai C. X. (ed.). Mining text data. – Springer, 2012. – 522 c.

20. J.-D. Kim, T. Ohta, N. Nguyen, S. Pyysalo, R. Bossy, and J. Tsujii. Overview of BioNLP shared task 2011. In Proceedings of the BioNLP Shared Task 2011 Workshop, pages 1–6, 2011.