Научный журнал
Научное обозрение. Технические науки
ISSN 2500-0799
ПИ №ФС77-57440

ВЫДЕЛЕНИЕ КЛЮЧЕВЫХ ПОНЯТИЙ В ТЕКСТОВОМ СОДЕРЖИМОМ С ИСПОЛЬЗОВАНИЕМ СТАТИСТИЧЕСКОЙ ОЦЕНКИ

Белая Т.И. 1 Пасечник П.А. 1
1 Санкт-Петербургский государственный университет технологии и дизайна
Проведен анализ проблемы компьютерной обработки русскоязычного текста, нацеленной на выделение ключевых понятий в текстовом содержимом. В качестве объекта рассмотрения выбраны термины, вводимые в текст впервые, а также сопровождающие их определения. Рассмотрены исключительно статистические сред¬ства выделения понятий, выделены преимущества над словарными методами. Имеется направленность рабо¬ты на автоматическое реферирование. Выделены четыре ключевых этапа для решения проблемы, в которых использованы шаблонные конструкции, анализ слов и комбинаций, статистика встречаемости слов в тексте. Выделены формулы для получения вероятностных характеристик терминов и предложений, их определяющих. Сформирован алгоритм проведения анализа текста, приведены рекомендации по использованию данного алго¬ритма в разработке программных средств.
SEPARATION OF KEY CONCEPTS OF TEXT CONTENTS WITH USE OF THE STATISTICAL ASSESSMENT

Belaya T.I. 1 Pasechnik P.A. 1
1 St. Petersburg State University of technology and design

Abstract:
We have done the analysis of text processing using statistical estimation of clauses or particular terms. Main purpose of this article is describing terms evaluation method without using thesaurus methods. As the object of consideration selected terms introduced in the text for the first time , as well as their accompanying definitions. Considered an exclusively statistical tools allocation concepts highlighted advantages over dictionary methods. There is a focus of the work on automatic summarization . Identified four key steps to solve the problem , which are used in the template design , analysis of words and combinations of words in the statistics of occurrence of the text. Select the formula for the probability characteristics of terms and defining their proposals . Formed algorithm analyzes the text provides guidance on the use of this algorithm in the development of software tools. Evaluated data can be used in automation of educational test formation process, science material coverage estimation, translation of Russian texts, grammatical correcting automation and purposes of artificial intelligence theory.

Keywords:

Библиографическая ссылка

Белая Т.И., Пасечник П.А. ВЫДЕЛЕНИЕ КЛЮЧЕВЫХ ПОНЯТИЙ В ТЕКСТОВОМ СОДЕРЖИМОМ С ИСПОЛЬЗОВАНИЕМ СТАТИСТИЧЕСКОЙ ОЦЕНКИ // Научное обозрение. Технические науки. – 2015. – № 1. – С. 73-73;
URL: https://science-engineering.ru/ru/article/view?id=830 (дата обращения: 27.10.2020).

Предлагаем вашему вниманию журналы, издающиеся в издательстве «Академия Естествознания»
(Высокий импакт-фактор РИНЦ, тематика журналов охватывает все научные направления)

«Фундаментальные исследования» список ВАК ИФ РИНЦ = 1.074