Категории

Фантастика и фэнтези
- Научная Фантастика
- Фэнтези
- Попаданцы
- Альтернативная история
- Юмористическая фантастика
- Ироническое фэнтези
- Ненаучная фантастика
- Социально-философская фантастика
- Детективная фантастика
- Киберпанк
- LitRPG
- Космоопера
- Технофэнтези
- Городская фантастика
- Русское фэнтези
- Боевое фэнтези
- Городское фентези
- Космическая фантастика
- Мистика
- Книги магов
- Эпическая фантастика
- Сказочная фантастика
- Романтическое фэнтези
- Социально-философская фантастика
- Любовное фэнтези
- Разное фэнтези
- Иностранное фэнтези
- Разная фантастика
- Историческое фэнтези
- Стимпанк
- Историческая фантастика
- Романтическая фантастика
- Зарубежная фантастика
- Ироническая фантастика
- Ужасы и Мистика
- Постапокалипсис
- Героическая фантастика
- Социально-психологическая
- Боевая фантастика
Проза
- Новелла
- Феерия
- Проза
- Историческая проза
- Русская современная проза
- Афоризмы
- Зарубежная современная проза
- Повести
- Советская классическая проза
- Зарубежная классика
- Рассказы
- Очерки
- Разное
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Магический реализм
- Антисоветская литература
- Сентиментальная проза
- Русская классическая проза
- Современная проза
- О войне
- Контркультура
- Классическая проза
Любовные романы
- Исторические любовные романы
- Зарубежные любовные романы
- Роман
- love
- Прочие любовные романы
- Остросюжетные любовные романы
- Современные любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
Научные и научно-популярные книги
- Биохимия
- Государство и право
- Биофизика
- Культурология
- Юриспруденция
- Биология
- Медицина
- Воспитание детей, педагогика
- Политика
- Психология, личное
- Науки: разное
- Математика
- Альтернативная медицина
- Языкознание
- Педагогика
- Беременность, ожидание детей
- Иностранные языки
- География
- Физика
- Детская психология
- Деловая литература
- Социология
- Литературоведение
- Обществознание
- Филология
- Архитектура
- Образовательная литература
- Психотерапия
- Зарубежная публицистика
- Зарубежная психология
- Транспорт, военная техника
- Химия
- Научпоп
- Науки о космосе
- Учебники
- Зоология
- Радиотехника
- Ботаника
- О животных
- Астрология
- История Европы
- Шпаргалки
- География
- Ветеринария
- Экология
- Религиоведение
- История
- Техническая литература
- Прочая научная литература
- Психология
Приключения
- Путешествия и география
- Исторические приключения
- Прочие приключения
- Природа и животные
- Вестерн
- Приключения про индейцев
- Морские приключения
- Зарубежные приключения
Детективы и Триллеры
- Исторический детектив
- Детектив
- Триллер
- Боевик
- Криминальный детектив
- Иронический детектив
- Крутой детектив
- Иностранный детектив
- Полицейский детектив
- Маньяки
- Политический детектив
- Зарубежные боевики
- Классический детектив
- Шпионский детектив
Документальные книги
- Искусство и Дизайн
- Критика
- Публицистика
- Прочая документальная литература
- Военная документалистика
- Биографии и Мемуары
Детская литература
- Буквари
- Загадки
- Детская фантастика
- Детские остросюжетные
- Детские стихи
- Детские приключения
- Зарубежные детские книги
- Учебная литература
- Книги для подростков
- Детский фольклор
- Внеклассное чтение
- Школьные учебники
- Книги для дошкольников
- Детские детективы
- Детская познавательная и развивающая литература
- Прочая детская литература
- Сказка
- Детская проза
- Детская образовательная литература
Домоводство, Дом и семья
- Домашнее хозяйство
- Здоровье
- Кулинария
- Домашние животные
- Прочее домоводство
- Спорт
- Сад и огород
- Развлечения
- Интерьеры
- Отдых / туризм
- Охота
- Дом, семья
- Рыбалка
- Ремонт в квартире
- Семейная психология
- Эротика, Секс
- Сделай сам
- Хобби и ремесла
Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Личная эффективность
- Внешнеэкономическая деятельность
- О бизнесе популярно
- Бизнес
- Менеджмент
- Менеджмент и кадры
- Управление, подбор персонала
- Экономика
- Ценные бумаги и инвестиции
- Личные финансы
- Банковское дело
- Переговоры
- Государственное и муниципальное управление
- Бухучет и аудит
- Малый бизнес
- Продажи
- Краткое содержание
- Финансы
- Личная эффективность
- Делопроизводство, офис
- Корпоративная культура, бизнес
- Поиск работы
- Интернет-бизнес
- Тайм-менеджмент
- Кадровый менеджмент
- Зарубежная деловая литература
- Ораторское искусство / риторика
Юмор
- Любовные романы
- Анекдоты
- Юмористическая проза
- Сатира
- Драматургия
- Юмористическое фэнтези
- Юмористические стихи
- Комедия
- Прочий юмор
Старинная литература
- Античная литература
- Древневосточная литература
- Мифы. Легенды. Эпос
- Прочая старинная литература
- Европейская старинная литература
- Древнерусская литература
- Фольклор
Поэзия, Драматургия
- Мистерия
- в стихах
- Драматургия
- Театр
- Трагедия
- Драма
- Лирика
- Кино, театр
- Сценарии
- Экспериментальная поэзия
- Киносценарии
- Басни
- Зарубежная драматургия
- Песенная поэзия
- Водевиль
- Зарубежная поэзия
- Эпическая поэзия
- Поэзия
Бизнес
- Маркетинг, PR, реклама
Компьютеры и Интернет
- Прочая околокомпьтерная литература
- Интернет
- Базы данных
- Программы
- Программирование
- Компьютерное "железо"
- Программное обеспечение
Религия и духовность
- Религия: иудаизм
- Религия
- Эзотерика
- Прочая религиозная литература
- Самосовершенствование
- Православие
- Религия: христианство
- Зарубежная религиозная литература и эзотерика
- Религия: ислам
- Буддизм
- Хиромантия
- Индуизм
- Язычество, паганизм
- Бизнес
- Религия: окультизм
- Религия: протестантизм
- Религии: разное
Справочная литература
- Энциклопедии
- Прочая справочная литература
- Словари
- Руководства
- Справочники
Разная литература
- Подростковая литература
- Фанфик
- Отраслевые издания
- Военное
- Современная зарубежная литература
- Великолепные истории
- Музыка, музыканты
- Военная история
- Современная литература
- Гиды, путеводители
- Кино
- Цитаты из афоризмов
- Боевые искусства
- Литература 19 века
- Визуальные искусства
- Авто и ПДД
- Музыка, танцы
- Культура и искусство
- Изобразительное искусство, фотография
- Недвижимость
- Спецслужбы
- Зарубежная образовательная литература
- Начинающие авторы
- Истории из жизни
- Зарубежная прикладная литература
- Пословицы, поговорки
- Готические новеллы
- Шахматы
- Прочее
- Военная техника, оружие
- Газеты и журналы
- Периодические издания

Меню

ТОП за месяц

Спасти род. Том 2 - Кирилл Сергеевич Довыдовский

Все против всех (СИ) - Романов Герман Иванович

ЗАГАДКИ И ТРАГЕДИИ АРКТИКИ - Зиновий Каневский

Пермакультура Зеппа Хольцера Практическое применение для сада, огорода и сельского хозяйства Часть 2 - Зепп Хольцер

Последний попаданец 7 - Константин Зубов

Теги

Показать все теги

onlinekniga.com » Научные и научно-популярные книги » Языкознание » Прикладное программное обеспечение: системы автоматической обработки текстов - Михаил Мальковский

Прикладное программное обеспечение: системы автоматической обработки текстов - Михаил Мальковский

Читать онлайн Прикладное программное обеспечение: системы автоматической обработки текстов - Михаил Мальковский

Шрифт:

Интервал:

Закладка:

Сделать

1 ... 6 7 8 9 10 11 12 13 14 15

Перейти на страницу:

База знаний ЛИНАР содержит также заранее формируемый - и пополняемый в ходе эксплуатации системы - банк адресатов: конкретных читателей или определенных однородных групп читателей (конкретный руководитель научно-исследовательского проекта; конкретный представитель руководства организации-заказчика; инженеры, которые будут создавать описываемый программно-аппаратный комплекс и др.). Настройка на адресата производится в начале очередного сеанса работы с ЛИНАР. При такой настройке могут меняться базовые и тематические лингвистические знания (состав словаря, совокупность грамматических правил), степень жесткости требований по соблюдению тех или иных норм и условий.

Чтобы задать эту информацию, следует указать имя одного из известных ЛИНАР адресатов (или идентификатор известной группы адресатов) и выбрать значения дополнительных параметров программ контроля.

С помощью такой настройки удается моделировать процесс восприятия текста разными адресатами и, следовательно, оценивать качество текста с разных точек зрения.

Таким образом, К-знания ЛИНАР (которые служат критерием корректности текста и используются для обнаружения "дефектов" текста - отклонений от требований, предъявляемых К-знаниями) формируются динамически в каждом конкретном сеансе работы с системой и являются комплексными по своей природе. Они включают как процедурные знания об исследуемом аспекте текста (воплощенные в соответствующих программах контроля), так и декларативные знания, фильтруемые и конкретизируемые в начале каждого сеанса.

Обнаруженные программой контроля несоответствия текста и К-знаний могут быть устранены двумя способами:

путем внесения изменений в текст (это наиболее частый случай: несоответствие - суть ошибка, допущенная в тексте, которую необходимо исправить);

путем изменения К-знаний системы.Заметим, что изменениям подвергается лишь один компонент К-знаний - лингвистические знания, причем не все, а лишь те, которые соответствуют наиболее подвижной части естественного языка - лексикону. Как правило, такие изменения заключаются в пополнении базы знаний, например, в создании новой словарной статьи для слова, впервые встретившегося в тексте и не знакомого системе. Знания, отображающие требования семантической корректности и простоты интерпретации, общеязыковые и внешние нормы, может изменять только администратор системы.

Для внесения изменений в базу лингвистических знаний используются сервисные программы; для изменения текста - подсистема редактирования ЛИНАРа.

Отметим, что (даже при работе с ЛИНАР в диалоговом режиме) редактирование текста обычно производится по завершении работы программ контроля. Это связано с тем, что исправление фиксируемых системой ошибок и неточностей зачастую требует переделки относительно больших фрагментов текста (разбиение длинной фразы на несколько более простых, устранение неоднозначности трактовки и т.п.). Однако некоторые - локальные - изменения можно внести в текст сразу же в момент обнаружения ошибки. Поэтому в ряде программ контроля, например, в программах орфографического уровня, предусмотрена возможность исправления фиксируемых ошибок в момент их обнаружения.

2.3.3. Программы контроля

Программы контроля текста могут быть классифицированы по нескольким критериям.

Первый критерий связан с анализируемым программой аспектом текста. В соответствии с этим критерием выделяются следующие группы программ одноаспектного контроля:

– контроль орфографии (включая поиск ошибок в склонении и спряжении слов);

– анализ лексического состава текста;

– стилистический контроль;

– проверка выполнения правил структуризации текста;

– контроль синтаксической структуры;

– пунктуационный контроль;

– семантический контроль.

По второму критерию программы одноаспектного контроля подразделяются на программы локального и глобального анализа текста. Программы первой группы обрабатывают мелкие фрагменты текста: отдельные словоформы, словосочетания, специальные символы, не исследуя их контекстные связи или ограничиваясь учетом ближайшего окружения (соседнего слова справа, например). Локальный анализ характерен для программ орфографического, лексического и (частично) стилистического контроля. Программы, осуществляющие глобальный анализ, исследуют, как правило, структуру более крупных единиц текста: фраз и иногда абзацев (синтаксический и семантический контроль), текста в целом.

Третий критерий связан с характером результата, получаемого программой одноаспектного анализа. Основная часть программ контроля обнаруживает те или иные несоответствия текста и К-знаний, используемых в текущем сеансе. Результатом их работы является список выявленных несоответствий (нарушений). Однако некоторые программы, как уже отмечалось, определяют отдельные свойства текста, не оценивая их. Так, программа ЛЕКС1 составляет частотный словарь исследуемого текста (фрагмента текста). Оценку полученным результатам дает человек - пользователь ЛИНАР, он же принимает решение о дальнейших действиях. Его реакция может быть, например, такой - поработать над текстом пункта 4.5.1., поскольку в этом тексте (занимающем всего две страницы) 26 раз встречается слово знания (в различных формах) и 7 раз - слово соответственно.

Только что рассмотренный пример (программа ЛЕКС1) можно использовать и для иллюстрации четвертого критерия классификации программ контроля. Эта программа, как и ряд других, выдает некоторую глобальную информацию об исследуемом фрагменте текста, не фиксируя, в каких позициях (абзацах, фразах или строках) были обнаружены в тексте формы различных слов. Другие программы, например программы проверки орфографии, локализуют обнаруживаемые ими свойства (дефекты) текста.

И наконец, отметим еще одно (формальное) различие программ контроля. Для всех программ основным параметром является подлежащий обработке фрагмент текста. Однако для некоторых программ нужно обязательно указать дополнительные параметры, конкретизирующие задание. Например, при вызове программы ЛЕКС2 нужно указать, какие именно грамматические признаки слов интересуют пользователя.

Некоторые программы контроля получают в качестве параметра предельно допустимые (пороговые) числовые значения количественно оцениваемых параметров текста. Отметим, что, меняя порог, можно варьировать уровень требований, предъявляемых к тексту, моделируя тем самым оценку его разными адресатами. Например, можно установить в качестве предельно допустимой длины фразы 25 слов или ограничить число придаточных предложений (в составе сложного предложения) двумя. Фразы, в которых эти пороговые значения превышены, будут классифицированы соответствующими программами контроля как недопустимые.

3.2.3.1. Орфографический контроль

Программы орфографического контроля обнаруживают (и предлагают варианты исправления) мотивированные грамматические ошибки в основах и окончаниях (флексиях) слов, записанных в словарь системы, и слов, встретившихся ей впервые (незнакомых), а также случайные, или немотивированные, ошибки.

Основные классы учитываемых случайных ошибок таковы:

– пропуск одной буквы (асемблер),

– одна лишняя буква (авттокод),

– замена одной буквы (конпьютер),

– перестановка двух соседних букв (аглоритм).

Признаком ошибки служит появление в обрабатываемом тексте формы незнакомого системе слова.

Предпринимается попытка "свести" такое незнакомое слово к знакомому с помощью преобразований, обратных перечисленным выше (считается, что ошибка могла возникнуть в результате одного из таких "прямых" преобразований знакомого слова). Для предварительной оценки близости слов (основ слов) используется специально разработанная метрика.

Одна из программ обнаруживает ошибки в датах, задаваемых в тексте с помощью конструкций вида ДД.ММ.ГГ. Если задан и диапазон возможных дат, проверяется также принадлежность всех представленных в исследуемом тексте дат этому диапазону.

Примеры работы программ:

прочитанна - ОШИБКА В СЛОВОИЗМЕНЕНИИ !

ОЖИДАЕМОЕ СЛОВО: прочитана

рассчета - ВОЗМОЖНА ОШИБКА ТИПА "удвоение буквы"

ОЖИДАЕМОЕ СЛОВО : расчета

10.25.89.

ОШИБКА В ДАТЕ - недопустимая дата: месяц: 25

3.2.3.2. Анализ лексического состава текста

Программа ЛЕКС1

Программа подсчитывает, сколько раз в тексте (области) употребляется то или иное слово. Программа формирует полный список всех различных слов текста с указанием частот их встречаемости. Можно задать диапазон частот (например, от 10 до 20 вхождений или ровно 15 вхождений) и сформировать список слов, количество употреблений которых лежит в границах этого диапазона. Если диапазон не задан, формируется полный частотный словарь текста.