Категории

Фантастика и фэнтези
- Научная Фантастика
- Фэнтези
- Попаданцы
- Альтернативная история
- Юмористическая фантастика
- Ироническое фэнтези
- Ненаучная фантастика
- Социально-философская фантастика
- Детективная фантастика
- Киберпанк
- LitRPG
- Космоопера
- Технофэнтези
- Городская фантастика
- Русское фэнтези
- Боевое фэнтези
- Городское фентези
- Космическая фантастика
- Мистика
- Книги магов
- Эпическая фантастика
- Сказочная фантастика
- Романтическое фэнтези
- Социально-философская фантастика
- Любовное фэнтези
- Разное фэнтези
- Иностранное фэнтези
- Разная фантастика
- Историческое фэнтези
- Стимпанк
- Историческая фантастика
- Романтическая фантастика
- Зарубежная фантастика
- Ироническая фантастика
- Ужасы и Мистика
- Постапокалипсис
- Героическая фантастика
- Социально-психологическая
- Боевая фантастика
Проза
- Новелла
- Феерия
- Проза
- Историческая проза
- Русская современная проза
- Афоризмы
- Зарубежная современная проза
- Повести
- Советская классическая проза
- Зарубежная классика
- Рассказы
- Очерки
- Разное
- Эссе
- Эпистолярная проза
- Семейный роман/Семейная сага
- Магический реализм
- Антисоветская литература
- Сентиментальная проза
- Русская классическая проза
- Современная проза
- О войне
- Контркультура
- Классическая проза
Любовные романы
- Исторические любовные романы
- Зарубежные любовные романы
- Роман
- love
- Прочие любовные романы
- Остросюжетные любовные романы
- Современные любовные романы
- Короткие любовные романы
- Любовно-фантастические романы
Научные и научно-популярные книги
- Биохимия
- Государство и право
- Биофизика
- Культурология
- Юриспруденция
- Биология
- Медицина
- Воспитание детей, педагогика
- Политика
- Психология, личное
- Науки: разное
- Математика
- Альтернативная медицина
- Языкознание
- Педагогика
- Беременность, ожидание детей
- Иностранные языки
- География
- Физика
- Детская психология
- Деловая литература
- Социология
- Литературоведение
- Обществознание
- Филология
- Архитектура
- Образовательная литература
- Психотерапия
- Зарубежная публицистика
- Зарубежная психология
- Транспорт, военная техника
- Химия
- Научпоп
- Науки о космосе
- Учебники
- Зоология
- Радиотехника
- Ботаника
- О животных
- Астрология
- История Европы
- Шпаргалки
- География
- Ветеринария
- Экология
- Религиоведение
- История
- Техническая литература
- Прочая научная литература
- Психология
Приключения
- Путешествия и география
- Исторические приключения
- Прочие приключения
- Природа и животные
- Вестерн
- Приключения про индейцев
- Морские приключения
- Зарубежные приключения
Детективы и Триллеры
- Исторический детектив
- Детектив
- Триллер
- Боевик
- Криминальный детектив
- Иронический детектив
- Крутой детектив
- Иностранный детектив
- Полицейский детектив
- Маньяки
- Политический детектив
- Зарубежные боевики
- Классический детектив
- Шпионский детектив
Документальные книги
- Искусство и Дизайн
- Критика
- Публицистика
- Прочая документальная литература
- Военная документалистика
- Биографии и Мемуары
Детская литература
- Буквари
- Загадки
- Детская фантастика
- Детские остросюжетные
- Детские стихи
- Детские приключения
- Зарубежные детские книги
- Учебная литература
- Книги для подростков
- Детский фольклор
- Внеклассное чтение
- Школьные учебники
- Книги для дошкольников
- Детские детективы
- Детская познавательная и развивающая литература
- Прочая детская литература
- Сказка
- Детская проза
- Детская образовательная литература
Домоводство, Дом и семья
- Домашнее хозяйство
- Здоровье
- Кулинария
- Домашние животные
- Прочее домоводство
- Спорт
- Сад и огород
- Развлечения
- Интерьеры
- Отдых / туризм
- Охота
- Дом, семья
- Рыбалка
- Ремонт в квартире
- Семейная психология
- Эротика, Секс
- Сделай сам
- Хобби и ремесла
Бизнес
- Работа с клиентами
- Тайм-менеджмент
- Личная эффективность
- Внешнеэкономическая деятельность
- О бизнесе популярно
- Бизнес
- Менеджмент
- Менеджмент и кадры
- Управление, подбор персонала
- Экономика
- Ценные бумаги и инвестиции
- Личные финансы
- Банковское дело
- Переговоры
- Государственное и муниципальное управление
- Бухучет и аудит
- Малый бизнес
- Продажи
- Краткое содержание
- Финансы
- Личная эффективность
- Делопроизводство, офис
- Корпоративная культура, бизнес
- Поиск работы
- Интернет-бизнес
- Тайм-менеджмент
- Кадровый менеджмент
- Зарубежная деловая литература
- Ораторское искусство / риторика
Юмор
- Любовные романы
- Анекдоты
- Юмористическая проза
- Сатира
- Драматургия
- Юмористическое фэнтези
- Юмористические стихи
- Комедия
- Прочий юмор
Старинная литература
- Античная литература
- Древневосточная литература
- Мифы. Легенды. Эпос
- Прочая старинная литература
- Европейская старинная литература
- Древнерусская литература
- Фольклор
Поэзия, Драматургия
- Мистерия
- в стихах
- Драматургия
- Театр
- Трагедия
- Драма
- Лирика
- Кино, театр
- Сценарии
- Экспериментальная поэзия
- Киносценарии
- Басни
- Зарубежная драматургия
- Песенная поэзия
- Водевиль
- Зарубежная поэзия
- Эпическая поэзия
- Поэзия
Бизнес
- Маркетинг, PR, реклама
Компьютеры и Интернет
- Прочая околокомпьтерная литература
- Интернет
- Базы данных
- Программы
- Программирование
- Компьютерное "железо"
- Программное обеспечение
Религия и духовность
- Религия: иудаизм
- Религия
- Эзотерика
- Прочая религиозная литература
- Самосовершенствование
- Православие
- Религия: христианство
- Зарубежная религиозная литература и эзотерика
- Религия: ислам
- Буддизм
- Хиромантия
- Индуизм
- Язычество, паганизм
- Бизнес
- Религия: окультизм
- Религия: протестантизм
- Религии: разное
Справочная литература
- Энциклопедии
- Прочая справочная литература
- Словари
- Руководства
- Справочники
Разная литература
- Подростковая литература
- Фанфик
- Отраслевые издания
- Военное
- Современная зарубежная литература
- Великолепные истории
- Музыка, музыканты
- Военная история
- Современная литература
- Гиды, путеводители
- Кино
- Цитаты из афоризмов
- Боевые искусства
- Литература 19 века
- Визуальные искусства
- Авто и ПДД
- Музыка, танцы
- Культура и искусство
- Изобразительное искусство, фотография
- Недвижимость
- Спецслужбы
- Зарубежная образовательная литература
- Начинающие авторы
- Истории из жизни
- Зарубежная прикладная литература
- Пословицы, поговорки
- Готические новеллы
- Шахматы
- Прочее
- Военная техника, оружие
- Газеты и журналы
- Периодические издания

Меню

ТОП за месяц

Спасти род. Том 2 - Кирилл Сергеевич Довыдовский

Все против всех (СИ) - Романов Герман Иванович

ЗАГАДКИ И ТРАГЕДИИ АРКТИКИ - Зиновий Каневский

Пермакультура Зеппа Хольцера Практическое применение для сада, огорода и сельского хозяйства Часть 2 - Зепп Хольцер

Последний попаданец 7 - Константин Зубов

Теги

Показать все теги

onlinekniga.com » Научные и научно-популярные книги » Языкознание » Прикладное программное обеспечение: системы автоматической обработки текстов - Михаил Мальковский

Прикладное программное обеспечение: системы автоматической обработки текстов - Михаил Мальковский

Читать онлайн Прикладное программное обеспечение: системы автоматической обработки текстов - Михаил Мальковский

Шрифт:

Интервал:

Закладка:

Сделать

1 2 3 4 5 6 7 8 9 10 ... 15

Перейти на страницу:

В последнее время также появляются автоматизированные системы "доперевода" или "перевода изменений". Их возникновение связано с тем, что большинство технических текстов (описания, инструкции) не являются целиком новыми (как и явления, продукты, механизмы и т.п., ими описываемые), а содержат в себе лишь некоторые изменения, связанные, например, с усовершенствованием конструкции. Система "доперевода" извлекает из памяти знакомые предложения, а новые куски предлагает переводчику. Заметим, что такой человеко-машинный способ генерации новых текстов также помогает согласованности в стиле и терминологии при переходе от одной версии к другой.

Развитием систем подобного вида можно считать канадскую (Канада - двуязычная страна, постоянно сталкивающаяся с проблемой перевода на государственном уровне) систему генерации прогнозов погоды Forecast Generator (FOG). Можно считать, что в ней перевод полностью заменен генерацией текстов. В памяти системы хранится 20 миллионов слов и словосочетаний, связанных с прогнозами погоды, что позволяет генерировать как английский, так и французский вариант непосредственно из базы данных. Конечно, успешная работа этой системы в значительной мере объясняется ограниченной природой текстов: сообщения о погоде являются классическим примером подъязыка. Ограниченность словаря, грамматики и семантики дает возможность достичь отличных результатов сравнительно простыми методами.

1.2. Генерация текста

С необходимостью генерации хотя бы простейших фраз разработчики практических систем столкнулись еще на заре их создания. Даже в столь примитивно организованной (в плане дружественности пользовательского интерфейса) среде, как DOS, при попытке сгенерировать стандартное сообщение о количестве скопированных файлов мы сталкиваемся с проблемой построения фразы: в зависимости от этого количества необходимо использовать разные слова (в английской версии file в случае одного файла и files, если больше; в русской - и того хуже: могут встретиться варианты файл, файла и файлов, причем правила, в каком случае какой из них использовать, достаточно сложны).

По степени сложности и выразительности существующие методы генерации сообщений принято подразделять на 4 класса (часто используются комбинации методов). Рассмотрим их на примере генерации сообщений о копировании файлов.

1) Canned-based methods

Неизменяющийся шаблон - просто печать строки символов без каких-либо изменений.

Для генерации сообщений создаются таблицы шаблонов, которые будут выдаваться в зависимости от ситуации. В нашем варианте при копировании одного файла будет напечатана первая строка таблицы:

1 file copied,

а в случае, например, трех - третья:

3 files copied

2) Template-based methods

Изменяющийся шаблон - бесконтекстная вставка слов в образец-строку (именно этот метод используется в MS-DOS):

Шаблон: вЂ№ЧисловЂє file(s) copied

может быть использован для генерации сообщений:

0 file(s) copied,

1 file(s) copied,

2 file(s) copied

3) Phrase-based methods

Контекстная вставка.

В зависимости от вида сообщения (контекста) шаблон может быть несколько изменен. Скажем, система может распознавать, с каким окончанием писать слово file в зависимости от их количества.

Шаблон: вЂ№ЧисловЂє вЂ№ОпределениевЂє вЂ№file/files при =1, вЂє1вЂє

вЂ№Глагол: время - прош.вЂє

может использоваться для генерации сообщений:

1 file copied,

2 marked files copied,

2 marked files deleted

4) Feature-based methods

Синтез сообщения на основе набора свойств (грамматических признаков).

Это наиболее сложный метод, он требует привлечения обширных лингвистических знаний, но, в то же время, он и наиболее привлекателен. Предложение определяется набором характеристик составляющих его слов (например, наличие/отсутствие отрицания, настоящее/прошедшее время) и правилами их сочетаемости.

Шаблон: вЂ№ЧисловЂє вЂ№ОпределениевЂє вЂ№file/files при =1, вЂє1вЂє

вЂ№Глагол: время - любоевЂє

позволяет генерировать сообщения:

1 file should be copied,

1 file was copied,

2 marked files were copied

Понятно, что генерация логически связных, целостных текстов является гораздо более сложной задачей: к правилам построения предложений добавляются правила их сочетаемости, правила развития сюжета, соблюдения стиля и т.п. Ввиду невозможности их полной формализации задачу генерации полноценных художественных текстов можно считать на настоящий момент неразрешимой. Однако для некоторых специализированных технических текстов эти правила строго оговорены некоторыми стандартами, немногочисленны и поэтому поддаются формализации. Примером таких текстов могут служить различные инструкции, техническая документация, тем более задача ее автоматической генерации давно назрела.

На Западе уже давно разработка документации превратилась в особую подотрасль разработки любых достаточно сложных систем (в том числе программного обеспечения). Сопроводительная техническая документация весьма разнообразна: руководство пользователя, руководство для менеджера (администратора) системы, руководство по монтажу (инсталляции) и первичному запуску, руководство по эксплуатации, руководство по интегрированию системы с другими устройствами (программами), проектные материалы и т.д. Однако часто пользователь не получает своевременно и в полном объеме необходимый ему материал, соответствующий используемой им версии системы. Это можно объяснить двумя причинами. Во-первых (субъективная причина), подготовка документации - это дополнительная работа, требующая дополнительного времени и дополнительных навыков (разработчику трудно изложить требуемое на понятном рядовому пользователю языке, остальным же надо сначала детально изучить систему). Во-вторых (объективная причина), документация устаревает по ходу модернизации системы.

Поиски решения этих проблем привели в свое время к появлению новой профессии "технического писателя". Однако понятно, что привлечение дополнительных работников ведет к удорожанию продукта. Поэтому в последние годы появились практические системы, осуществляющие помощь в разработке документации, вплоть до ее автоматической генерации. Форма и содержание документации часто выбирается не столько из соображений удобства и полезности для пользователя, сколько из соображений простоты ее создания.

Документация, как правило, содержит графическую и текстовую части. Графическую часть проще сформировать, однако без текстовой не обойтись: в ней описывается семантика продукта (назначение, технические данные, ограничения, детализация работы в разных режимах). Очевидно, что качественная система должна генерировать текст, правильный с точки зрения грамматики и синтаксиса естественного языка. Поскольку предметная область точно определена, а техническая документация составляется по определенным строго заданным правилам, степень формализации в постановке данной задачи существенно выше, чем в задаче машинного перевода, что позволяет надеяться на более высокие результаты.

1.3. Локализация и интернационализация

Для того чтобы иметь успех на международном рынке, программные продукты должны быть локализованы, т.е. приспособлены к культурным и языковым нормам потенциальных покупателей.

Для многих программных приложений локализация может быть сравнительно простой, когда основная программа (алгоритм) изменяется незначительно. Конечно, опции меню, сообщения об ошибках, экранные подсказки и другие текстовые строки, вставленные в программу, должны переводиться, но это не создает особых проблем, если при разработке приложения была предусмотрена возможность локализации. Для решения этой задачи программный код и текст должны быть разделены. По установленному стандарту текстовые строки оформляются в отдельном файле, вызываемом из программы. Таким способом текстовые строки можно переводить, не затрагивая исходный код.

Подобные принципы облегчения локализации возможны не для всех приложений. Системы, в которых естественный язык используется не только для формирования сообщений на экране, но и является предметом деятельности самой системы (например, программы-автокорректоры), поддаются локализации с большим трудом. Здесь могут потребоваться большие специализированные словари и полная переработка алгоритмов. Часто эта задача настолько сложна, что разработчик ею заниматься не может, и проблема локализации приложений является заботой пользователя-носителя языка.

В идеале для нашего многоязычного мира программные средства должны быть интернациональными; пользователь, купив версию программы для некоторого языка, не должен покупать другую версию для другого. Назрела необходимость иметь программные средства, позволяющие автоматически настраивать приложение на заданный язык. Пока мы довольно далеки от этой цели, но работы в этой области ведутся с большой интенсивностью, особенно в Европе, где в связи с образованием Европейского Союза возникает необходимость вести дела и документацию на всех официальных и некотором количестве неофициальных языков.