Словесность
win      koi      mac      dos      translit 



Теория сетературы:
Владимир Литвинов



ИЗДАНИЕ
КЛАССИЧЕСКИХ ЛИТЕРАТУРНЫХ ТЕКСТОВ
В ИНТЕРНЕТЕ
(Вводные замечания к теме)


Введение

Настоящие заметки посвящены теме, которая меня давно интересует: что такое текст (по преимуществу речь пойдет о тексте поэтическом) и каким образом можем мы помещать в Интернете тексты так, чтобы не просто получить еще одну копию известного текста (с этим может справиться и ксерокс, продукт деятельности которого может быть отправлен экспресс-почтой), но уяснить те аспекты его устройства, которые обычно остаются как бы подразумеваемыми (кем, когда и в каком объеме?) и поэтому ускользают от внимания или же отдаются на откуп специалистам, обладающим доступом ко всей необходимой информации. Речь пойдет о текстах по преимуществу т.н. "классических", т.е. бытующих сравнительно большой промежуток времени и неоднократно рассматривавшихся. Сочинение носит характер прагматико-эссеистический и на научность не претендует.



1. Текст как объект

Текст в первом его рассмотрении является объектом, отделенным от других объектов: когда мы видим стихотворение, мы видим его в первую очередь как нечто отдельное от других вещей, состоящих из слов. Каждый текст обладает своей уникальной структурой, заслуживающей отдельного изучения. На языке рабочего подхода к представлению литературного текста в Паутине это выразится в том, что каждый текст, объем которого технически позволяет передавать его по Сети, должен существовать и в качестве отдельного файла. Тексты объема большего, чем подходящий для передачи по Сети, должны превращаться в гипертекст, т.е. состоять из фрагментов необходимого размера и механизмов навигации, обеспечивающих гипертекстовое единство фрагментов. Внутреннее строение этого объекта можно охарактеризовать как имеющее разноуровневую сегментацию, которая зрительно представляется следующим образом: слово / строка / стихотворная строка (задается принудительной разбивкой; для прозаического текста это не релевантно) / абзац / более крупные единства. Это означает, что мы должны иметь какие-то инструменты для отражения этой сегментации, т.е. текст должен иметь возможность проявляться (быть показанным) в соответствии с этой сегментацией. Соответственно, каждый из таких сегментов должен иметь некий адрес в пределах границ текста, то есть, поскольку мы говорим о тексте в Сети, некий (относительный?) адрес в пределах данного файла. Предлагаемый вариант: установка при помощи соответствующего инструментария индивидуальных закладок на каждом слове, строке и более крупных сегментах. Кроме того, текст должен иметь описание не только компьютерное (URL), но и "человеческое", т.е. должен эксплицитно содержать указание на свое происхождение (на книгу, свое место в составе книги и того, кто перевел его из книги в Сеть). Фрагменты гипертекста, изначально бывшие едиными книгами (большими текстами), должны также лежать в виде архивов (самораскрывающихся) на FTP-сервере, чтобы пользователи могли организовывать свои путешествия внутри этого текста (см. ниже).



2. Текст как отношение

Во-первых, идеальные в текстологическом аспекте тексты крайне редки. Существует рукопись, в принципе представимая как графический файл (файлы), существуют разные редакции, черновики и отброшенные фрагменты. Существуют ошибки (ошибки при вводе текста в больших количествах практически неизбежны), опечатки, разночтения и пр. Поэтому кроме механизмов разнообразного представления одного текста нужны механизмы представления текста как вариативной структуры и возможности одновременного просмотра разных вариантов этой структуры. С другой стороны, тексты существуют и как взаимодействие различных интерпретаций, в простейшем виде как текст и набор комментариев к нему. Публиковать тексты без комментариев представляется недостаточным, а гипертекст в данном случае становится насущной необходимостью. Фреймовые структуры представляются весьма уместными для показа комментариев и другой справочной информации (индексов, конкордансов и пр. - см. ниже). Впрочем, системный администратор или же веб-мастер, монопольно владеющий истиной по поводу предпочтительного комментария и написания текста - картина достаточно гротескная. Поэтому публикация текста перерастает в процесс диалога и постепенного уяснения предпочтений, что делает публикацию текста не единовременным актом, а интерактивным процессом, включающим многие действующие лица. Сеть в этом случае действительно станет не игрушкой или высоким ремеслом для избранных, но механизмом, задействованным по принципам, присущим и внесетевой культуре, но, хочется верить, упрощающим механизмы обмена релевантной информацией.



3. Математическая обработка. Индексы по тексту как средство навигации

Когда мы сталкиваемся с новым текстом, мы volens nolens ставим его в отношение к другим текстам других авторов. Этим заниматься тем удобнее, чем больше авторов вводится в наше рассмотрение и чем они лучше описаны. Самый полный и самый реальный вариант описания текста - построение конкорданса к тексту с отсылками в места употреблений (упомянутые выше закладки) на всех введенных авторов. При этом традиционные средства поиска могут оказаться неадекватными в связи с индивидуальным (иной раз резко индивидуальным) словоупотреблением, и лучше иметь полное описание лексики текста или возможность по запросу (причем запрос может включать как лексемы, так и отдельные форманты) получать отсылки на конкретные тексты, а также возможность получить количественное отношение к другим аналогичным элементам текста. То есть элементы лингвистического анализа текста можно совместить с механизмами навигации и предоставить всем желающим. Первым шагом в этом направлении является программа Word Tabulator, разработанная Сергеем Логичевым (г. Снежинск) (кр. описание). Одна техническая оговорка: для того чтобы выходные индексы были упорядочены с точки зрения последовательности ссылок, тексты в анализируемых гипертекстах лучше иметь с цифровыми именами, при этом порядок должен быть правильным с точки зрения и компьютера, и человека. Текст, идущий в книге первым, с точки зрения человека должен иметь имя "1" (далее "2" и т.д.). С точки зрения операционной системы за "1" идет не "2", а "10", поэтому если текстов много , то первый текст должен иметь имя "001", второй - "002", десятый - "010", а сотый - "100", и в этом случае при математической обработке тексты будут обрабатываться в заданной последовательности. Другой важный аспект рассматриваемого аспекта функционирования текста в Сети - потенциальная возможность сравнения конкретного словоупотребления в данном тексте с общеязыковым словоупотреблением того временного среза, к которому относится рассматриваемый текст. Почему потенциальные: существуют словарные базы данных (см. Бюллетень машинного фонда ИРЯ ([email protected], [email protected], [email protected]), которые могут быть сделаны доступными через Интернет и снабжены поисковым механизмом (если это будет сделано - большой прогресс, но это дело связано с немалыми затратами).



4. Старая орфография и иноязычные цитаты

При публикации текстов в Интернете и разработке технологии для публикации большого количества текстов встает интригующий вопрос: что делать с текстами, которые не переиздавались после 1918 года, то есть после реформы орфографии, которая произошла в этом году. Как известно, до реформы русская графика включала знаки "i", ижицу, фиту и ять, причем последний был в старой орфографии весьма частотным и значимым, но в настоящее время не входит в кодовую страницу для кириллицы и занимает самые разные места в таблицах шрифтов. Что-то нужно придумывать: или писать утилиту, которая автоматически преобразовывает старую орфографию в новую, или заводить ять в кодовую таблицу, или приписывать этому знаку обозначение, как это сделано для европейской графики с диакритикой и греческих символов ( в том числе для ижицы и фиты) в ISO 8859-1, или еще что-то.



5. Ориентация на пользователя

Предлагаемый вариант осуществления публикации литературных текстов должен удовлетворять требованиям двух категорий пользователей: специалистов и неспециалистов. Специалисты получают текст, которым можно пользоваться в своих работах, и новые инструменты анализа текста, а неспециалисты получают текст, который удобно читать: щелк мыши дает возможность увидеть комментарий (если это интересно), а нет желания - и пропустить этот комментарий и по второму щёлку вернуться в исходный текст, не тратя времени на нахождение комментария в примечаниях и нахождение того места, которое было последним прочитанным.



6. Стоимость бумажного и сетевого издательства

При нынешней восхитительной анархии в издательском деле очень трудно рассчитывать на появление в необходимом количестве изданий русской литературы, удовлетворяющих как специалистов, так и неспециалистов. Сетевое издательство, представляющееся менее дорогостоящим, достаточно доступным и легко осуществимым, смогло бы открыть новый этап освоения русской литературы. Возможности математической обработки текстов он-лайн также представляются осуществимыми и весьма привлекательными. При сетевом издании литературных текстов можно договориться о единых стандартах и распределить области вводимой литературы с конечной целью создания единого ГИПЕРТЕКСТА, включающего все, что должно быть включено.



7. Благодарности

Автор благодарен Игорю Пильщикову, Евгению Горному и Роману Лейбову, поделившимся с автором многими идеями по теме заметок, а также сотрудникам Машинного Фонда ИРЯ за предоставленные материалы.

© Владимир Литвинов, 1998-2003.
© Сетевая Словесность, 1998-2003.







11.10.2003 Сегодня в РЖ Недомагистры и перебакалавры   Живой журнал словами писателей   А не рано ли ставить точку?   В Тулу со своим самоваром, или "Волшебное слово" Виталия Левенталя   Все о поэзии 154   Как Фрейд стал кормилицей   Летящий пульс маэстро   "Вечный плот" в России   Нестрашный суд, или Скандальные ошибки филологов. Точка в дискуссии   Проблема реальности   Шведская лавка 127   Удар русских богов   Пир победителей   Похитители тел   Строгие юноши   20 лет GNU   Устроителям книжной ярмарки во Франкфурте   Вчера открылась Франкфуртская книжная ярмарка   Игра по правилам Турнье   РЖ под двумя судами  
Словесность Рецензии Критика Обзоры Гуманитарные ресурсы Золотой фонд РЖ
Яркевич по пятницам Интервью Конкурсы Библиотека Мошкова О нас Карта Отзывы