Полнотекстовые базы данных реферат

Обновлено: 04.07.2024

Содержание темы: Основные концепции электронного текста. Полнотекстовые базы данных. Файл полного текста. Частотный словарь, инверсный файл. Поиск в полнотекстовых базах данных. Модели и стратегии поиска. Понятие об ассоциативном поиске. Нечеткий поиск. Полнотекстовый и библиографический поиск. Построение и исследование информационных профилей и частотных словарей. Система ТАСТ. Интерфейс пользователя. Создание базы данных на основе исходного документа. Средства представления базы данных. Возможности поиска. Правила и категории. Изучение взаимосвязей элементов текста и измерение частоты совместной встречаемости .

Полнотекстовые БД определяются как БД, в которых хранятся записи полнотекстовых документов или их частей. Полнотекстовые БД значительно расширяют возможности доступа, предоставляя один и тот же текст в различных форматах (ascii text, .html, .sgml, .pdf), включая иллюстрации, графики и таблицы изображения.

Технология создания полнотекстовых ресурсов предполагает получение файла полного текста в библиотеке–держателе документа. Это работает не для всех документов, а только для периодических изданий. Первичный документ в формате Adobe Acrobat создается в библиотеке-филиале. Далее документ передается в отдел создания баз данных для регистрации его в полнотекстовом электронном массиве, который затем синхронизируется во все библиотеки системы. При этом файл полного текста , библиографическое описание и создание ссылки осуществляется в библиотеке-филиале.

Для уменьшения затрат на создание библиографического описания используются различные схемы заимствования из каталогов и баз данных. Для этого используются:

базы данных с компакт-дисков ИНИОН;

распределенные базы данных библиотек, доступные по протоколу Z39.50;

различные ретроспективные базы данных библиотек.

Распределенные технологии создания и ведения электронного каталога без использования постоянного соединения с Интернет предполагают дополнительные технологии по обработке информации в библиографических записях. Для этого используются технологии алгоритмических кодов записей, которые позволяют проводить различные дополнительные проверки данных в библиографических записях на предмет:

степени похожести записей;

Частотный словарь (или частотный список) — набор слов данного языка (или подъязыка) вместе с информацией о частоте их встречаемости. Словарь может быть отсортирован по частоте, по алфавиту (тогда для каждого слова будет указана его частота), по группам слов (например, первая тысяча наиболее частотных слов, за ней вторая и т. п.), по типичности (слова, частотные для большинства текстов), и т. д. Частотные списки используются для преподавания языка, создания новых словарей, приложений компьютерной лингвистики, исследований в области лингвистической типологии, и т. д.

Инвертированный файл (inverted file, инверсный файл, инвертированный индекс, инвертированный список) – индекс поисковой системы, в котором перечислены слова коллекции документов, а для каждого слова перечислены все места, в которых оно встретилось.

Все способы поиска в текстах достаточно сильно зависят от конкретной программной реализации различных алгоритмов и требуют от пользователя неплохого знания особенностей программирования запросов на поиск.

Для решения задачи поиска информации по содержанию пользователю обычно предлагается не более двух методов.

Первый основан на использовании различных механизмов поиска групп символов (полных слов или их фрагментов) в текстах документов с учетом нескольких логических условий или их комбинаций (одновременное присутствие в документе нескольких терминов, отсутствие термина или альтернатива присутствия любого из выбранных терминов в одном тексте).

Второй механизм поиска ориентирован на совершенно неподготовленного пользователя и базируется на различных классификаторах информации.

Информация предварительно вручную или автоматически по некоторым ключевым словам отбирается и "привязывается" к соответствующей теме (рубрике) классификатора. Как правило, таких классификаторов предлагается не более двух и их объем не превышает 1000 тематик. Задача потребителя состоит в том, чтобы в предложенном иерархическом списке найти тему в наибольшей степени соответствующей его проблеме, а затем просмотреть все тексты, отнесенные поставщиком информации к просматриваемой рубрике.

Все имеющиеся классификаторы страдают следующими пороками, фатальными с точки зрения успешности процесса поиска:

неоднородность (деление материала на одном уровне должно производиться по одному основанию, иначе найти "свою" тему достаточно сложно);

недостаточность (классификатор должен исчерпывающе разделить весь существующий материал, в противном случае часть тем в нем вообще никак не отражена);

нарушение отношений логической соподчиненности (что существенно затрудняет процесс поиска темы);

низкая эргономичность (пользователь не может эффективно осуществлять выбор из альтернатив количеством более 7, также как он не в состоянии просмотреть с экрана компьютера и осмыслить выборку документов более 15).

Существенное затруднение в анализе найденного материала также вызывает также то обстоятельство, что в большинстве случаев единицей классификации является не фрагмент текста, как например, абзац, часть статьи, а полный документ, например, Гражданский кодекс Российской Федерации.

Единственный практический метод решения достаточно нечетких задач типа содержательного поиска в текстах - это применение системного подхода.

В любом высказывании всегда имеется или подразумевается:

Активный субъект : одушевленное подлежащее, отвечает на вопрос "кто?" и исполняет действие. Например, "Каждый гражданин Российской Федерации обладает на ее территории всеми правами. " или "Беженцы и вынужденные переселенцы. "

Пассивный субъект : одушевление косвенное дополнение или подлежащее, отвечает на вопросы "кому?", "кого?", "кто?", на него направлено действие. Например, "Трудоспособные дети, достигшие 18 лет, должны заботиться о нетрудоспособных родителях" или "преступления против личности".

Предмет или объект : неодушевленное прямое дополнение или подлежащее, отвечает на вопросы "что?", "чего?" и является точкой приложения действий. Например, "В Российской Федерации гарантируется единство экономического пространства" или "Государственная граница".

Действие или процесс : сказуемое (глагол или любые отглагольные части речи - существительное, причастие, деепричастие), отвечает на вопросы "что делает?", "что?". Например, "Каждый гражданин Российской Федерации обладает на ее территории всеми правами" или "Ответственность за нарушение трудового законодательства"

Место события (действия) : обстоятельство места отвечает на вопрос "где?" и характеризует расположение субъектов или объектов в пространстве. Например, "Каждый гражданин Российской Федерации обладает на ее территории всеми правами" или "Районы Крайнего Севера".

Способ : обстоятельство образа действия, отвечает на вопрос "как?", "каким образом?". Например, "В Российской Федерации признаются и защищаются равным образом частная, государственная, муниципальная и иные виды собственности" или "Претензионный характер урегулирования споров"

Время : обстоятельство времени, отвечает на вопросы "когда?", "как долго?" и уточняет вопрос длительности процесса или момента наступления события. Например, "До судебного решения лицо не может быть подвергнуто задержанию на срок более 48 часов" или "Сроки. Исковая давность" или "Действие уголовного закона во времени и в пространстве".

Совокупность таких "элементарных позиций" образует практически содержательное описание явления или события и не зависит от языка текста (с использованием системы классификаторов на различных языках и автоматического перевода она дает возможность работать с материалами на иностранных языках).

При обработке запроса ключевые слова по умолчанию связываются логическим оператором AND . При составлении поискового выражения можно использовать логические операторы AND , OR , NOT , введенные прописными буквами.

Для принудительного поиска по фразе можно использовать двойные кавычки.

Чтобы ограничить поиск определенной областью описания документа, можно использовать специальные операторы. Специальные операторы заключаются в квадратные скобки и располагаются после ключевого слова без пробела. Специальные операторы можно использовать в сочетании с логическими (например: dna[mh] AND crick[au] AND 1993[dp] ). Круглые скобки используются для составления сложного поискового предписания.

Опции раскрывающихся меню позволяют производить поиск по определенным полям описания документов:

AN - номер статьи в БД ;

AS - авторский реферат .

DA - дата добавления документа к базе;

DP - дата публикации;

FM - наличие иллюстраций ;

LA - язык документа;

PG - номер страницы;

PS - имя персоны, как предмет;

PT - тип публикации;

SB - тема журнала;

SO - название журнала ;

TA - аббревиатура название журнала;

TI - слова из заглавия.

Данный режим содержит поле для ввода запроса и набор фильтров, ограничивающих область поиска по различным параметрам.

Данный режим поиска позволяет узнать количество найденных статей перед тем, как результат будет выведен на экран.

ПС PubMed сохраняет информацию о результатах поиска в следующей форме: порядковый номер поиска, время проведения поиска, поисковое выражение и количество найденных статей.

Данный режим дает возможность сгруппировать выбранные записи одного или нескольких исследований. Максимальное количество записей в буфере обмена 500.

Полноте́кстовый по́иск — поиск документа в базе данных текстов на основании содержимого этих документов, а также совокупность методов оптимизации этого процесса. Примером полнотекстового поиска может служить поиск, выполняемый любой поисковой системой типа Google , Yahoo! , Mogmo , Yandex и других.

Первые версии программ полнотекстового поиска предполагали сканирование всего содержимого всех документов в поиске заданного слова или фразы. При использовании такой технологии поиск занимал очень много времени (в зависимости от размера базы), а в интернете был бы невозможен. Современные алгоритмы заранее формируют для поиска так называемый полнотекстовый индекс — словарь, в котором перечислены все слова и указано, в каких местах они встречаются. При наличии такого индекса достаточно осуществить поиск нужных слов в нём и тогда сразу же будет получен список документов, в которых они встречаются.

Библиографические (реферативно-библиографические) БД содержат описания публикуемых (книги, статьи, доклады, тезисы и пр.) и непубликуемых (авторские свидетельства и патенты, отчеты, диссертации и др.) документов, для которых обычно дается полное библиографическое описание, набор ключевых слов и рубрикационных шифров, раскрывающих тематику и содержание документа, а также приводятся рефераты или аннотации работ.

Формирование информационных массивов библиографических и любых иных БД обязательно включает процесс предварительного индексирования первоисточников классификационными шифрами, ключевыми словами и дескрипторами.

Это дает возможность поддерживать жесткую структуру описания индексируемых документов по определенным полям , что обеспечивает гораздо лучшие результаты поиска. В том случае, когда для автоматизированного информационного поиска используются рефераты, это существенно повышает количество найденных релевантных документов.

Поэтому в электронные версии некоторых традиционных библиографических изданий (Index Medicus, Current Conents, Scienc e C itation Iindex) стали включаться авторские резюме.

Компьютерная программа TACT предполагает максимальное исключение личностного фактора на этапе выявления смысловых связей, что существенно повышает объективность исследования.

Программа предоставляет возможность совмещения количественных расчетов с качественным анализом текста, оставляет существенное место "человеческому фактору". Творческая роль исследователя активно проявляется на этапе формирования смысловых категорий контент-анализа, а также на этапе изучения и интерпретации полученных контекстных употреблений тех или иных терминов исследуемого документа (заметим, что именно исключение творческого элемента при использовании метода компьютеризованного контент-анализа всегда вызывало сомнение даже у сторонников этого метода).

К разряду функциональных плюсов следует отнести простоту в использовании, что весьма важно для гуманитариев, возможность исследовать источник одновременно по нескольким параметрам и удобную процедуру сопоставления полученных результатов благодаря работе в многооконном режиме.

TACT позволяет определить количество обращений в документе к интересующим исследователя проблемам, а также выявить контекст, в котором они рассматривались. Весьма важной является возможность определения глубинных взаимосвязей между смысловыми категориями так именуются обобщенные понятия, сформированные на основе индикаторов понятий, наиболее полно описывающих интересующую исследователя проблему, с терминами текста документа.

Это позволяет выявить качественно новые смысловые пласты источника, которые, как правило, бывают неотрефлексированными на уровне его традиционного изучения.

Это становится возможным благодаря наличию специальной функции определения коэффициента смысловой связи (Z-score, или Z коэффициент), который определяется, исходя из близости и частоты совместного употребления терминов в исследуемом документе. На основе определения Z-коэффициента, TACT позволяет обратиться к вариантам совместного употребления смысловых категорий и терминов документа непосредственно в тексте и провести анализ контекстного употребления (наибольший интерес вызывают высокие показатели коэффициента смысловой связи, указывающие на устойчивую взаимосвязь двух терминов в рамках исследуемого документа).

При изучении программных документов оказывается технически задействованным традиционный алгоритм ТАСТа. Для каждого из обозначенных блоков формируется ряд категорий (обычно не более шести), которые в совокупности наиболее полно характеризовали бы позицию партии по отношению к каждому из блоков. Дальнейшее их изучение подразумевает определение количества обращений к исследуемым вопросам в документе, изучение распределения обращений к ним в рамках документа, как основную задачу установление смысловых связей между каждой смысловой категорией и терминами текста документа, определение коэффициентов их смысловой взаимосвязи, изучение контекстов совместного употребления категорий и терминов.

Заслуживающим внимания моментом является также процесс формирования смысловых категорий, который происходит в два этапа. Первоначально для каждой из интересующих проблем, тем исследования формируется набор терминов, индикаторов, наиболее полно их описывающих в рамках анализируемого документа, которые объединяются в смысловые категории анализа. Второй этап заключается в повторном формировании смысловых категорий на основе унификации терминов текста документа.

Это является необходимым в связи с высокой степенью вариативности русского языка (различные суффиксы, окончания), в результате чего имеющие одинаковую смысловую нагрузку термины (например, "кризис", "кризиса", "кризису") интерпретируются ТАСТом как разные, и для каждого из них определяются отдельные коэффициенты смысловой связи со смысловыми категориями, что снижает представительность результата. Унификация производится путем замены вариативных частей терминов условными знаками.

Контент-анализ включает в себя как количественный , так и качественный анализ текста.

Первый дополняет второй, а их сочетание углубляет понимание смысла любого текста. Контент-анализ позволяет обнаружить в документе то, что ускользает от поверхностного взгляда при его традиционном изучении, но что имеет важный социальный смысл.

Когда контент-анализ выступает единственным методом информации, оперируют не одной, а сразу несколькими единицами анализа.

Количественными единицами контент-анализа являются единицы счёта и единицы контекста.

Единицы контекста используются для обозначения того сегмента текста, в пределах которого определяется частота упоминания соответствующих категорий и подкатегорий. Единицей контекста может служить предложение, статья, ответ на вопрос анкеты, интервью и т.д.

Затем устанавливается единица счета , т.е. количественная мера единицы анализа, позволяющая регистрировать частоту (регулярность) появления признака категории анализа в тексте. Единицами счета могут быть число определенных слов или их сочетаний, количество строк, печатных знаков, страниц, абзацев, авторских листов, площадь текста, выраженная в физических пространственных величинах и многое другое.

Богомолова Н.Н. И Стефаненко Т.Г. выделяют два вида подсчётов частоты упоминаний категорий и подкатегорий при квантификации: а) сплошной, терминологический, б) сегментарный, типологический.

При сплошном подсчёте регистрируются, а потом подсчитываются все появления индикаторов данной категории или подкатегории. При сегментарном, тематическом подсчёте упоминаний категорий регистрируется лишь первое появление данной категории в единице контекста, а повторные упоминания этой категории в данной единице контекста не учитываются.

Единицей счёта может быть объём - физическая протяженность или площадь текстов, заполненная смысловыми единицами. Объём упоминаний категорий может измеряться различными способами: подсчётом числа строк, печатных знаков, квадратных сантиметров площади, посвященных данной категории и т.д.

В основу системы кодирования должна быть заложена по крайней мере одна (или несколько) из следующих четырех характеристик содержания текста: частоты, направленности, интенсивности и пространства. Как уже отмечалось выше, чаще всего измеряют частоту и объём занимаемого пространства. В исследовательском проекте, основанном на контент-анализе, исследователь может замерить как одну, так и все четыре характеристики. Поясним, что собой представляет каждая из них.

Частота. Это всего лишь фиксация и подсчет, имеет ли нечто место или нет, а если да, то как часто. Например, сколько пожилых людей появляется в телевизионных программах на протяжении одной недели? Какова их доля среди всех персонажей? Или же какова доля этих программ среди остальных?

С точки зрения профессиональной информационной деятельности одной из главных и наиболее ценных составляющих всего совокупного потенциала Интернет являются электронные библиотеки. Само словосочетание "электронная библиотека" относительно новое и еще не имеет общепринятого научного толкования. Под электронными (цифровыми, виртуальными) библиотеками разные исследователи понимают различное содержание: начиная с простого перечня файлов на любом компьютере и заканчивая всем содержательным наполнением Интернет. На наш взгляд электронные библиотеки можно определить как упорядоченные коллекции разнородных электронных документов, снабженные средствами навигации и поиска. Подобное толкование позволяет выделить столь важную отличительную черту электронных библиотек как обязательное наличие заданной структуры и навигационно-поисковых средств, обеспечивающих ориентирование в документах. Это дает возможность исключить из понятия "электронная библиотека" беспорядочные файловые массивы, не объединенные единой иерархической структурой и системой индексации. Термин "разнородные" позволяет отделить электронные библиотеки от архивов периодических изданий, в которых представлены выпуски лишь одного издания. В таком понимании мы и будем рассматривать в дальнейшем данный термин.
Начало созданию электронных библиотек было положено в 60-е годы в Соединенных Штатах Америки. Собрания разнообразных электронных документов формировались в военных, академических и образовательных организациях, а также крупнейших промышленных корпорациях под конкретные задачи. Ситуация периода 50-70-х годов характеризуется весьма распространенным в то время термином - "информационный взрыв". Суть этого явления заключалась в достижении предельного порога, ограничивающего возможности освоения информационного массива потенциальным потребителем информации. Иными словами, количество изданий, посвященных определенной отрасли знания, стало настолько велико, что превзошло физические возможности отдельного человека в освоении всего объема новых данных даже в пределах сравнительно узких отраслей знания. Неудивительно, что этот период характеризовался господством взглядов, согласно которым легче и дешевле повторить исследование, нежели найти результаты уже проведенных аналогичных разработок.
В такой ситуации именно формирование электронных библиотек позволило укротить казавшийся безудержным вал информации и заставило по-новому взглянуть на возможности хранения и поиска данных. Сказалось главное преимущество цифровых документов - разыскания в них могли вестись не только по сведениям титульного листа, но и по всему тексту. Эта особенность кардинально расширяла возможности информационного поиска: гигантские массивы документов, представленные в виде компьютерных файлов, могли быть просмотрены за считанные минуты, с выделением релевантных источников из многих тысяч изданий. Образно говоря, нескончаемые ряды книжных стеллажей с пыльными фолиантами, пугающими своими объемами, стали "прозрачны" для читателей - появилась возможность быстро просматривать все их содержание под любым ракурсом, в любом аспекте, вычленяя необходимое и отсеивая ненужное.
Первоначальные характеристики электронных изданий были более чем скромны. Простейшие текстовые ASCII файлы не допускали даже таких примитивных полиграфических изысков как курсив и выравнивание заголовков по центру. Однако по мере совершенствования технологий в 90-е годы электронные тексты стали обогащаться иллюстрациями, графиками и таблицами, обретая вид, близкий, а порой и полностью идентичный своим бумажным аналогам.
Гигантский импульс развитию электронных библиотек был придан началом эры глобальных компьютерных сетей. Интернет в неизмеримое число раз увеличил аудиторию потенциальных посетителей электронных библиотек, которыми стали фактически все пользователи Сети. Доступность расположенных в глобальных сетях документов для огромной аудитории повсеместно побудило целые корпорации и отдельных граждан серьезно заняться формированием цифровых собраний, число которых исчисляется ныне десятками тысяч и продолжает стремительно увеличиваться.
С точки зрения возможностей применения в информационной деятельности сетевые электронные библиотеки логично разделить на две основные категории: бесплатные электронные коллекции текстов и коммерческие полнотекстовые базы данных.
^ ЭЛЕКТРОННЫЕ КОЛЛЕКЦИИ ТЕКСТОВ
Бесплатные электронные библиотеки формируются, как правило, отдельными энтузиастами или сообществами, заинтересованными в продвижении собственных взглядов. Несколько менее распространенной разновидностью существования бесплатных электронных собраний является их организация и поддержка с целью превратить сайт в посещаемый портал с возможностью получать устойчивый доход от размещаемой рекламы.

^ Первая страница Библиотеки Максима Мошкова. Более чем скромный дизайн и примитивная структура. Зато объемы внушают уважение.

^ Первая страница романа Жюля Верна "Двадцать тысяч лье под водой" из фондов netLibrary.

^ Вид статьи в формате PDF из базы данных ProQuest.

^ Вид списка результатов поиска в ProQuest.

В профессиональных базах данных полные тексты предстают перед пользователем в виде HTML-документов или PDF-файлов. Особенностью последних является способность представлять документ именно в том виде, как он существует в печатной копии, с сохранением колонок, таблиц, иллюстраций и т.д. В тоже время все содержание такого документа может быть доступно для поиска (проиндексировано). Источники в PDF можно не только просматривать (читать) в онлайновом режиме, но и сохранять на собственном компьютере для дальнейшей работы.
Пользование коммерческими базами осуществляется по предварительно подписке, которая оформляется, как правило, на один год. Технически доступ осуществляется по предварительно выданным имени пользователя и паролю или по IP-адресу. Последний способ наиболее выгоден для организаций, в частности библиотек, поскольку позволяет предоставлять пользование такими базами данных с любых компьютеров, расположенных в учреждении (находящихся за одни IP-адресом).
В настоящее время стоимость доступа к полнотекстовым базам данных весьма высока. Серьезные затраты на сканирование и распознавание текста, описание и индексирование документов, приобретение лицензий от владельцев авторских прав делают себестоимость конечного продукта весьма высокой. Сравнительно малое число подписчиков заставляет владельцев электронных собраний держать высокие цены, дабы окупить собственные затраты и получить прибыль (при существенном повышении числа подписчиков стоимость доступа для каждого отдельного пользователя может быть значительно снижена). Однако уже сегодня возможность получения огромного массива данных в любой точке земного шара, где есть доступ к Интернет, привлекает все более значительное число пользователей, среди которых безусловное лидерство держат крупные корпорации, деятельность которых основывается на анализе информации. Высокая стоимость доступа для остальных категорий пользователей несколько смягчается позицией традиционных библиотек, которые в ряде случаев предпочитают подписку на полнотекстовые базы данных, непосредственному приобретению книг и журналов в собственный фонд.
Кроме того, практически все коммерческие базы данных позволяют в той или иной мере воспользоваться своими ресурсами без оформления платной подписки. Некоторые базы можно весьма эффективно применять в качестве библиографических источников, без возможности получать полные тексты документов. Типичным примером является сервис Library Reference Center (http://search.epnet.com/reflogin.asp) компании EBSCO, позволяющий осуществлять библиографический поиск в базе данных статей из более чем 30 ведущих англоязычных библиотечных журналов. Другие полнотекстовые библиотеки открывают доступ для всех желающих в "непиковое" время или на определенный период - в виде "ресурса месяца" и подобных формах. Внимательное изучение характеристик представленных источников поможет выявить те из них, которые обладают дополнительными ценными свойствами. Классическим примером служит предоставление компанией ProQuest доступа к авторефератам диссертаций, защищенных в США, Канаде и Тихоокеанском регионе за последние два года (http://wwwlib.umi.com/dissertations). Эта база позволяет выполнять многоаспектный поиск, просматривать полные тексты авторефератов в виде сканированных копий и выводить их на печать. Наконец последним и практически уникальным "ключом" к ресурсам коммерческих цифровых собраний при ограниченности бюджета является оформление бесплатного "пробного доступа" (free trail). Естественно, что такие методы мало годятся для систематического использования ресурсов, однако крайне полезны для детального ознакомления с возможностями различных баз данных.
В настоящее время к наиболее значимым коммерческим полнотекстовым проектам относятся следующие:

^ Зарубежные коммерческие полнотекстовые базы данных

Один из крупнейших комплексов баз данных, включающий в общей сложности более 31 тысячи источников, многие из которых представляют собой текущие периодические издания. Проект начинался как полнотекстовая база данных юридической тематики, которая была затем дополнена новостными источниками, правительственными документами, финансовой информацией и академическими собраниями. В настоящее время в различной степени охвачены практически все отрасли знания. Помимо прочих, включено некоторое число русскоязычных изданий. В настоящее время LexisNexis - собственность Reed Elsevier Inc.

Dialog - первая онлайновая информационно-поисковая система в мире. Открытие датируется 1972 годом, когда в составе имелось всего две базы. В настоящее время Dialog включает 573 базы данных, относящихся к самым различным отраслям знания. Представлены правительственные документы, архивы периодических изданий, материалы по бизнесу и финансам, энергетике, химии, фармацевтике, медицине, наукам интеллектуальной собственности, технике, естественным и общественным наукам. Ныне собственность Thomson Corporation.

Линия продуктов ProQuest включает порядка сотни основных баз данных, среди которых отраслевые и тематические полнотекстовые собрания, реферативные и библиографические базы данных, электронные архивы известнейших газет и журналов. Имеет договоры с более чем 8.500 издательств по всему миру, в соответствии с которыми получает компьютерные версии изданий в момент или даже до появления печатных оригиналов. Подобным образом пополняются базы периодических изданий, среди которых Washington Post, Wall Street Journal, USA Today, отраслевые базы данных Accounting and Tax Database, Criminal Justice Periodical Index, ProQuest Religion, ProQuest Telecommunications и многие другие.
ProQuest также целенаправленно занимается оцифровкой имеющих большую историческую ценность законченных собраний, которые включаются в линию продуктов под названием "Digital Vault" ("Цифровой свод"). Примерами могут служить полнотекстовые базы "Women's History Online", " Genealogy and Local History Online", "Early English Books Online", полные архивы газет Christen Science Monitor, New York Times и другие.
К настоящему моменту суммарный объем ProQuest превышает 5.5 миллиардов страниц и число их продолжает стремительно увеличиваться. Полные тексты представлены в нескольких вариантах: HTML, HTML с встроенной сканированной иллюстрацией и PDF. Тенденция - полный переход на PDF.

Представлено более 250 баз данных относящихся к бизнесу и финансам, сельскому хозяйству, медицине, фармакологии, естественным и общественным наукам. Среди прочих баз данных - MEDLINE с возможностью получения доступа к полным текстам документов. Предоставляется 30-дневный пробный доступ.

Представлено более 200 баз данных сугубо академической направленности. К некоторым базам данных предоставляется бесплатный пробный доступ сроком на 4 дня (определяется по IP-адресу) - STN Sneak Preview. Однако используемая поисковая система базируется на telnet и потому крайне сложна для освоения.

Проект образован в 1998 году как служба, ориентированная на работу прежде всего с реальными библиотеками. Предлагается более 37 тысяч электронных книг (eBooks). Допускается поиск по полным текстам, обращение к словарю, использование закладок и даже записи на полях. В бесплатном доступе находится десяток книг, демонстрирующих возможности работы с электронными изданиями. В настоящее время netLibrary является структурой OCLC.

^ Российские коммерческие полнотекстовые базы данных

Проект Российского Фонда Фундаментальных исследований, целью которого является обеспечение доступа российских научных организаций, включая научные библиотеки, к зарубежной академической периодике преимущественно естественнонаучного профиля. Включены полные тексты книг и журналов, публикуемых известнейшими зарубежными издательствами, среди которых Blackwell, Kluwer, Elsevier, Springer, Royal Society of Chemistry, а также ISI (Институт научной информации). Доступ ко всему массиву предоставляется бесплатно после заключения договора между Научной Электронной Библиотекой и академической организацией. Есть также частичный бесплатный тестовый доступ.

^ Интерфейс ввода запроса в базе данных Интегрум-Техно.

^ Арнаутов С.А. Роль и место научных электронных библиотек // Электронные библиотеки - 2001.- Т.4, Вып. 6

Земсков А.И. Электронные библиотеки и развитие Информационного Общества в России // Электронные библиотеки. - 2001.- Т.4, Вып. 6

Читайте также: