Статьи рефераты обзоры и прочие публикации научного характера хранящиеся в интернете это

Обновлено: 05.07.2024

Трудно найти черную кошку в темной комнате.
Особенно, если ее там нет.

Конфуций
(о поиске в Интернете)

Сегодня, когда Интернет стал одним из основных источников информации, поиск в Сети приобретает все большую практическую ценность. Но с быстрым увеличением объема доступных данных все более усложняется и сама процедура поиска. В своем изложении я буду опираться на понятие "информационный ресурс". Попробую уточнить, что это такое.

Классификация информационных ресурсов

В Сети наличествует гигантское количество информационных ресурсов. По некоторым оценкам, число документов превысило 65 млн и продолжает стремительно расти. Такой объем информации требует правильной организации процесса поиска и применения специальных технических средств, таких как поисковые машины. Простой поиск по достаточно распространенному ключевому слову дает обычно от десятков тысяч до нескольких миллионов ссылок. Очевидно, что работа с таким большим количеством документов практически невозможна, тем более что подавляющая их часть нерелевантна, то есть содержит информацию, не относящуюся к делу.

Источники информации в Интернете различаются по способу представления информации, а следовательно, и по методу доступа к ним. Поэтому, прежде чем приступать собственно к информационному поиску, необходимо классифицировать источники информации и определить приоритетность одних по отношению к другим. Ниже предлагается вариант их классификации по некоторым критериям.

    Web-страницы являются сегодня основным и наиболее распространенным типом информационных ресурсов в Сети. Этот ресурс представляет собой страницы так называемого гипертекста, то есть текста, который может содержать в себе ссылки. Взаимосвязанная логически и посредством ссылок совокупность гипертекстовых страниц, расположенная в одном месте, представляет собой единицу, называемую сайтом (site). В процессе просмотра гипертекстовой страницы с помощью специальной программы - броузера - пользователь может осуществить переход на другую страницу, расположенную, возможно, совсем в другом месте. Таким образом, все Web-страницы в Интернете оказываются связаны между собой достаточно произвольным образом. Такой способ представления информации получил название Всемирной паутины (World Wide Web, или WWW). Следует отметить, что, помимо собственно текста и ссылок, Web-страница может содержать информацию, представленную в произвольной форме: графической, звуковой, видео и т.д. Стандартом de facto на представление данных в Интернете является язык HTML - Hyper Text Markup Language, который распознается броузером. Такие формы представления информации, как аудио- и видеоинформация в режиме реального времени, также доступны с WWW-страниц, но требуют применения дополнительных программных средств.

За языковой следует (и с ней связана) классификация источников по территориальному признаку . Произвольный информационный ресурс в подавляющем большинстве случаев принадлежит какой-либо организации, осуществляющей свою деятельность на определенной территории, и может быть предназначен для аудитории, находящейся преимущественно в пределах другого региона. Вряд ли новгородца заинтересует объявление о продаже автомобиля в Иркутске. Хотя. Следует подчеркнуть, что территориальное разделение не относится к возможности доступа к ресурсам - он может быть осуществлен из любой точки.

    Тематическая информация. Наиболее ценный тип информации, непосредственно относящейся к конкретной предметной области: техническая, технологическая, маркетинговая и тому подобное. К сожалению, информация этого вида редко присутствует в Сети "в чистом виде". Она, как правило, оказывается включенной в состав блоков информации одного из перечисленных ниже типов. Это, впрочем, вполне естественно. Если бы все искали одно и то же.

Методы информационного поиска

  • Непосредственный поиск с использованием гипертекстовых ссылок. Поскольку все сайты в пространстве WWW фактически оказываются связанными между собой, поиск информации может быть произведен путем последовательного просмотра связанных страниц с помощью броузера. Хотя этот полностью ручной метод поиска выглядит полным анахронизмом в Сети, содержащей более 60 млн узлов, "ручной" просмотр Web-страниц часто оказывается единственно возможным на заключительных этапах информационного поиска, когда механическое "копание" уступает место более глубокому анализу.

Составление тезауруса

В зависимости от конкретных интересов тезаурус может быть составлен на русском или английском языке для проведения поиска среди российских (русскоязычных), или зарубежных (англоязычных) источников информации. Использование других языков, например, немецкого или французского, обычно нецелесообразно в силу повсеместного распространения английского языка как стандарта de facto в Интернете. Работа над тезаурусом продолжается все время: по мере выявления новых терминов они добавляются в тезаурус.

Более адекватной представляется структура тезауруса в виде так называемых семантических срезов, где для каждого основного термина отдельно строится таблица сопутствующих слов и слов шумовых (которые не должны встречаться в источнике), - некоторые поисковые машины (AltaVista) позволяют это использовать. Таким образом, вместо единой иерархической структуры терминов мы получаем пакет таблиц, которые могут расширяться и модифицироваться отдельно.

Отбор поисковых машин

Формирование запросов

Как формат, так и семантика запросов варьируются в зависимости от применяемой поисковой машины и конкретной предметной области. Запросы составляются так, чтобы область поиска была максимально конкретизирована и сужена. Предпочтение отдается использованию нескольких узких запросов по сравнению с одним расширенным. В общем случае для каждого основного понятия из тезауруса готовится отдельный пакет запросов. Так же производится пробная реализация запросов -как для уточнения и пополнения тезауруса, так и с целью отсечения шумовой информации.

Результат запроса (список ссылок) обрабатывается в два этапа. На первом этапе производится отсечение очевидно нерелевантных источников, попавших в выборку в силу несовершенства поисковой машины или недостаточной "интеллектуальности" запроса. Параллельно проводится семантический анализ, имеющий целью уточнение тезауруса для модификации последующих запросов. Дальнейшая обработка производится путем последовательного обращения на каждый из найденных ресурсов и анализа находящейся там информации.

Анализ ресурсов и сбор информации

  • коммерческие сайты компаний;
  • вторичные информационные сайты;
  • источники аналитической информации;
  • региональные информационные ресурсы.

Проблемы, возникающие в процессе поиска

  • увеличение охвата с целью извлечения максимального количества значимой информации;
  • уменьшение охвата с целью минимизации шумовой информации.

Другая, связанная с этой, проблема - неоднозначность человеческого языка. Если сфера ваших интересов - нефть (оil) то около половины вываленных на вас ссылок будет касаться. живописи. Картина маслом, так сказать. К проблеме синонимов в русскоязычном Интернете добавляется еще проблема морфологических вариаций слов. Изготовим платы, изготовление плат. Добавьте сюда наличие в языке омонимов (абонентная плата, а в некоторых системах также зарплата и платан), и работа с тезаурусом покажется уже не блажью, а суровой необходимостью.

Много головной боли в нашем отечественном Интернете происходит от обилия кодировок. Я все понимаю: "загадочная русская душа", "сам хорош", "другим путем" (каждый своим) - но не до такой же степени! Изобрести три (!) основных кодировки, каждая из которых еще может существовать в вариациях (например, расположение буквы Ё в КОИ-8), плюс неосновные разной степени экзотичности. С этим общим врагом каждый борется, как умеет. Российские поисковые машины распознают вашу кодировку и кодировку сайта и пытаются по мере возможности привести их в соответствие. Это удается, но не всегда. Иначе: если вы ищете слово "Финансы", а на сайте ему соответствует загадочное "тХМЮМЯШ", поиск вряд ли будет удачным.

Поиск может быть неудачным и в силу формы представления информации. Данные, лежащие в базе, "не цепляются" ни поисковой машиной, ни спайдером. Например, информация по предприятиям удаленных регионов нашей страны, для которых Интернет часто является единственным средством общения с миром, обычно расположена на региональных серверах при местном университете и как раз почему-то в базах данных. Поэтому если вы предполагаете, что искомая информация в Сети должна быть, а поиск не дает результата, попробуйте поискать соответствующие базы данных.

И последнее неудобство, докучающее в первую очередь пользователям русскоязычной части Сети, - это ее нестабильность. Меняются адреса, структура сайтов, сами они появляются и исчезают. Конечно, это издержки быстрого роста, но в худшем случае вы не сможете добраться до половины источников, выданных поисковой машиной. А иногда так хочется!

Потребности формирования единого мирового информационного пространства привели к созданию глобальной компьютерной сети Internet. В настоящее время на более чем 150 миллионах компьютеров, подключенных к Internet, хранится громадный объем информации (сотни миллионов файлов, документов и так далее). В сети Internet находится информация всех областей человеческой деятельности: наука, производство, коммерция, литература, развлечения и т.д.. Глобальная сеть Internet привлекает пользователей своими информационными ресурсами и сервисами (услугами), которыми пользуется около миллиарда человек во всех странах мира.

Для миллионов людей разных профессий Интернет стал необходимым инструментом в работе и универсальным средством развлечения в часы досуга.

Информационные ресурсы, доступные через Интернет, огромны. Это десятки миллионов документов, представленных различными способами, число которых постоянно увеличивается. В зависимости от способа представления, вида и характера информации разнятся и методы доступа к ней, поэтому, прежде чем рассматривать методы поиска, рассмотрим классификацию информационных ресурсов.

Классификация сетевых информационных ресурсов может быть выражена по:

  • способу представления;
  • национально-территориальным признакам;
  • характеру содержания.

По способу представления информации информационные ресурсы можно разделить на следующие основные категории:

Классификация источников информации в Интернете может производиться по разным основаниям:

  1. Файловые серверы – представляют собой реализацию в Интернете традиционного способа предоставления информации и представляют собой компьютеры, часть дискового пространства которых доступна по Сети. Доступ к данным на таком сервере осуществляется с помощью специальных программ, поддерживающих протокол передачи файлов (FTP - File Transfer Protocol). Данный протокол в общем случае требует авторизации, то есть идентификации пользователя, запросившего доступ к данным. Для осуществления доступа к файлам со стороны произвольного пользователя Сети обычно используется так называемый анонимный вход (anonymous). Этот протокол обычно поддерживается стандартными браузерами.

3. Телеконференции – являются важным источником информации. Телеконференции представляют собой способ общения людей, имеющих доступ в Сеть, и предназначены для обсуждения каких-либо вопросов или распространения информации. Все телеконференции разбиты по тематическому признаку на рубрики, иначе называемые группами новостей (news groups). Информация, помещенная в телеконференцию, становится на определенное время доступна всем желающим.

Телеконференции делятся на модерируемые (управляемые), то есть такие, размещение статей в которых производится специальным человеком - модератором, осуществляющим в основном цензурные функции, и немодерируемые, размещение статей в которых производится автоматически по запросу любого пользователя Сети. В Сети существуют архивы наиболее интересных телеконференций, которые также могут быть использованы для получения информации.

4. Базы данных – в них часто содержится кроме текстовой информации также произвольную информацию: публикации, табулированные данные и т.д. В настоящий момент не существует какого-либо стандартного способа доступа к базам данных по сети Интернет. Наиболее прогрессивным способом является доступ к базам данных с помощью все тех же стандартных браузеров, так как этот способ обеспечивает максимальную потенциальную аудиторию потребителей информации.

С точки зрения занимаемых ресурсов и времени доступа, хранение информации в базах данных осуществляется гораздо более эффективно, чем в формате HTML. Для организации такого доступа со стороны базы данных необходимо использование специального программного обеспечения, осуществляющего преобразование данных к формату HTML в процессе исполнения конкретного пользовательского запроса.

Высокая ценность и большой объем информации, обычно размещаемой в базах данных, а также затраты на организацию доступа к данным со стороны Сети обусловливают в большинстве случаев платность доступа к базам данных в сети Интернет.

Национально-территориальный признак.Информационные ресурсы сети Internet могут быть разделены по языковому признаку. В Интернете представлены практически все основные языки, но превалирующим является английский. Многие сайты публикуются на нескольких языках.

Возможна классификация по территориальному признаку (или географическому признаку), ряд сайтов представляет информацию для потребителей определенного региона, хотя доступ к ней возможен с любой точки мира. Произвольный информационный ресурс в подавляющем большинстве случаев принадлежит какой-либо организации, осуществляющей свою деятельность на определенной территории, и может быть предназначен для аудитории, находящейся преимущественно в пределах другого региона. Например, вряд ли новгородца заинтересует объявление о продаже автомобиля в Иркутске.

Наиболее важным аспектом классификации информационных ресурсов сети является содержание информации поскольку именно информационное наполнение (content) в конечном итоге оказывается решающим при отборе источников. В то же время как раз этот аспект может являться наиболее трудно формализуемым по причине неоднородности представленной на ресурсе информации. Один и тот же Web-сайт может содержать самую разнообразную информацию, поэтому приведенная ниже классификация в достаточной степени условна. Содержащаяся на ресурсе информация может быть схематично разделена по виду и характеру на следующие категории:

Деловая информация, необходимая предпринимательской деятельности, по этому критерию может быть разделена на следующие группы:

В Интернете также имеются электронные версии различных изданий, которые могут быть как платными, так и бесплатными (газеты Коммерсант, Аргументы и Факты и т.д.).

Справочная информация – списки веб-сайтов компаний, отобранных по определенному принципу, а также телефонно-адресный справочник (желтые страницы) с возможностью поиска информации по названию фирмы и виду деятельности. Также в Интернете представлены телефонные справочники городов России, стран СНГ и Балтии. Имеется информация о расписании движения поездов, авиарейсов, погоде и т.п.


Mind Map: Путеводитель по образовательному рунету

Путеводитель по образовательному рунету создатель Александр Митясов

1. Определения

1.1. Ресурсы - это запасы, источники чего-либо.

1.2. Информационные ресурсы - это совокупность данных, организованных для получения достоверной информации в самых разных областях знаний и практической деятельности.

2. Классификация образовательных ресурсов

2.1. По способу представления

2.1.2. Базы данных

2.1.3. Файловые серверы

2.2. По характеру содержания

2.2.1. Научные публикации

2.2.1.1. Этот вид информации представляет собой статьи, рефераты, обзоры и прочие публикации научного характера, хранящиеся в Интернете.

2.2.3. Электронные издания

2.2.4. Интерактивные ЭОРы

2.2.5. Библиотеки и архивы текстов и программ

2.2.6. Тематическая информация

2.2.6.1. Наиболее ценный тип информации, непосредственно относящейся к конкретной предметной области: техническая, технологическая, маркетинговая и тому подобное.

2.2.7. Тестовые системы

2.2.8. Электронные учебные пособия online

2.3. По информационным потребностям пользователя

2.3.1. Официальная информация

2.3.2. Ресурсы для обмена опытом и общения учителей, школьников

2.3.3. Центры дистанционного образования

2.4. По национально - территориальному признаку

2.4.1. По языковому признаку

2.4.1.1. Основным языком в сети Интернет является английский, но практически все основные языки мира представлены в Сети. Некоторые из сайтов поддерживают несколько языков - на выбор пользователя.

2.4.2. По географическому признаку

2.4.2.1. Информационный ресурс в большинстве случаев принадлежит какой-либо организации, расположенной и осуществляющей свою деятельность на определенной территории, подчиняющейся ее законам. Информация в некоторых случаях может быть предназначена для аудитории, находящейся преимущественно в пределах региона. Таковы, например, сайты объявлений.

2.5. По способу организации хранения и использования

2.5.1. Документы на традиционных носителях

2.5.2. Массив документов

2.5.3. Фонд документов

2.5.5. Автоматизированные формы

2.6. По форме собственности

2.6.1. Общероссийское национальное достояние

2.6.2. Государственная собственность

2.6.3. Собственность субъектов РФ( в том числе муниципальная)

2.6.4. Частная(личная, корпоративная) собственность

2.7. По виду носителя

2.7.1. Твердая копия

2.7.2. На машиночитаемых носителях

2.7.2.1. Кино- фотопленка

2.7.2.3. Данные на винчестере компьютера

2.7.2.4. аудио- и видеозапись

2.7.3. На канале связи

3. Информационные ресурсы по классам собираемой информации

3.1. Первично собираемая информация

3.1.1. К первично собираемой информации, т.е. той, которая отражает специфику ее источника, области или сферы создания, возникновения, относится информация, образующаяся самостоятельно в природных условиях (например, количество колец на спиле дерева, свидетельствует о его возрасте).

3.2. Вторично собираемая информация

3.2.1. Выделяется вторичная информация, возникающая на основе переработки уже имеющейся информации, и новая, фиксирующая то, что человечество до сих пор не знало. Сюда относятся открытия, прогнозы в области различных социальных и природных процессов.

3.3. "Снимаемая информация"

3.3.1. Информация о количественных и качественных характеристиках разных социальных процессов образуют класс "снимаемой информации". Выделенные по этому признаку информационные ресурсы можно классифицировать как естественные, производственные, социально-экономические. Например, информация о росте населения.

4. Развитие мировых информационных ресурсов позволило

4.1. Превратить деятельность по оказанию информационных услуг (получение и предоставление в распоряжение пользователя информационных продуктов - совокупности данных, сформированную производителем для распространения в вещественной или невещественной форме) в глобальную человеческую деятельность

4.2. Сформировать мировой и внутригосударственный рынок информационных услуг

4.3. Образовать всевозможные базы данных ресурсов регионов и государств, к которым возможен сравнительно недорогой доступ

4.4. Повысить обоснованность и оперативность принимаемых решений в фирмах, банках, биржах, промышленности, торговли и др. за счет своевременного использования необходимой информации

5. Виды информационных ресурсов

5.1. Средства массовой информации

5.1.1. К ним относятся различного рода новостные и семантические сайты (или электронные версии СМИ). Их отличительной чертой является высокий уровень посещаемости (например, сайт НТВ, "Вести" и т.п.), быстрая смена информации, наличие видеоряда на сайте.

5.2. Электронные библиотеки

5.2.1. Электронная библиотека - распределенная информационная система, позволяющая надежно сохранять и эффективно использовать разнородные коллекции электронных документов через глобальные сети передачи данных в удобном для конечного пользователя виде.

5.3. Электронные базы данных

5.3.1. В самом общем смысле база данных - это набор надписей и файлов, специальным образом организованных. Один из типов баз данных - это документы, набранные при помощи текстовых редакторов и сгруппированные по темам. Другой тип - это файлы с электронными таблицами, которые объединены в группы по характеру их использования.

5.4. Сайты

5.4.1. Корпоративный сайт - это Интернет-ресурс, посвященный какой-то организации, фирме, предприятию. Как правило, он знакомит пользователей с фирмой, направлениями и видами ее деятельности, отражает различные справочные материалы: прайс-листы, условия поставок и оплаты; рекламную информацию: наличие сертификатов качества, участие в выставках, публикации в прессе т.п.; контактную информацию.

5.5. Сервисы

5.5.1. - это группа сайтов, на которых можно воспользоваться разнообразными сервисными услугами: электронным почтовым ящиком, блогом (а также познакомиться с правилами его ведения), поиском, различными каталогами, словарями, справочниками, прогнозом погоды, телепрограммой, курсами валют и т.д. Например, Яндекс, Рамблер и т.п.


1. Unpaywall

Один из самых удобных инструментов для бесплатного доступа — расширение для браузеров Chrome и Firefox Unpaywall. Оно автоматически ищет полные тексты научных статей. Если вы заходите на страницу какой-нибудь публикации, справа на экране появляется иконка с изображенным на ней замком. Если она зеленая и замок открыт, то достаточно просто нажать на него, и вы автоматические перейдете на страницу с полным текстом статьи в формате PDF. Установить расширение можно на его сайте.

2. Академия Google

Другой сайт, который может помочь, — это Академия Google. Вы просто пишете название статьи в поисковой строке и читаете полный текст. Если он, конечно, есть в открытом доступе.

3. Open Access Button

Если ни Unpaywall, ни Академия Google вам не помогли, может пригодиться сайт Open Access Button. Большая волшебная кнопка справится с поиском нужной статьи.

Этот сайт был создан специально для того, чтобы решить проблему открытого доступа к статьям. На ArXiv ученые выкладывают препринты своих статей, то есть черновики, которые в итоге публикуются с некоторыми изменениями. Большинство авторов — математики и физики, но сейчас по инициативе фонда Присциллы Чан и Марка Цукерберга разрабатывается аналог для биологии и других естественных наук — BioRxiv.

5. КиберЛенинка

6. Библиотека eLibrary

На этом сайте выкладываются статьи и научные публикации, входящие в РИНЦ (российский индекс научного цитирования). Необходима регистрация, причем вас могут попросить указать специальный пароль вашей организации. В профиле сохраняются настройки поиска и ваши подборки статей.

7. Электронные библиотеки, сотрудничающие с вузами

8. Российская государственная библиотека (РГБ)

9. Авторы статей или коллеги-ученые

10. Специализированные базы данных

Помимо перечисленных выше ресурсов, существуют различные специализированные базы полных текстов статей, вот список самых крупных из них:

База в основном по медицине и биологии, иногда содержит ссылки на полные бесплатные тексты статей.

Обширная база англоязычных статей, журналов и научных работ по самым разнообразным темам.

Крупнейшая библиографическая база статей по медицинским наукам (NLM). Интегрирована в сервис SciFinder.

Сайт с электронными версиями психологических журналов.

Наиболее полный и надежный источник химической информации, охватывающий более 99% текущей литературы по химии, включая патенты. Также там можно найти информацию по биологическим и биомедицинским наукам, химической физике, инженерии.

Англоязычная база данных со статьями и научными публикациями по психологии из разных стран мира.

7.Сборники статей от Frontiers

Frontiers делает подборки статей по разным темам и выкладывает их в открытый доступ.

Читайте также: