Реферат анализ данных информатика

Обновлено: 05.07.2024

Анализ и обобщение результатов социологического исследования позволяют предсказать возможные варианты развития социальных процессов и явлений. Одной из форм предвидения является социальное прогнозирование - научное исследование перспектив развития иди возможного состояния исследуемого объекта. Социальное прогнозирование может осуществляться во всех сферах жизнедеятельности общества. Актуальность темы не вызывает сомнений и поэтому в данной работе рассматриваются формы и способы анализа эмпирических данных социологии.

Содержание

Введение 3
Что представляет собой анализ данных и его цель 4
Методы анализа данных 7
Анализ эмпирических данных социологии 9
Заключение 14
Библиографический список 16

Вложенные файлы: 1 файл

Реферат по анализу данных.docx

  1. Что представляет собой анализ данных и его цель 4
  2. Методы анализа данных 7
  3. Анализ эмпирических данных социологии 9

Библиографический список 16

Развитие социологии означает и развитие эмпирических исследований, обогащающих теорию и позволяющих разрабатывать механизмы регулирования социальных процессов. Социологические исследования обеспечивают обратную связь, дополняя статистическую информацию конкретными данными об интересах и запросах, мнениях и настроениях людей, о жизненных планах, уровне и качестве жизни, ценностных установках. Идея таких исследований была заимствована у тех наук, в которых экспериментальные исследования утвердились ранее (экономики, психологии, этнографии). Эмпирические социологические исследования не тождественны социологическим обследованиям. Первые направлены на увеличение социологического знания, характеристику исходной познавательной ситуации, разработку гипотез, контролируемое применение методик, полноту отчетов об исследовании и др., составляющие в совокупности программу; вторые предполагают просто сбор и обобщение социальной информации (опросы, зондажи, статистические обследования и т.д.), теоретической цели они не ставят. В XX в. с совершенствованием социологии как науки в условиях интенсивного социально-экономического и политического развития общества эмпирическая социология стала приобретать все более важное значение.

Анализ и обобщение результатов социологического исследования позволяют предсказать возможные варианты развития социальных процессов и явлений. Одной из форм предвидения является социальное прогнозирование - научное исследование перспектив развития иди возможного состояния исследуемого объекта. Социальное прогнозирование может осуществляться во всех сферах жизнедеятельности общества.

Актуальность темы не вызывает сомнений и поэтому в данной работе рассматриваются формы и способы анализа эмпирических данных социологии.

1 Что представляет собой анализ данных и его цель

Главная задача заключительного этапа социологического исследования — анализ и интерпретация полученных данных, обобщение выводов и выдача рекомендаций по совершенствованию или изменений работы изучаемого социального механизма.

Основная цель анализа данных в социологии - выявление (подтверждение, корректировка) каких-то интересующих исследователя статистических закономерностей; или, другими словами, - определенного рода сжатие, усреднение содержащейся в данных информации.

Также мы можем утверждать, что анализ данных – совокупность действий, осуществляемых исследователем в процессе изучения полученных тем или иным объектом данных, с целью формирования определенных представлений о характере какого-либо явления, вызываемого этими данными.

- Концептуальная схема исследования. В нее входят определения предмета, объекта, цели, задач, гипотез исследования, а также понятийный аппарат исследования.

- Методика сбора эмпирических данных, т.е. эмпирическая интерпретация понятий и инструментарий исследования.

- Методика обработки данных, т.е. формы представления информации, методы первичного анализа данных, логика применения математических методов.

Они могут представать перед исследователем в виде:

- совокупности чисел , характеризующих те или иные объекты (в качестве таких совокупностей могут выступать, например, производственные характеристики предприятий, возраст респондентов, оценки выпускниками школ престижности некоторых профессий и т.д.) ,

- множества индикаторов определенных отношений между рассматриваемыми объектами (к примеру, при изучении производственных бригад такими индикаторами могут служить указания каждого члена бригады на то, нравится ли ему работать вместе с любым другим членом той же бригады, такие данные часто используются при изучении малых групп,

- результатов попарных сравнений респондентами каких-либо объектов (такие данные используются в методе парных сравнений - способе построения шкал, отражающих усредненное отношение изучаемой совокупности респондентов к каким-либо объектам).

- так или иначе зафиксированных результатов наблюдения за невербальным поведением каких-либо людей.

Признаком в анализе данных выступает некоторое общее для всех объектов качество, конкретные проявления которого могут меняться от объекта к объекту. Примерами признаков могут являться пол, возраст респондентов, их удовлетворенность своим трудом и т.д. В качестве значений признака "возраст" могут выступать 18 лет, 31 год и т.п

2 Методы анализа данных

Методы, применяемые социологами для анализа данных, многообразны. Выбор конкретного метода зависит, в первую очередь, от характера исследовательских гипотез, т. е. от того, на какие вопросы мы хотим получить ответ. Если целью является описание одной характеристики выборки в определенный момент времени, разумно ограничиться одномерным анализом, т. е. описанием распределения наблюдений вдоль оси интересующего нас признака. Разнообразные техники многомерного анализа позволяют одновременно исследовать взаимоотношения двух и более переменных и в той или иной форме проверять гипотезы о причинных связях между ними. Различия между этими методами неабсолютные. В реальном исследовании каждое уточнение исходных гипотез или выдвижение новой гипотезы в ходе анализа результатов приводит к необходимости выбора новой техники анализа данных. Помимо характера исследовательских гипотез на выбор методов статистического анализа влияет и природа полученных социологом данных.

Методы, используемые для анализа связи между двумя номинальными переменными, также будут отличаться от методов анализа связи между номинальной переменной и переменной, измеренной на интервальном уровне. Таким образом, выбор той или иной статистики будет зависеть и от целей анализа, и от уровня измерения исследуемых переменных.

Существует два основных класса задач, решаемых с помощью статистических методов анализа. Задачей дескриптивной (описательной) статистики является описание распределения переменной-признака в конкретной выборке. Методы дескриптивной статистики позволяют также анализировать взаимосвязь между различными переменными. Другой класс задач, связанный с необходимостью вывести свойства большой совокупности, основываясь на имеющейся информации о свойствах выборки из этой совокупности, решается с помощью методов индуктивной статистики, или теории статистического вывода, основанной на вероятностном подходе к принятию решений. Воспользовавшись какой-то моделью для анализа полученных выборочных данных, социолог обычно также применяет некоторые методы статистического вывода, позволяющие определить, выполняются ли обнаруженные им при анализе данных отношения на уровне большой совокупности, из которой была извлечена выборка.

3 Анализ эмпирических данных социологии

С формальной точки зрения при сравнении эмпирических данных должны соблюдаться следующие правила, необходимые в логике экспериментального анализа:

- два состояния одного процесса сопоставимы, если они содержат хотя бы одно общее свойство или показатель;

- ни один фактор не может быть признан причиной сравниваемых явлений, если в одном случае при регистрации изучаемого явления он имеет место, а в другом - нет (правило согласия Милля);

- вместе с тем данный фактор не может быть причиной изучаемого явления, если в одном случае (исследовании) он имеет место, а само явление не фиксируется, хотя в другом случае (исследовании) дело обстоит так, что регистрируются и явления, и данный фактор (правило различия);

- некий фактор (условие, обстоятельства) не может достоверно считаться определяющим в отношении изучаемого процесса, если в другом случае (в другом исследовании) наряду с ним изучаемому процессу сопутствуют другие факторы.

Эти логические правила, напоминающие о строгости экспериментального вывода, нельзя игнорировать. В зависимости от программных целей исследования анализ полученных данных может быть более или менее глубоким и основательным.

Цель исследования определяет уровень анализа в том смысле, что либо позволяет, либо запрещает прекратить его на какой-то стадии. В полном же объеме, т.е. от первого до последнего шага, последовательность действий социолога при анализе эмпирических данных может быть представлена следующим образом.

1) общей оценки выборочной совокупности и частных подвыборок (половозрастных, социально-профессиональных и других) с тем, чтобы понять, каким образом особенности выборок будут сказываться на интерпретации того или иного частного вывода и обобщающих заключений;

2) для того чтобы в последующих операциях с данными не утратить представления о составляющих более сложных зависимостей и комбинаций, которыми впоследствии будем оперировать.

Например, в итоговых или промежуточных выводах находят, что такие-то условия деятельности или характеристики людей более важны, чем некоторые другие. Чтобы правильно интерпретировать это заключение, следует вспомнить, каковы основные характеристики выборки, нет ли в ней заметных аномалий. Очень возможно, что в общей выборке доминируют представители определенного социального статуса, возрастной когорты, национальной принадлежности и т.п. С этими их особенностями связаны социальные функции, интересы, образ жизни. В итоге может оказаться, что суммарные выводы неосновательны: они преимущественно объясняются спецификой доминирующей подвыборки обследованных. Чтобы проверить эту рабочую гипотезу, надо расчленить массив информации на соответствующие подвыборки и повторить анализ раздельно для каждой из них, включая доминирующую.


Министерство образования и науки Украины

Севастопольский национальный технический университет

ОБРАБОТКА И АНАЛИЗ ДАННЫХ В СРЕДЕ EXCEL

к выполнению контрольной работы

по дисциплине “ИНФОРМАТИКА”

для студентов направления

“Экономика и предпринимательство”

Севастополь

Цель – дать студенту практические знания и навыки работы с одним из инструментов современной офисной компьютерной технологии – табличным процессором Excel. В методических указаниях представлено подробное описание выполнения заданий на конкретных примерах, приведены варианты индивидуальных заданий, контрольные вопросы для проверки знаний.

Методические указания рассмотрены и утверждены на заседании кафедры кибернетики и вычислительной техники (протокол № 7 от 27.04.2007 г.)

Допущено учебно-методическим центром СевНТУ в качестве методических указаний.

Рецензент канд. техн. наук, доцент.

Нормоконтроль Персидсков Г.М.

1. Задание 1. Графические средства электронных таблиц. 4

1.1. Краткие теоретические сведения. 4

1.1.1. Работа с таблицами. 4

1.1.2. Создание диаграмм. 6

1.2. Порядок выполнения задания. 6

1.3. Варианты индивидуальных заданий. 7

1.4. Содержание отчета. 9

1.5. Контрольные вопросы. 9

2. Задание 2. Обработка списков. 9

2.1. Краткие теоретические сведения. 9

2.1.1. Создание списков. 9

2.1.2. Сортировка данных. 10

2.1.3. Применение фильтров для поиска записей. 10

2.2. Порядок выполнения задания. 12

2.3. Варианты индивидуальных заданий. 12

2.4. Содержание отчета. 13

2.5. Контрольные вопросы. 13

3. Задание 3. Использование MS Excel в экономических расчетах. 13

3.1. Краткие теоретические сведения. 14

3.1.1. Основные встроенные функции для работы с массивами.. 14

3.1.2. Подбор параметра. 16

3.1.3. Сводные таблицы. 16

3.2. Порядок выполнения задания. 18

3.3. Варианты индивидуальных заданий. 18

3.4. Содержание отчета. 19

3.5. Контрольные вопросы. 19

Библиографический список. 20

ГРАФИЧЕСКИЕ СРЕДСТВА ЭЛЕКТРОННЫХ ТАБЛИЦ

Цель - приобрести навыки работы с таблицами, освоить технологию создания и форматирования диаграмм.

1.1. Краткие теоретические сведения

1.1.1. Работа с таблицами

Основными объектами Excel являются таблицы. В ячейки таблицы можно вводить константы и формулы. Константы подразделяют на числовые (2.31; 5.4Е02; 45%), текстовые (Итого, 1 квартал), логические (ИСТИНА, ЛОЖЬ), даты и время (12.03.07; 11:30). Тип данных определяется автоматически при вводе.


Для ввода последовательных рядов данных, т.е. данных, отличающихся друг от друга на фиксированный шаг, используют метод автозаполнения. В две последовательные ячейки таблицы вводят первый и второй члены ряда. Выделяют ячейки и, установив указатель мыши на маркер заполнения выделенной области, растягивают диапазон на требуемое число ячеек (рисунок 1.1). Для построения произвольных рядов используют команду Правка – Заполнить - Прогрессия . Перед выполнением команды необходимо выделить ячейку, содержащую первый член ряда. В окне команды задают тип прогрессии, шаг прогрессии и предельное значение.

Рисунок 1.1 – Построение числового ряда:

интервал изменения аргумента ; шаг 0,5

Для выполнения стандартных вычислений используют функции. Функция начинается со знака равенства (=), за ним следует имя функции, открывающая скобка, список аргументов, закрывающая скобка. Аргументы в списке разделяютсяточкой с запятой. В качестве аргументов можно использовать константы, ссылки, формулы, другие функции. Функции, содержащие в качестве аргументов другие функции, называются вложенными. Допускается использовать до семи уровней вложенности.

Excel содержит более 400 встроенных функций. Для облегчения работы с функциями используют специальное средство – Мастер функций. Мастер функций выбирается командой Вставка –Функция или нажатием на кнопку панели инструментов. Перед вызовом Мастера функций необходимо выделить ячейку, куда будет вставлена готовая формула. Мастер функций вычисляет значение функции за два шага.

Шаг 1 . В списке Категория выбирается категория, к которой относится функция (математические, статистические, текстовые, логические, финансовые и т.д), в списке Функция – конкретная функция данной категории.

Шаг 2. Ввод аргументов функции в соответствующие поля диалогового окна. Если в качестве аргумента используются ссылки на ячейки, достаточно выделить эти ячейки с помощью мыши. Справа от поля отображается содержимое соответствующей ячейки, а рядом со знаком равенства в средней части окна выводится текущее значение создаваемой функции с учетом введенных на данный момент ссылок. Завершение очередного шага – нажатие кнопки ОК.

Математические функции . Позволяют выполнять действия из различных областей математики. К математическим функциям относятся: ABS (модуль), LN (натуральный логарифм), EXP (e x ), КОРЕНЬ, СТЕПЕНЬ и др.


Логические функции. Используются, когда необходимо реализовать те или иные действия в зависимости от выполнения каких-либо условий. Функция ЕСЛИ(аргумент1, аргумент2, аргумент3 ) возвращает значениеаргумент2 , если логическийаргумент1 при вычислении приобретает значение ИСТИНА, и аргумент3 , если логическийаргумент1 при вычислении приобретает значение ЛОЖЬ. Использование функции ЕСЛИ для вычисления значений кусочной функции показано на рисунке 1.2.

Рисунок 1.2 – Вычисление значений функции у(х ).

1.1.2. Создание диаграмм

Диаграмма - графическое представление числовых данных. Набор значений, отображаемых на диаграмме, называется рядом данных. Это группа ячеек с данными в пределах одной строки или столбца таблицы. На одной диаграмме можно отображать несколько рядов данных.. Диаграмма – внедренный объект. Он может располагаться на одном листе с данными либо на отдельном листе. Диаграмма сохраняет связь с данными, на основе которых она построена, и при обновлении этих данных, изменяет свой вид.

Для построения диаграмм используют Мастер диаграмм, запускаемый командой Вставка-Диаграмма или нажатием кнопкиМастер диаграмм на стандартной панели инструментов. Перед построением диаграммы выделяют мышью диапазон, содержащий исходные данные. При задании диапазона имеет смысл включить в него все заголовки, которые идентифицируют ряды данных и категории диаграммы (названия точек одного ряда диаграммы). Эти заголовки мастер включит в диаграмму в виде легенды или меток на осях координат. Диапазоны заголовков и рядов данных могут быть несмежными, тогда они выделяются при нажатой клавише CTRL..Нажимают кнопку Мастер диаграмм или выполняют команду Вставка-Диаграмма.

Шаг 1. В первом окне диалога мастера диаграмм в ыбирают тип и формат диаграммы.

Шаг 2. Задают или подтверждают диапазон данных, отображаемых на диаграмме. Если диаграмма включает в себя несколько рядов, можно осуществить группировку данных в строках или столбцах таблицы. Для форматирования и настройки рядов используют вкладку Ряд.При построении графиков задают метки оси Х (поле Подписи оси Х).

Шаг 3. Устанавливаются параметры диаграммы: заголовки, подписи, формат легенды, координатной сетки, таблицы данных.

Шаг 4. Устанавливаются параметры размещения диаграммы: на отдельном или имеющемся листе. После выполнения всех этапов построения необходимо задать кнопку Готово .

Диаграмма состоит из набора отдельных элементов (ряды, оси, заголовки). Для форматирования элемента диаграммы необходимо подвести к нему указатель мыши, выполнить двойной щелчок левой кнопкой мыши и в появившемся диалоговом окне установить требуемые параметры. Для изменения элемента диаграммы (редактирования) необходимо вызвать контекстное меню правой кнопкой мыши.

1.2. Порядок выполнения задания

1. Выбрать вариант I = ( N mod 25 ) +1, где N - последние две цифры зачетной книжки, а I - остаток от деления N на 25

2. Вычислить значения функции на заданном интервале с заданным шагом изменения аргумента. Результаты оформить в виде таблицы. Первый столбец таблицы должен содержать значения аргумента x, второй столбец – значения функции y. Для ввода значений x использовать метод автозаполнения, для вычисления значений y – встроенную логическую функцию ЕСЛИ.

3. Построить график функции. Сформировать на графике: заголовок, названия осей, метки легенды.

3.1. На графике разными маркерами выделить максимальное и минимальное значения функции.

3.2. Метки на оси X представить в формате с фиксированной точкой (числовой формат), а на оси Y – с плавающей точкой (экспоненциальный формат).

Microsoft Excel содержит мощные средства анализа данных. К ним относятся:

— средства финансового анализа;

— средства статистического анализа;

Финансовый и статистический анализ производится с помощью соответствующих функций.

Анализ данных может производиться следующими способами:

При создании таблицы подстановки с одной переменной следует иметь ввиду, что ячейки с формулами должны располагаться в клетках, расположенных на одну строку выше и хотя бы на один столбец правее от ячеек диапазона, содержащих подставляемые значения (рис. 9.30).

Если данные исходной таблицы расположены не по столбцам, а по строкам, то диапазон подстановки следует ориентировать по строке, а формулы ввести в клетки, расположенные на одну строку ниже и на один столбец левее ячеек диапазона. В этом случае в диалоговом окне Таблица подстановки следует ввести ссылку на ячейку в поле ввода Подставлять значения по столбцам в: (рис. 9.31).

Рис. 9.30. Применение таблицы подстановки с одной переменной.

Рис.9.31. Использование таблицы подстановки, ориентированной по строкам.

Можно включить любое количество выходных формул. Можно использовать разные формулы для различных столбцов (или строк), но все они должны использовать одни и те же входные ячейки.

В таблице с двумя переменными допускается использование только одной формулы. При этом в формуле используются ссылки на две ячейки и, таким образом, анализируется влияние значений в этих ячеек на результат, рассчитываемый по формуле (рис. 9.32).

Рис. 9.32. Использование таблицы подстановки с двумя переменными.

Таблица данных является хорошим средством в относительно простых ситуациях, когда используются только одна или две переменных, но реальные задачи обычно имеют значительно больше неизвестных величин. При моделировании более сложных задач, имеющих до 32 переменных, можно обратиться к диспетчеру сценариев.

Изменяемые ячейки – это ячейки, содержащие значения, которые используются в качестве переменных.

3) Без труда отслеживать варианты сценария, т.к. диспетчер сценариев сохраняет дату и имя пользователя при каждом изменении сценария.

4) Использовать пароль для защиты сценариев от изменений и даже скрыть их.

5) Воспользоваться отчетом Сводная таблица и сравнить между собой сценарии с разными множествами переменных, созданные несколькими пользователями.

6) Определить сценарий с помощью кнопки Сценарии на пользовательской панели инструментов.

Для создания сценария необходимо выполнить следующие действия:

— в окне диалога Диспетчерсценариев нажать кнопку Добавить;

— в окне Добавление сценария ввести имя сценария;

— в поле Изменяемые ячейки указать ячейки, которые будут изменяться. По умолчанию в этом поле выводится ссылка на ячейку или диапазон, которые был выделен перед выполнением команды, но его можно изменить;

— нажать кнопку ОК, чтобы создать первый сценарий;

— откроется окно диалога Значения ячеек сценария с полями для каждой изменяемой ячейки. Эти поля содержат значения, которые в данный момент выведены на рабочем листе. Эти значения можно изменить. В каждое поле можно ввести константу или формулу, например, увеличить значение переменной на какую-либо величину или в несколько раз;

— чтобы создать другой сценарий, нажать кнопку Добавить для возвращения в окне Добавление сценария. Так можно создать сколько угодно сценариев. После окончания создания сценариев нажать кнопку ОК для возврата в окно диспетчера сценариев, а затем Закрыть для возврата в рабочий лист (рис. 9.33).

Рис. 9.33 Диалоговое окно Диспетчер сценариев.

Лучше определить начальные значения переменных в качестве сценария, прежде чем изменять любую из переменных. В противном случае начальные значения будут потеряны при вводе новых значений в изменяемые ячейки.

Excel позволяет объединить несколько сценариев, созданных разными пользователями в разных рабочих книгах в основной лист. Для этого следует открыть все книги, содержащие нужные сценарии, активизировать лист, который будет содержать объединенные сценарии, и нажать кнопку Объединить в диалоговом окне Диспетчера сценариев. После объединения можно вывести на экран разные сценарии одновременно и наблюдать затем, как комбинации переменных влияют на значение в результирующей ячейке.

Excel позволяет создавать достаточно сложные модели, включающие в себя любое необходимое количество сценариев и до 32 переменных в каждом сценарии. Делается это с помощью создания отчетов по сценариям. Отчет показывает значения, которые каждый сценарий назначает изменяемым ячейкам. Кроме того, отчет может представить воздействие каждого сценария на одну или несколько ячеек результата. Диспетчер сценариев предлагает два типа отчетов по сценариям:

Вывод отчетов по сценариям и выбор типа отчета происходит при нажатии кнопки Отчет в окне диалога Диспетчера сценариев. В появившемся диалоговом окне Отчет по сценарию можно также дополнительно указать ячейки результата, которые следует включить в отчет (они разделяются точкой с запятой).

Excel содержит большой набор средств анализа данных. К ним, в частности, относится подбор параметра, позволяющий подобрать значения исходных данных, обеспечивающие желаемый результат.

Команда ПОДБОР ПАРАМЕТРА позволяет определить неизвестное значение (параметр), которое будет давать требуемый результат. Технология использования команды следующая:

• решить нужную задачу с каким-либо начальным значением параметра;

• в окне диалога Подбор параметра (рис. 9.35) в поле Установить в ячейке задать абсолютную ссылку на ячейку, содержащую расчетную формулу, а в поле Значение – то значение, которое следует получить в качестве результата формулы;

• в поле Изменяя значение ячейки ввести ссылку на ячейку с параметром;

• нажать кнопку ОК или клавишу Enter, на экране появится окно диалога Результат подбора параметра;

• для сохранения найденного значения нажать кнопку ОК. Для восстановления значения, которое было в ячейке с параметром до использования команды Подбор параметра нажать кнопку Отмена.

Рис. 9.34. Вызов диалогового окна Подбор параметра.

Рис. 9.35. Диалоговое окно Подбор параметра.

При подборе параметра Excel использует итерационный процесс. Он проверяет для изменяемой ячейки одно значение за другим, пока не получит нужное решение. Если задача подбора параметра занимает много времени, можно нажать кнопку Пауза в окне диалога Результат подбора параметра и прервать вычисление, а затем нажать кнопку Шаг, чтобы просмотреть результаты последовательных итераций.

По умолчанию команда Подбор параметра прекращает вычисления, когда выполняется 100 итераций или при получении результата, который находится в пределах 0,001 от заданного целевого значения.

Команда Подбор параметра находит только одно решение, даже если задача имеет несколько решений.

Поиск решенийможет применяться для решения задач, которые включают много изменяемых ячеек, и помогает найти комбинацию переменных, которые максимизируют или минимизируют значение в целевой ячейке. Он также позволяет задать одно или несколько ограничений условий, которые должны выполняться при поиске решений. Для запуска этого инструмента следует в диалоговом окне ПараметрыExcel в разделе Надстройки окна Управления выбрать Надстройки Excel. Нажать кнопку ПЕРЕЙТИ и в диалоговом окне Доступныенадстройки выбрать Поиск решений. Чтобы вызвать диалоговое окно Поискрешения, нужно выбрать пиктограмму Поиск решения группы Анализ вкладки ДАННЫЕ (рис 9.36).

Рис.9.36. Диалоговое окноПоиска решения.

В диалоговом окне Поиск решения в поле Установить целевую ячейку задается цель, которую должен достичь поиск решения. Например, значение в указанной ячейке должно стать равным минимальному значению. Целевая ячейка в поле Установить целевую ячейку может быть задана ссылкой или именем. Поиск решения может искать конкретное значение целевой функции, тогда это значение нужно задать в поле Установить целевую ячейку, установив переключатель Равной в положение Значению. В этом случае, задав только изменяемую ячейку без указания ограничений, можно использовать ПОИСК РЕШЕНИЯ вместо команды ПОДБОР ПАРАМЕТРА.

Цель поиска решений может не задаваться. Тогда поле Установить целевую ячейку следует оставить пустым, нажать кнопку Параметры и установить флажок Показывать результаты итераций. ПОИСК РЕШЕНИЯ будет перебирать комбинации изменяемых ячеек, которые удовлетворяют заданным ограничениям. Пользователь может выбрать нужное решение, но оно необязательно будет оптимальным.

В поле Изменяя ячейки следует задать ячейки с переменными. Можно указать ссылки на ячейки или их имена. Если ячейки находятся в несмежных диапазонах, их следует разделять точкой с запятой. Место ввода ячеек можно нажать кнопку Предположить, и ПОИСК РЕШЕНИЯ сам предложит изменяемые ячейки, исходя из заданной целевой функции. Поле Изменяя ячейки нельзя оставить пустым и указанные в нем ячейки обязательно должны влиять на значение целевой ячейки.

Последний шаг определения поиска решений – задание ограничений. Он не является обязательным. Чтобы задать ограничения, следует в окне ПОИСК РЕШЕНИЯ нажать кнопку Добавить и заполнить окно диалога Добавление ограничений. Ограничение состоит из трех компонентов: ссылки на ячейку, оператора сравнения и значения ограничения. В левой части от оператора сравнения кроме ссылки на ячейку может также задаваться ссылка на диапазон. В правой части может задаваться диапазон (той же размерности, что и в левой части), ссылка на ячейку или константное значение.

После заполнения диалогового окна ПОИСК РЕШЕНИЯ следует нажать кнопку Выполнить. При нахождении оптимального решения на экран выводится диалоговое окно Результаты поиска решения. Значения, отображаемые в рабочем листе, представляют собой оптимальное решение задачи. Можно либо оставить эти значения на листе, если установить переключатель Сохранить найденное решение и нажать кнопку ОК, либо восстановить исходные значения, если нажать кнопку Отмена или установить переключатель Восстановить исходные значения и нажать кнопку ОК. Можно также сохранить найденные значения в качестве сценария.

Найденные результаты решения задачи могут быть нецелыми. Их можно округлить или добавить новые ограничения, при которых результаты должны быть целыми числами. В последнем случае в качестве операции сравнения в окне Добавление ограничений следует выбрать Цел. Использование целочисленных ограничений в задаче поиска решений может увеличить сложность задачи в геометрической прогрессии., что приводит к существенным временным затратам. Некоторые задачи могут быть решены только при использовании целочисленных ограничений. В частности, целочисленные решения являются обязательными для задач, в которых переменные могут принимать только два значения, например 0 и 1. В этом случае в окне диалога Добавление ограничения можно использовать оператор сравнения Двоич.

При сохранении книги после использования поиска решения все значения, введенные в окнах диалога поиска решений, сохраняются вместе с данными рабочего листа. С каждым рабочим листом в книге можно сохранить один набор значений параметров поиска. Однако, пользуясь кнопкой Сохранить модель в окне диалога Параметры поиска решений, можно сохранить несколько таких наборов. Для этого необходимо выполнить следующие действия:

1) Выбрать пиктограмму Поиск решения группы Анализ вкладки ДАННЫЕ.

2) Нажать кнопку Параметры, а затем в окне диалога Параметры поиска решения нажать кнопку Сохранить модель. Excel попросит указать ячейку или диапазон рабочего листа, в котором нужно сохранить параметры поиска решения.

3) Задать пустую ячейку, щелкнув на ней или введя ссылку, затем нажать кнопку ОК. Если задана одна ячейка, ПОИСК РЕШЕНИЯ вставит сохраняемые параметры поиска в лист, начиная с заданной ячейки. Если задан диапазон, ПОИСК РЕШЕНИЯ заполнит параметрами модели только заданные ячейки. Если диапазон слишком мал, некоторые из параметров не будут сохранены.

4) Чтобы снова использовать сохраненные параметры, следует нажать кнопку Параметры в окне диалога Поиск решения, затем нажать кнопку Загрузить модель и задать диапазон, в котором сохранена модель поиска решений.

Еще один способ сохранения параметров поиска решений – сохранение их в виде именованных сценариев. Окно диалога Результаты поиска решений содержит кнопку Сохранить сценарий. При нажатии этой кнопки активизируется диспетчер сценариев, который позволяет назначить имя сценария текущим значениям изменяемых ячеек.

Окно диалога Параметры поиска решений дает возможность задать еще ряд показателей, управляющих процессом поиска:

1) С помощью полей Максимальное время и Предельное число итераций можно указать ПОИСКУ РЕШЕНИЙ, сколько усилий он должен приложить для решения задачи. Если поиск решений достигает предела по времени или числу итераций до нахождения нужного результата, Excel спрашивает, нужно ли продолжать поиск решения. Используемые по умолчанию величины обычно достаточны для решения большинства задач, но если решения получить не удается, можно попробовать их подобрать.

2) Относительная погрешность используется ПОИСКОМ РЕШЕНИЯ для определения точности выполнения ограничений. Чем ближе это значение к 1, тем ниже точность. Задание относительной погрешности, меньше установленной по умолчанию (0,000 001) приводит к росту времени поиска решения.

3) Допустимое отклонение служит для задания допуск на отклонение от оптимального решения и применяется только в задачах с целочисленными ограничениями.

4) Переключатели Оценки, Разности и Метод поиска позволяют уточнить применяемые методы оптимизации, обычно используются значения, установленные по умолчанию.

5) Флажок Линейная модель может быть активизирован только для моделей, в которых отсутствуют нелинейные зависимости, т.е. график зависимости целевой функции от каждого ограничения может быть представлен прямой линией. Если этот флажок установлен, решение линейной задачи будет найдено быстрее.

6) Флажок Показывать результаты итераций позволяет исследовать различные комбинации значений изменяемых ячеек, а не только комбинацию, дающую оптимальный результат. После каждой итерации будет открываться окно диалога Текущее состояние поиска решений, которое позволяет сохранить сценарий, прекратить поиск или продолжить его со следующей итерации. Следует иметь ввиду, что промежуточные результаты могут не удовлетворять всем заданным ограничениям.

ПОИСК РЕШЕНИЙ может представлять свои результаты в виде трех отчетов: Результаты, Устойчивость и Пределы. Для генерации одного или нескольких отчетов следует выбрать их названия в окне диалога Результаты поиска решений (рис.9.49). Каждый отчет сохраняется на отдельном листе текущей книги, а имена отчетов отображаются на ярлычках.

Отчет по устойчивости содержит информацию о том, насколько целевая ячейка чувствительна к изменениям ограничений и переменных. В отчете показывается, как целевая функция реагирует на увеличение значений изменяемых ячеек на единицу и на увеличение значения ограничения на единицу

Отчет по пределам сообщает о том, в каких пределах значения изменяемых ячеек могут быть увеличены или уменьшены без нарушения ограничений задачи. Для каждой изменяемой ячейки этот отчет содержит оптимальное значение, а также наименьшее и наибольшее значения, которые ячейка может принимать без нарушения ограничений.

2) Поиск остановлен (достигнуто максимальное число итераций). Можно возобновить поиск, либо прекратить его. Можно также сохранить текущее значение в виде именного сценария. Установленное по умолчанию значение максимального числа итераций можно изменить в окне Параметры поиска решений.

Контрольные вопросы:

1) Что такое электронная таблица и каковы ее основные функции?

2) Типы данных, используемые в электронных таблицах.

3) Что называется ячейкой?

4) Что такое рабочий лист и рабочая книга?

5) Что такое формула?

6) Что называется ссылкой?

7) Какие бывают ссылки? Дать определения.

8) Что необходимо для получения возможности вводить данные и выполнять команды в Excel?

9) Как выделить блок ячеек?

10) Как выделить строку?

11) Как выделить весь лист?

12) Какие средства редактирования данных в Excel вам известны?

13) Какие операции можно выполнять над рабочими листами книги?

14) Как называется процесс расчета формул с последующим выводом результатов в виде значений в ячейках?

15) Что такое циклическая ссылка?

16) Что такое функция?

17) Чем отличается формула от функции?

18) Что позволяет функция?

19) Что такое форматирование рабочего листа?

20) Перечислите параметры форматирования рабочего листа.

21) Что такое условное форматирование и для чего оно предназначено?

22) Перечислите средства защиты данных в электронной таблице.

23) Для чего защищают данные в таблицах?

24) Как скрыть содержимое рабочего листа?

25) Что такое список?

26) Из каких структурных элементов состоит список?

27) Что позволяет использование формы данных?

28) Почему нельзя отредактировать поля содержащие формулы?

29) Что такое сортировка списков?

30) Как называется способ быстрого выделения из списка данных для последующей работы с ними?

31) Перечислите способы фильтрации данных.

32) Для чего предназначен расширенный фильтр?

33) Какие существуют критерии отбора расширенного фильтра?

34) Что такое консолидация?

35) Перечислите способы консолидирование данных. Назначение каждого способа.

36) Для чего предназначена сводная таблица ?

37) Назначение команды Подбор параметра.

39) Как построить диаграмму?

40) Перечислите основные компоненты диаграммы?

41) Какие типы диаграмм вы знаете, для использования интерпретации данных электронных таблиц?

Анализ данных — это область математики и информатики, занимающаяся построением и исследованием наиболее общих математических методов и вычислительных алгоритмов извлечения знаний из экспериментальных (в широком смысле) данных; процесс исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезной информации и принятия решений.

Говоря чуть более простым языком, я бы предложил понимать под анализом данных совокупность методов и приложений, связанных с алгоритмами обработки данных и не имеющих четко зафиксированного ответа на каждый входящий объект. Это будет отличать их от классических алгоритмов, например реализующих сортировку или словарь. От конкретной реализации классического алгоритма зависит время его выполнения и объем занимаемой памяти, но ожидаемый результат его применения строго зафиксирован. В противоположность этому мы ожидаем от нейросети, распознающей цифры, ответа 8 при входящей картинке, изображающей рукописную восьмерку, но не можем требовать этого результата. Более того, любая (в разумном смысле этого слова) нейросеть будет иногда ошибаться на тех или иных вариантах корректных входных данных. Будем называть такую постановку задачи и применяющиеся при ее решении методы и алгоритмы недетерминистическими (или нечеткими) в отличии от классических (детерминистических, четких).

Алгоритмы и эвристики

Описанную задачу распознавания цифр можно решать пытаясь самостоятельно подобрать функцию, реализующую соответствующее отображение. Получится, скорее всего, не очень быстро и не очень хорошо. С другой стороны, можно прибегнуть к методам машинного обучения, то есть воспользоваться вручную размеченной выборкой (или, в других случаях, теми или иными историческими данными) для автоматического подбора решающей функции. Таким образом, здесь и далее (обобщенным) алгоритмом машинного обучения я буду называть алгоритм, так или иначе на основе данных формирующий недетерминистический алгоритм, решающий ту или иную задачу. (Недетерминистичность полученного алгоритма нужна для того, чтобы под определение не подпадал справочник, использующий предварительно подгруженные данные или внешний API).

Таким образом, машинное обучение является наиболее распространенным и мощным (но, тем не менее, не единственным) методом анализа данных. К сожалению, алгоритмов машинного обучения, хорошо обрабатывающих данные более или менее произвольной природы люди пока не изобрели и поэтому специалисту приходится самостоятельно заниматься предобработкой данных для приведения их в пригодный для применения алгоритма вид. В большинстве случаев такая предобработка называется фичеселектом (англ. feature selection) или препроцессингом. Дело в том, что большинство алгоритмов машинного обучения принимают на вход наборы чисел фиксированной длины (для математиков — точки в ). Однако сейчас также широко используются разнообразные алгоритмы на основе нейронных сетей, которые умеют принимать на вход не только наборы чисел, но и объекты, имеющие некоторые дополнительные, главным образом геометрические, свойства, такие как изображения (алгоритм учитывает не только значения пикселей, но и их взаимное расположение), аудио, видео и тексты. Тем не менее, некоторая предобработка как правило происходит и в этих случаях, так что можно считать, что для них фичеселект заменяется подбором удачного препроцессинга.

Алгоритмом машинного обучения с учителем (в узком смысле этого слова) можно назвать алгоритм (для математиков — отображение), который берет на вход набор точек в (еще называются примерами или samples) и меток (значений, которые мы пытаемся предсказать) , а на выходе дает алгоритм (=функцию) , уже сопоставляющий конкретное значение любому входу , принадлежащему пространству примеров. Например, в случае упомянутой выше нейросети, распознающей цифры, с помощью специальной процедуры на основе обучающей выборки устанавливаются значения, соответствующие связям между нейронами, и с их помощью на этапе применения вычисляется то или иное предсказание для каждого нового примера. Кстати, совокупность примеров и меток называется обучающей выборкой.

Список эффективных алгоритмов машинного обучения с учителем (в узком смысле) строго ограничен и почти не пополняется несмотря на активные исследования в этой области. Однако для правильного применения этих алгоритмов требуется опыт и подготовка. Вопросы эффективного сведения практической задачи к задаче анализа данных, подбора списка фичей или препроцессинга, модели и ее параметров, а также грамотного внедрения непросты и сами по себе, не говоря уже о работе над ними в совокупности.

Общая схема решения задачи анализа данных при использовании метода машинного обучения выглядит таким образом:

image

image

Эвристика — это просто вручную подобранная функция, не использующая продвинутых методов, и, как правило, не дающая хорошего результата, но приемлемая в определенных случаях, например на ранних стадиях развития проекта.

Задачи машинного обучения с учителем

В зависимости от постановки, задачи машинного обучения делят на задачи классификации, регрессии и логистической регрессии.

Классификация — постановка задачи при которой требуется определить, какому классу из некоторого четко заданного списка относится входящий объект. Типичным и популярным примером является уже упоминавшееся выше распознавание цифр, в ней каждому изображению нужно сопоставить один из 10 классов, соответствующий изображенной цифре.

Регрессия — постановка задачи, при которой требуется предсказать некоторую количественную характеристику объекта, например цену или возраст.

Логистическая регрессия сочетает свойства перечисленных выше двух постановок задач. В ней задаются совершившиеся события на объектах, а требуется предсказать их вероятности на новых объектах. Типичным примером такой задачи является задача предсказания вероятности перехода пользователя по рекомендательной ссылке или рекламному объявлению.

Выбор метрики и валидационная процедура

Прежде чем внедрять алгоритм в работающий и взаимодействующий с реальными пользователями продукт (или передавать его заказчику), хорошо бы оценить, насколько хорошо этот алгоритм работает. Для этого используется следующий механизм, называемый валидационной процедурой. Имеющаяся в распоряжении размеченная выборка разделяется на две части — обучающую и валидационную. Обучение алгоритма происходит на обучающей выборке, а оценка его качества (или валидация) — на валидационной. В том случае, если мы пока не используем алгоритм машинного обучения, а подбираем эвристику, можно считать, что вся размеченная выборка, на которой мы оцениваем качество работы алгоритма является валидационной, а обучающая выборка пуста — состоит из 0 элементов.

Типичный цикл развития проекта

В самых общих чертах цикл развития проекта по анализу данных выглядит следующим образом.

  1. Изучение постановки задачи, возможных источников данных.
  2. Переформулировка на математическом языке, выбор метрик качества предсказания.
  3. Написание пайплайна для обучения и (хотя бы тестового) использования в реальном окружении.
  4. Написание решающей задачу эвристики или несложного алгоритма машинного обучения.
  5. По необходимости улучшение качества работы алгоритма, возможно уточнение метрик, привлечение дополнительных данных.

Заключение

На этом пока все, следующий раз мы обсудим какие конкретно алгоритмы применяются для решения задач классификации, регрессии и логистической регрессии, а о том, как сделать базовое исследование задачи и подготовить его результат для использования прикладным программистом уже можно почитать здесь.

На этом этапе осуществляется парное сравнение выборки результирующего показателя с выборками показателей, которые согласно теоретической модели рассматриваются как факторные, а также проверяется степень коррелируемости факторных показателей. Для этих целей строят и анализируют матрицы парных линейных коэффициентов корреляции r, которые изменяются от -1 до 1. Анализ применим лишь в случае линейной зависимости между признаками. Чем ближе значения коэффициента корреляции к -1 или к 1, тем выше степень коррелируемости соответствующих случайных величин. Однако, при r, близких к 1 или -1, регрессионные связи между соответствующими величинами устанавливаться не могут, так как эта ситуация означает фактически функциональную взаимосвязь показателей.

Значимость (существенность) линейного коэффициента корреляции проверяют на основе t-критерия Стьюдента. При этом выдвигается и проверяется нулевая гипотеза о равенстве коэффициента нулю, т.е. об отсутствии связи между х и у. Для этого определяется расчетное значение критерия:


(1)

где r – коэффициент корреляции,

n – число наблюденеий,

σr – среднее квадратическое отклонение кэффициента корреляции.

и сопоставляется с tтабличное с заданными параметрами (уровнем значимости α, принимается обычно за 0,05, и числом степеней свободы υ = n – 2, где n – число наблюдений).

Если tрасчетное › tтабличное , то нулевая гипотеза отвергается и линейный коэффициент считается значимым, а связь между х и у – существенной, если же неравенство обратное, то связь между х и у отсутствует.


Вообще говоря, отсутствие корреляционной связи между факторным признаками и наличие тесной связи (значение парных коэффициентов корреляции )между результативным и факторными признаками – условие включения этих факторных признаков в регрессионную модель.

Кроме того, при построении модели регрессии необходимо учитывать проблему мультиколлениарности (тесной зависимости между факторными признаками), которая существенно искажает результаты исследования.

Одним из индикаторов определения наличия мультиколлинеарности между факторными признаками является превышение величины парного коэффициента корреляции 0,8 (r ≤ 0,8).

Читайте также: