Технология text mining реферат

Обновлено: 07.07.2024

Нет, они не против. Они очень даже за. Только чтобы теория давала деньги. Завтра. А лучше — сегодня. Какие там исследования, какое развитие идей — тут крупнее дела, тут надо деньгу зашибить, пока публика не приняла еще сырую технологию за шарлатанство и не выкинула на помойку. Как, похоже, скоро случится с любимой темой автора — технологиями Text Mining.

Часть первая, вводно-оптимистическая
… –
та же добыча радия.
В грамм добыча,
в год труды,
Изводишь
единого слова ради
тысячи тонн
словесной руды.
Маяковский, первый теоретик Text Mining

Мама, как они это делают?

Поймите меня правильно. Я не пытаюсь развенчивать какие-то теории. Системы, основывающиеся на семантических сетях, бывают очень хороши. Я просто пытаюсь показать, что на одних умных словах далеко не уедешь. Под любые умные идеи можно подвести никудышную реализацию — а особенно под расплывчатые теории с красивыми названиями.

Но мы отвлеклись. Как бы то ни было, системы интеллектуального анализа текста создаются и продаются, теории существуют — часть из них публикуется и делает имя автору, а часть — скрывается, как know-how, и делает автору деньги.

И вот на фоне всех этих умных слов возникает закономерный вопрос: и что, это все работает? И достигаются поставленные цели? И обнаруживаются новые знания? Ну что вам сказать…

…в общем-то, работает

— Урра! Заррработало!
Кот Матроскин

Тут читатель, знакомый с отраслью, возмутится: как же так, ведь коммерческие системы создаются. И успешно продаются. Между прочим, расценки на этом рынке стартуют от 104 вечнозеленых единиц. Ведь это же удивительная успешность! Ведь у них-то получается?

Часть вторая, реалистически-пессимистическая

Ага, получается. Правда, не избушка. А неизбушка отлично получается.
Позвольте, я объяснюсь. Как человек, занимающийся научной работой по тематике данной статьи, а также пытающийся практически использовать вышеозначенные технологии (кстати, практически единственный по-настоящему полезный результат всей этой деятельности — собственно статья). И как человек, перелопачивающий для оных научных работ горы литературы и реально существующих систем. Если кто не понял, я пытаюсь обосновать свое право объясняться и делать выводы. Хотя и глуповато оправдываться в середине статьи, но все же совесть стала чище. И, раз уж мы отвлеклись, еще одно оправдание: я не стану называть реальные системы и давать адреса сайтов — просто из принципа, а не потому, что не знаю.

Замечательно. Итак, из чего же строится неизбушка? А известно из чего: берем три умные теории — теорию А, теорию Б и теорию В. Программисты их штудируют. Потом упрощают (чтобы легче программировать было, да и все равно это было не нужно). Потом соединяют (типа, что-то новое придумали). Причем не путем длительных экспериментов на реальных данных, а эдак, как бы попроще, — скажем, если мы данные на выходе А подадим на вход Б, а результаты объясним как в литературе по В? Отлично! Кодируем!

Этап следующий — удобство использования. Что вы! Какое удобство? Мы адепты Text Mining, нам эти мелочи до фени. Результаты непонятные? Ага, а вы попробуйте три гигабайта информации руками обработать — мы посмотрим, что у вас получится. Не совсем то, что нужно? Ну вы же понимаете, системы интеллектуального анализа данных — это всегда системы нечеткой логики. Тут все просто: нечеткая логика — нечеткие результаты. Вы на третьей странице смотрели? Вот там, в левом углу? Во! А вы говорите — результатов нет!

Но ведь кто-то же их покупает за эти страшные деньги! Да и идеи-то заложены правильные, за этими методами — вроде как будущее человеко-компьютерного взаимодействия. Да только вместо того, чтоб теорию двигать, разработки разрабатывать, проще сделать системку побыстрее, назвать покруче и продать подороже. Я тут опрометчиво сказал, что бывают теории опубликованные, а бывают тщательно скрываемые, как know-how. Забыл упомянуть про третий (и, к сожалению, самый распространенный) тип — отсутствие теоретической базы, тщательно прикрываемое громкими словами и маской know-how — не беспокойтесь, мы все равно знаем лучше.

Такая вот неизбушка.

Зачем…
— Шейчаш я тебе покажу, хто это и жачем это, штоматолог чертов!
Змей Горыныч

Зачем же нас обманывают? Почему эти системы создают люди, предел способностей которых — второсортные офисные приложения?

И вы еще спрашиваете? Неужели это не очевидно?

Впрочем, в качестве подсказки позвольте провести коротенький сравнительный анализ. Предположим, вы глава софтверной фирмы. И пишете, к примеру, офисные приложения. На что вы можете рассчитывать? Во-первых, переплюнуть Microsoft вы не сможете. Ну просто не сможете и все, примите это как печальный факт. Остается писать что-то, что не охвачено редмондцами. Во-вторых, куча конкурентов, которые начинали лет на десять раньше вас. В-третьих, купив основные офисные приложения по $300 за пучок, вряд ли ваш потенциальный пользователь выложит за какую-нибудь полезную примочку больше 100–150 у.е.

Это одна сторона банкноты. А вот обратная: у вас Суперсовременная Исследовательская Фирма. Вы занимаетесь интеллектуальным анализом текста и придумали свой новейший метод. Или не придумали, а где-то вычитали и реализовали. Но никому не признаетесь. Сравним ваши перспективы с судьбой гипотетического автора офисных приложений. Во-первых, признанного хедлайнера в этой области еще нет, и никто не мешает вам стать Самым Крутым. Во-вторых, практически ни одна из систем конкурентов не дает удовлетворительных результатов и поэтому не является особо популярной (ваша, впрочем, тоже не дает, но кого это волнует?). В-третьих, всякая уважающая себя система Text Mining стоит не менее 10 тысяч долларов. В-четвертых, никто не обратит внимания на мелкие недоработки интерфейса, потому что а) тут другое важнее и б) если они вылизали интерфейс, значит, у них алгоритмы слабоваты (таков стереотип). И в конце концов, как приятно при встрече с коллегой на вопрос о роде занятий эдак лениво ответить: науку, мол, двигаю…

А теперь представьте себя ни тем, ни другим — а просто человеком, который решил завести наконец-то Свое Дело и размышляет: не то офисные приложения писать, не то на острие прогресса податься. Что выберете? Что-что? Лучше неприбыльное, но качественное? Хорош врать-то!

Часть третья, итогово-неопределенная

Сразу уточню: я не издавал ни восьми монографий, ни тысячедолларовых программ. Все нижесказанное — исключительно мои выводы и мнения, по-русски — ИМХО.

Правда в том, что автор не знает. Он может лишь предположить, что автоматическим применением к входным данным трех-четырех простых преобразований (как, собственно, и работает сейчас большинство систем) — проблему не решить. Что без глубоких знаний о структуре языка и речи составлять реферат сколько-нибудь реального документа — практически бессмысленно. Что нужны совместные усилия филологов и психологов, лингвистов и программистов, только чтобы понять, что это такое — Дар, извиняюсь за выражение, Слова и Речи, Анализа и Синтеза, Восприятия и, опять же, Осмысления. Тут, господа, не на рынке торговать нужно, а вкалывать, чтобы только пыль из гигабайтов летела.
Но, впрочем, это уже излишне. Ведь системы-то и так продаются. А что будет завтра — можно только предполагать.

— Неизбушка меня не интересует, — говорит режиссер.
— Но она готова? Неизбушка готова?
— Какая неизбушка?
— Обыкновенная. Самая простая, нормальная неизбушка — готова?
Уже было

Читайте также: