Статьи

Cначала будет слово / потом окажется, что ему двадцать лет и оно не страшное

Олег Дивов / 01.04.2009 / 16:34

Информатика не балует широкие массы сенсациями. Все прорывные открытия, о которых пишут на специализированных сайтах, где-то там и застревают, в «этих ваших интернетах». Средний юзер оценит прорыв только по факту, когда результат зашевелится в его ноутбуке. Он ведь юзер, а не эксперт.

Донести реальную «цифровую» сенсацию до народа настолько сложно, что «шокирующую новость» проще выдумать. Увы, заведомо ложные сенсации недолговечны и слабы. Чтобы новость громко шарахнула, журналисту надо для начала самому впасть в заблуждение. Например, зацепиться за красивый термин — и вполне искренне накрутить вокруг него черт-те чего.

Термин должен поддаваться произнесению вслух человеком с высшим образованием и звучать завораживающе. Так, чтобы невинная жертва сенсации, выговорив со второго-третьего захода «большой андронный коллайдер», ощутила, что она и правда не тварь дрожащая, а человек с высшим образованием.

Поэтому сенсация всегда начинается со Слова.

Но слово слову рознь, у каждого своя убойная сила и скорость по пересеченной местности. И раздавшееся осенью 2008 года слово «рецессия» легко спихнуло с вершины чарта даже такой хит, как «нанотехнологии».

Походя «рецессия» расправилась еще с десятком потенциальных хитов поменьше. Очень жаль. Во-первых, лучше плохие глупости, чем плохие новости. Во-вторых, среди дутых сенсаций притаилась одна уморительная — а мы ее прохлопали. Все было сделано как надо, по уму — но до обидного мало народу село на крючок.

А ведь в сентябре 2008 года авторитетнейшее издание The Economist бросило в народ поистине роскошное Слово.

И Слово то было — «датамайнинг».

Обстоятельная статья поведала миру о секретной программе Пентагона по распознаванию «террористических» паттернов поведения. Потенциальных шахидов искали путем анализа больших информационных массивов — грубо говоря, по всему интернету — этим самым датамайнингом. Пентагон датамайнил американцев аж с 2002 года, но общественность об этом вовремя узнала и подняла шум. Однако программа не была свернута, напротив, датамайнингом увлеклись спецслужбы. «Американские правозащитники ведут усиленную борьбу против датамайнинга, который ФБР сделало своим основным инструментом для слежки за гражданами», — писал The Economist.

Волнующий материал был мигом переведен на русский и стал поводом для сокрушенных вздохов и нецензурной брани. Еще бы — сегодня ФБР ведет интернет-слежку за американцами, а завтра, глядишь, и ФСБ до нас додатамайнится... Потом, к счастью, пришли эксперты и объяснили: для борьбы с терроризмом датамайнинг не годится, «поскольку террористические акты слишком редкие события, чтобы набрать по ним статистику, достаточную для анализа». Все поняли, что датамайнинг — очередная разводка для американских лохов, и успокоились.

А напрасно.

У профессионалов, торгующих сложным коммерческим софтом, есть обидный термин «обезьяна с ноутбуком». Это бестолковый юзер, торгующий сложным коммерческим софтом. Что приводит, как легко догадаться, к полной дискредитации софта. Эксперт, уверяющий, будто программа распознавания поведенческих паттернов не годится для поиска террористов из-за малой статистики по терактам, — та самая «обезьяна», не способная отличить датамайнинг от OLAP. Вроде другой «обезьяны», уверенно объясняющей, что «интернет-поиск по сути и есть датамайнинг». Или вроде журналиста из The Economist, так написавшего статью, что само понятие датамайнинга оказалось намертво увязано с происками спецслужб.

Можно, конечно, предположить, что американские правозащитники «борются с датамайнингом». Мало ли чего им в голову взбредет. Но тогда их первейшие враги — Amazon, Yahoo и традиционные сети розничной торговли. Любые торговые сети, включая российские. Датамайнингу как понятию уже больше двадцати лет, а софт для него стоит в России от трех до десяти тысяч долларов.

Что эти штуки делают? Говоря попросту, ищут информацию в информации. Заменяют людей при работе с такими массивными датабазами, в которых утонул бы целый советский НИИ. Выявляют неочевидные закономерности, находят ответы на вопросы, поставленные слишком расплывчато для традиционного статанализа. В Америке программы распознавания паттернов успешно применяются в борьбе с мошенничеством и уклонением от налогов — об этой стороне датамайнинга специалисты не распространяются. Ну и, естественно, «антитеррор». А самая понятная обывателю сторона — оптимизация торговли и управления производством. Как вы догадываетесь, я сейчас упрощаю рассказ до предела.

Узнать о датамайнинге вполне достаточно для начала можно с помощью любого поисковика (который вовсе не датамайнит, хотя создатели Google именно этим занимались в Стэнфорде), потратив на чтение полчаса.

Тут у вас, по идее, должно возникнуть легкое удивление — насчет того самого журналиста и прочих «обезьян с ноутбуками».

А я уже не удивляюсь. К несчастью, важная часть моей повседневной работы — распознавание поведенческих паттернов на основе недостаточных данных.

И все-таки, повторю, лучше плохие глупости, чем плохие новости.

blog comments powered by Disqus
Обратная связь
Имя
E-mail
Сообщение:

Отправить