Table of Contents Table of Contents
Previous Page  40 / 44 Next Page
Information
Show Menu
Previous Page 40 / 44 Next Page
Page Background

38

КОГДА ДАННЫЕ

СТАЛИ БОЛЬШИМИ

Долгое время информация была редким ресурсом. Однако дефицит сменился взрывным

ростом. Человечество научилось генерировать и хранить данные. Сейчас учится их

анализировать. И конкурентное преимущество получат те, кто первыми научатся

извлекать из них выгоду.

Термин Big Data появился несколь-

ко лет назад. Им обозначают рабо-

ту с данными, соответствующими

трем непривычно большим V: Variety,

Velocity, Volume, то есть структуриро-

ванными и неструктурированными,

с высокой скоростью поступления

и обработки и больших объемов.

При принятии взвешенного реше-

ния о выдаче кредита за пятнадцать

минут нужно проанализировать се-

рьезный массив данных. У интер-

нет-магазинов время измеряется

уже секундами. Пока клиент заду-

мался, нужен ли ему тот или иной

товар, интернет-магазин Amazon

должен успеть проанализировать

историю его поведения в интернете,

сравнить с поведением аналогичных

клиентов и подсунуть наиболее за-

манчивые альтернативы из ассорти-

мента более чем в миллион позиций.

А компания ComScore, крупнейший

поставщик профилей интернет-поль-

зователей, обрабатывает в день 30

млрд. событий – просмотров стра-

ниц, длительности сеансов, демо-

графических сведений. У поисковых

систем времени на работу – доли

секунды, в течение которых они

должны не просто найти подходящие

варианты ответов на запрос, но и со-

поставить их с актуальностью про-

филя конкретного пользователя.

Нагенерировали

В основе информационного взры-

ва лежит цифровизация нашей жиз-

ни. По прогнозам IDC, объемы ин-

формации будут удваиваться каждые

два года в течение следующих вось-

ми лет. Один из основных факторов

этого роста – увеличение доли ав-

томатически генерируемых данных:

с 11% их общего объема в 2005 году

до более чем 40% в 2020-м. При этом

используется лишь менее 3% из 23%

потенциально

полезных

данных.

К 2020 году общий объем цифровых

данных достигнет 40 зеттабайт. Для

понимания масштаба: если записать

40 зеттабайт данных на самые емкие

современные диски Blue-ray, общий

вес дисков без упаковки будет равен

весу 424 авианосцев.

Революция происходит не в тех-

нологиях хранения, а в генерации

данных и попытках использовать их

в неочевидных решениях. Большие

массивы данных – лишь вспомо-

гательный инструмент в давно су-

ществующих задачах маркетинга,

управления запасами, оптимизации

производства. «Работа с данны-

ми велась всегда, но сейчас мож-

но говорить о переходе количества

в качество. Сравнительно недавно

появилось умение понимать, осмыс-

ливать данные и принимать решения

на их основе. Произошло это за счет

того, что данные и методы их ана-

лиза стали высокотехнологичными,

– считает Андрей Себрант, директор

по маркетингу сервисов “Яндекса”. –

Пока за аналитику все чаще выдают

статистику. Если вы загрузили дан-

ные, а в ответ получили лишь постро-

енную по ним кривую и вынуждены

сами ломать голову над причинами

изменений и над тем, что с ними де-

лать, – это статистика. Data science –

это наука о работе с данными, уме-

нии вытягивать из больших объемов

информации не просто тренды, а их

объяснение и обоснование возмож-

ных решений».

«Научные задачи, которые data

science ставит перед математикой,

лежат скорее в инженерной сфере.

Это связано с тем, что при работе

с большими данными мы вынужде-

ны отказываться от большого числа

методов, которые перестают удов-

летворять нас по скорости работы.

Например, приходится отказывать-

ся от квадратичных методов, от ли-

нейного поиска. Взамен приходится

идти на различного рода ухищрения

и компромиссы. Изобретаются при-

ближенные методы, которые не дают

абсолютно точных результатов с на-

учной точки зрения, но достаточные

по качеству с точки зрения бизне-

са», – считает Юрий Чехович. И это

приносит свои плоды: например,

РЕВОЛЮЦИЯ

ПРОИСХОДИТ

НЕ В ТЕХНОЛОГИЯХ

ХРАНЕНИЯ,

А В ГЕНЕРАЦИИ

ДАННЫХ

И ПОПЫТКАХ

ИСПОЛЬЗОВАТЬ ИХ

В НЕОЧЕВИДНЫХ

РЕШЕНИЯХ

ИНТЕРЕСНО И ПОЛЕЗНО