Люди обожают сохранять что-то на память и выкладывать в интернет: фотографии, посты, видео.
При этом машины любят информацию еще больше. Компьютеры, смартфоны и другие устройства создают около 80% новых данных. Из-за нашей общей любви к информации, ее количество постоянно растет. В 2018 подсчитали, что вес всех данных мира составлял примерно 33 миллиарда терабайт, а к 2025 году прогнозируют рост до 175 миллиардов.
Учёные решили, что раз в мире так много информации, то было бы здорово анализировать её всю сразу.
Допустим, одновременно посмотреть, как изменялась температура по всему земному шару за последние 50 лет.
Раньше мы не умели так делать, но теперь есть мощные компьютеры и современные методы исследований — в итоге работа с большими данными уже не проблема.
Но какие конкретно данные называют большими? Считается, что у таких данных пять основных характеристик.
- Первая, очевидно, это огромный объём.
- Вторая — скорость создания и анализа данных. Каждый день мы производим порядка 2,5 квинтиллиона байтов новой информации, которую нужно быстро обрабатывать.
- Третья характеристика — разнообразие. Большие данные — это информация разного типа из разных источников. Например, изображения, видео- и аудиозаписи в одном хранилище с текстовыми файлами.
- Четвертая — достоверность. В идеале из больших данных нужно создавать массивы релевантной информации для конкретных проблем, избавляться от статистических выбросов.
- Последняя характеристика — ценность. Информация — самый дорогой актив 21 века и у тех, кто научится обрабатывать и хранить огромные запасы данных, всегда будет конкурентное преимущество.
Например, база данных о клиентах в семейном ресторане — это не большие данные. Их мало, новые добавляются редко, по структуре они одинаковые. Данные правдивые, но не несут особой ценности. А вот база пользователей социальной сети — это то, что нужно. Там сотни миллионов людей, они добавляются каждую секунду, пишут посты, снимают фото и ставят лайки. Из этой базы можно получить выгоду, например, настроить рекламу по интересам.
Про большие данные так много говорят, потому что это ключ к решению проблем планетарного масштаба. Всё ближе становится будущее, в котором анализ больших данных позволит разобраться, как распределять энергию, запасы еды или медикаментов на уровне городов, стран или даже целой планеты. Не впечатляет? Окей! А что насчет предотвращения преступлений? С этим уже экспериментируют в Лос-Анджелесе. Полиция может на основе исторических данных об угонах и грабежах предсказать, в каком районе произойдут новые происшествия, и направляет туда больше патрулей.
Большие данные ценны сами по себе, но их главная роль — быть топливом для технологий и исследований. Их можно сравнить с большой поляной, накрытой для пикника. Присоединиться может кто угодно — физик, экономист, биолог или даже искусственный интеллект. Физикам нужно обрабатывать большие данные, чтобы изучать глубины космоса. Экономистам — чтобы строить математические модели, которые учитывали бы тысячи факторов. Анализ больших данных помогает лучше понять природу: расшифровать ДНК вирусов или предсказывать погоду на основе исторических наблюдений.
А как вы думаете, откуда у нас появились беспилотные автомобили? Они возникли благодаря технологиям машинного обучения. Чтобы учиться, машинам как раз нужны данные: чем больше, тем лучше. Робота-водителя учат распознавать на видео дорожные знаки, другие автомобили и людей, чтобы предсказывать их поведение и принимать максимально безопасные решения на дороге. Онлайн-переводчик или персонализированная лента социальной сети — это тоже примеры того, как на поляну с большими данными пришел поучиться искусственный интеллект.
Специалистов, которые занимаются большими данными, называют дата-аналитиками. Они могут обнаружить закономерности в данных и составить нужную выборку, дать прогноз или рекомендацию для бизнеса. Например, оператор мобильной связи хочет разослать предложение с новым тарифом только тем абонентам, кто старше 35 лет и разговаривает по телефону не менее 30 минут в месяц. Аналитик сможет выбрать из базы только тех клиентов, которые отвечают таким требованиям.
Большие данные — это основа для технологий будущего. Мы научились хранить и обрабатывать немыслимое количество информации, но это только первый шаг. Теперь мы будем учиться решать с её помощью глобальные проблемы человечества. Большие данные — большие перспективы.