Великому кораблю — великі дані: розповідь про Big Data з книги «Усі брешуть»

22

«Скажи мені, хто твій друг — і я скажу тобі, хто ти». Давньогрецький поет Еврипід сам того не знаючи ще до нашої ери передбачив використання big data — великих даних. Тепер кожен сам собі пророк і Евріпід: достатньо відкрити вкладку «Історія браузера» і Google Trends. А якщо думаєте, що комп’ютер і смартфон — ваша персональна фортеця, то доступ до пошукових запитів є у розробника браузера, розширень і плагінів, провайдера, власника VPN і інших людей. Не хвилюйтеся, чудовий новий світ Big Data вже настав, і книга «Усі брешуть» розповість, як з цим впоратися.

Що таке Великі Дані

Давайте запитаємо у автора книги «Всі брешуть. Пошуковики, Big Data та Інтернет знає про вас усе, фахівця Google Data Science Сету Стівенса про те, що це таке — big data.

Повинен зізнатися: я не збираюся давати точне визначення того, що таке «великі дані»

Упс! Вся справа в критерії, якими визначається розмір даних. Вибірка з 20 000 спостережень — багато чи мало? Зайдемо з іншого боку і дамо список особливостей big data:

  • більшість даних зібрані з інтернету;
  • обробляються для визначення причинно-наслідкового зв’язку між подіями;
  • включають в себе набір методів та інструментів обробки отриманих даних;
  • для обробки використовують спеціальні програмні інструменти (наприклад штучні нейронні мережі або краудсорсінг) — універсального методу не існує;
  • дані можуть оновлюватися щомиті;
  • включають різні види даних — запити пошукача, «лайки» і «репости», теги, місце розташування, історія відвідувань і т. д.

Data mining — способи отримання інформації великого обсягу даних.

Система «Сонар» з фільму «Темний лицар» використовує кожен смартфон в місті в якості передавача даних. Це — можливий розвиток ідей Big Data.

Реальні кейси використання Big Data

Як сильно люди захоплені нездоровою їжею?

Хто зібрав дані: дослідники з Катару.

Що аналізували: 10 млн фотографій Instagram з хештегом #foodporn.

Навіщо: зрозуміти, наскільки шкідлива фетишизація їжі.

Підсумки: в ТОП дійсно потрапила нездорова їжа — солодка (шоколад, торти, Nutella) та солодке (піца, салати, суші і бургери). Найпопулярнішим фруктом виявилася полуниця, напоями — кава і вино. Але найбільше «лайків» набрали фото здорової їжі, де додатково поставили хештеги #fitgirl, #eatclean та інші. Харчуватися здорово — модно!

Приклад фото з хештегом #foodporn в инстаграме. Сподіваємося, що поруч з вами є кондитерська ?

Як зменшити кількість ув’язнених?

Хто зібрав дані: уряд США за допомогою IT-компаній (Amazon, Palantir, Code for America).

Що аналізували: медичні записи ув’язнених. Інші дані невідомі.

Навіщо: визначити людей, які не несуть загрози суспільству і яких немає сенсу тримати у в’язниці.

Підсумки: робота триває.

Як стати президентом США?

Хто зібрав дані: Cambridge Analytica.

Що аналізували: персональні дані користувачів з кадастрових списків, бонусних програм, телефонних довідників, газетних підписок і т. д.

Навіщо: створити психограми (особисті профілі) 220 млн повнолітніх американців «методом океану» і на їх основі побудувати кампанію з просування кандидата.

Підсумки: Дональд Трамп став президентом США.

Як створити гучний серіал?

Хто зібрав дані: точні виконавці невідомі, замовник — Netflix.

Що аналізували: інтерес до серіалів серед 33 млн передплатників сервісу.

Навіщо: визначити ознаки ідеального серіалу.

Підсумки: на основі отриманих ознак склали кільце Венна (діаграма з колами, які перетинаються) і запустили у виробництво «Картковий будиночок».

Ця діаграма Венна — не кращий приклад, тому що не включає наших читачів. Що поробиш….

Як знати все про своїх громадян?

Хто зібрав дані: приватні компанії за замовленням уряду Китаю.

Що аналізували: кредитну історію людини, подтвержденность особистих даних (адреси, номера телефону тощо), поведінка і вподобання.

Навіщо: для запуску системи соціального кредиту довіри в 2020 році.

Підсумки: розроблена система Sesame Credit, в якій оцінюють користувачів за шкалою від 350 до 950 балів. Володарі високого рейтингу можуть швидко реєструватися в готелях, брати в оренду автомобілі без застави, прискорити отримання шенгенської візи. Для тих, у кого низький рейтинг, штрафів поки немає.

Небезпека великих даних

1. В інтернеті більше немає анонімності і захищеності

Китайський експеримент з соціальним скорингом — тільки квіточки. Так журналістка Свея Еккерт і вчений Андреас Дьюс провели експеримент — вирішили купити базу даних з історіями відвідувань користувачів з Німеччини. Сайту фейкової маркетингової компанії виявилося достатньо, щоб одна компанія надала маркетологам» (експериментаторам) безкоштовну базу даних з історіями відвідувань 3 мільйонів чоловік за місяць. Дані умовно анонімні, але дослідники вирішили перевірити, як встановити особу користувача з історії браузера. Наприклад в розділ (сторінку) аналітики в Twitter може увійти тільки власник облікового запису і його ім’я з’явиться в адресному рядку.

2. Немає етичних стандартів та правил збору і обробки великих даних

Так ті ж дослідники — Еккерт і Дьюс — знайшли розширення для браузера, яке відправляло дані про відвідані сайти. Ймовірно цю можливість прописали дрібним шрифтом в Умовах використання, але наскільки це етично?

Те саме розширення для браузера і однойменний сервіс, які відправляли дані про відвідані сайту. У базу потрапило близько 3 млн юзерів.

3. У систем обробки великих даних немає коригуючого механізму

Великі дані показують залежність чого-небудь (наприклад, платоспроможності за кредитом) від ряду факторів (наприклад, кольору шкіри, місця проживання або віку). Але якщо фактори перестають відображати залежність, система не зміниться автоматично. Про це вже подумав Amazon, тому якщо продажі «Рекомендованих товарів» для конкретного користувача падають, вони вносять корективи. А ось зворотна ситуація: в деяких американських штатах роботу вчителів вимірюють по середньому балу учнів. Ця система «пропускає» тих педагогів, які працюють з важкими дітьми в криміногенних районах — навіть при хорошому успіху середній бал буде значно нижче нібито більш успішних колег.

4. Великі дані дають ілюзію, що все можна виміряти

Facebook знає, скільки лайків у кожного поста, скільки разів його «репостили» або кликнули. Але жоден з цих параметрів не дасть відповіді на питання «Це смішний пост?». Тому Facebook задіяли малі дані опитування окремих користувачів про те, чому вони хочуть побачити якийсь пост у своїй стрічці. Наскільки успішною є така комбінація? Популярність творіння Цукерберга говорить сама за себе.

5. Big Data заражають «хворобою числа вимірів»

Хвороба приходить, коли є багато змінних («розмірностей»), але немає часу на дослідження. Простий приклад: був гучний проект «геном людини», за допомогою якого можна було зібрати і проаналізувати ДНК людини. Вчені збиралися виявити гени, відповідальні за шизофренію, склероз та інші хвороби. По ідеї можна було визначити і ген «високого IQ», і визначати вундеркіндів відразу після їх народження. І спочатку здавалося, що такий ген знайшли — названий вченими IGF2r зустрічався у студентів з IQ від 160 в 2 рази частіше, ніж у студентів з IQ нижче цього рівня. На жаль, через кілька років після першого дослідження виявилося, що IGF2r не корелює з IQ, а отже не відповідає за геніальність.

У 1277 році Папа Римський Іоан XXI заявив про єретичності «законів природи», адже вони конфліктують з Божою всемогутністю. Через кілька місяців природний закон гравітації довів свою істинність: на Івана XXI впав дах одного з приміщень папського палацу. Заперечення законів науки не означає, що вони не працюють.

Задача будь-якої науки – з’ясувати, як щось взаємодіє. Про деякі речі ми не знаємо практично нічого, але вони існують і впливають на життя. Великі дані можна сприймати як магію, підступи маркетологів або робочий інструмент для поліпшення життя. Одне ми знаємо точно — ігнорувати big data вже не вийде. І книга «Усі брешуть. Пошуковики, Big Data та Інтернет знають про вас все» — це найкраще тому підтвердження.

Сет Стівенс-Давидовиц

Всі брешуть. Пошуковики, Big Data та Інтернет знають про вас все

Замовити книгу

Залишити коментар Скасувати відповідь

Ваш e-mail не буде опублікований. Обов’язкові поля позначені *

Коментар

Ім’я *

E-mail *

Сайт

Сила емоційного інтелекту — попереднє замовлення

Магія ранку для всієї родини — попереднє замовлення

45 татуювань особистості — попереднє замовлення

Цікаві статті

  • Контент-маркетинг, мистецтво продавати в епоху соціальних мереж
  • Поліпшення роботи мозку: від яких продуктів варто відмовитися, не чекаючи нового року
  • 5 книг про бізнес для тих, хто не любить читати
  • Прочитати і усвідомити: книги, які зроблять із вас коуча
  • Гормони щастя: ідеальний коктейль для нашого мозку
  • Книжкова полиця: що читає Дмитро Суслов
  • 100 технік для розвитку творчого мислення: запускаємо креативність в повну силу

21 урок для 21 століття — Замовити книгу