«Они полны грязных мыслей»
Он лучше всех знает, что люди из разных стран ищут в сетиКогда начинаешь исследовать Big Data и работать с анализом поисковых комбинаций, то узнаешь, что люди, оказывается, полны грязных мыслей. Но это - не преступление, и не должно рассматриваться, как преступление.
Сет Стивенс-Давидовиц
специалист Google по Data Science, автор книги «Все лгут»
Как работать с Big data
В последней главе вы пишете, что все еще не женились. За тот год, когда «Все лгут» стала мировым бестселлером, у вас что-нибудь поменялось на этом фронте?
У меня все по-прежнему, я еще холостой. Так вы дочитали до конца? Приятно, а то в наши дни никто, по-моему, не дочитывает.
Меня удивило, что, хоть это и ваша первая книга, вы называете ее своим главным творением, magnum opus.
Да, есть такое ощущение.
Ближе к концу «Все лгут» вы объясняете, что основной ее смысл – в том, чтобы с примерами показать: общественные науки сегодня становятся все ближе к точным.
Конечно, ведь теперь можно обрабатывать большие объемы поисковых запросов, другую информацию, которая доступна исследователям Big data (больших объемов цифровых данных, - англ.) и получать вполне конкретные ответы на заданные вопросы.
Поделитесь лайфхаком: как простому пользователю искать и анализировать Big data сегодня?
Вы можете для этого пользоваться Google correlate. Самый мощный источник, на мой взгляд – это Google trends. Достаточно посмотреть результаты по конкретному поисковому слову или теме, понять, где они наиболее популярны, и уже на основании этого сделать первые выводы.
Например, вам просто интересно, кто в мире больше всех сходил с ума по Чемпионату мира по футболу. Вы просматриваете данные по разным странам, залезаете в Россию, смотрите по регионам, определяете таким образом, кто сильнее всего проявлял интерес к теме.
Каждый может начать исследовать данные таким образом, дополнительного образования и навыков для этого не требуется. А начав, вы поймете, что у вас в руках – невероятно мощный инструмент, а раньше подобного источника информации просто не существовало.
Брутальный анализ
Да, специального образования не нужно, но в каждой главе вы говорите, что результаты надо перепроверять, сравнивать с другими источниками. Какие ошибки при обработке Big data наиболее распространены и как их избежать?
Вообще, я так доверяю Big data, потому что интуиция нас подводит. И если доверять только своим наблюдениям, мы допускаем очень много ошибок. Нам часто кажется, что мир работает так, а на самом деле все устроено иначе, - множество книг об этом написано. И работая с Big data ты себя от таких ошибок ограждаешь. Но это в теории.
Проблема в том, что ошибиться можно, и работая с большими объемами данных. Можно, глядя на цифры, посчитать, что нашел факты, которые подходят к твоей истории. При этом не обратив внимание на то, сколько дыр и недоработок в этой истории. Так что лучшие из ученых, которые работают с Big data, постоянно выискивают проблемы в найденных данных, пытаясь проанализировать и понять, почему их выводы могут быть неверными. Надо быть скептиком, обсуждать результаты с коллегами, прислушиваться к их мнению, проверять их теории. И только, когда ваши выводы пережили такой брутальный анализ, этим результатам можно доверять.
Бывает, что поиск по нескольким каналам не дал результатов, и кажется, что – все, тупик. Какие альтернативные источники и способы поиска вы посоветуете на такой случай?
Где-то рассчитывать на Big data стоит, а где-то – нет. Предположим, вы хотите предсказать, каким будет мир через 20 лет. Не думаю, что Big Data поможет вам в этом. Можно, конечно, выстроить какую-нибудь сумасшедшую модель, потратить на исследование кучу денег, но, по-моему, вы только будете дурачить себя и окружающих. Наш мир - слишком сложная система, чтобы можно было дать точный прогноз на 20 лет. Такой тип вопросов не решается ни при помощи анализа Big Data, ни каким-либо другим типом исследования. В таком случае надо быть честным и признаться: Big Data здесь не работает.
Но если говорить о вопросах более простых и конкретных, которые касаются политики или экономики, то здесь Big Data обычно дает возможность найти что-то, от чего можно оттолкнуться.
«Большой брат» смотрит
В наши дни, когда видеокамер вокруг становится все больше, а история поисковых запросов любого пользователя может быть вскрыта и проанализирована, стоит ли переживать о том, что «большой брат» смотрит за нами? А выходя в город, на всякий случай одевать темные очки и маску из аптеки?
Если обратиться к истории, то можно видеть, что сильные правительства творили зло вне зависимости от того, был у них доступ к анализу Big Data, или нет.
Не думаю, что на сегодняшний день можно говорить о тотальной слежке, вряд ли это под силу хоть какому-то из современных правительств. Да, повсюду камеры, но они просто передают и фиксируют происходящее. Слишком сложно было бы одновременно распознавать и отслеживать множество лиц и фигур в городском потоке.
Но можно выбирать мишени, и наблюдать за действиями конкретного человека, дожидаясь, пока найдется что-то, что можно было бы ему инкриминировать. Ведь никто не идеален, особенно в частной жизни. И каждый совершает поступки, которыми невозможно гордиться.
Лично я верю в то, что Big Data помогает не разрушать, а улучшать жизнь. И в книге и в лекциях я в основном говорю о позитивных вещах, которые могут делать энтузиасты, организации и правительства, работая с большими объемами информации. И в здравоохранении, и в образовании, и в других областях.
А в области безопасности? Давайте рассмотрим пример из вашей книги: мужчина убил бывшую одноклассницу, и расследование показало, что всю неделю перед этим он сотни раз набирал поисковую комбинацию «как убить человека», часто в сочетании с ее именем. Вы там размышляете, что девушку можно было бы спасти, если бы для таких случаев существовала система анализа и предупреждения.
Знаете, когда начинаешь исследовать Big Data и работать с анализом поисковых комбинаций, то узнаешь, что люди, оказывается, полны грязных мыслей. Но это - не преступление, и не должно рассматриваться, как преступление. Не стоит приравнивать ввод поисковой комбинации «как убить жену» к намерению совершить это преступление. Если судить так строго, то большинство пользователей стоит посадить за решетку на основании поисковых комбинаций, которые они когда-либо вбивали.
Процент правды
Прежде, чем ехать в Россию, вы же наверняка попробовали составить представление о стране на основе анализа Big Data. Интересно, какую картину вы получили?
Знаете, анализируя поисковые запросы из разных стран, я убедился, что люди везде ведут себя очень похоже. Что бы не происходило в политике и в экономике, люди повсюду ищут в сети развлечения: игры, новости, порнографию. На этом фоне выделяется, что в июне-июле вся Россия следила за Чемпионатом мира по футболу. Но это и так очевидно, и без анализа Big Data.
Можете дать практические рекомендации, как простым пользователям и государству в России пользоваться результатами анализа Big Data. Ведь это революционный, очень мощный инструмент.
Я бы каждому порекомендовал вести блог или видео-блог. Это позволяет оформлять и развивать собственные идеи, дает стимул учиться и все лучше работать с анализом больших объемов данных.
А для государства очень действенной мерой было бы проводить и анализировать по всей стране замеры состояния здоровья населения. Например, полезно было бы выяснить, где самый высокий уровень депрессии и тревожности. Сегодняшние способы работы с Big Data позволяют при необходимости рассматривать неблагополучные места в сильном приближении. А зафиксировав проблему, уже можно искать пути ее решения. Так что на государственном уровне, я думаю, это отличный инструмент для диагностирования социальных проблем и проблем в области здравоохранения.
Ваша книга с одной стороны вдохновляет, а с другой - разочаровывает. Потому что доказывает: двойная мораль теперь повсюду, и все врут, как написано на обложке.
Слушайте, жизнь всегда была такой. В ежедневном общении люди не говорят друг другу всей правды, что-то скрывают. В наши дни анализ Big Data позволяет увидеть и исследовать это второе дно. Ложь не нова, просто теперь мы можем лучше оценить и измерить процент правды.