Работа с данными в любой сфере - Еременко Кирилл

Работа с данными в любой сфере
Кирилл Еременко


Что общего у аналитика данных и Шерлока Холмса? Как у Netflix получилось создать 100 %-ный хит – сериал «Карточный домик»? Ответ кроется в правильном использовании данных. Эта книга – практическое руководство и увлекательное путешествие в науку о данных, независимо от того, хотите ли вы использовать анализ данных в своей профессии, собираетесь ли стать аналитиком данных, или уже работаете в этой области. Ее автор, основатель образовательного онлайн-портала и консультант, Кирилл Еременко просто и понятно рассказывает об основных методах, алгоритмах и приемах, которые вам помогут на любом этапе: от сбора данных и их анализа до визуализации полученных результатов. Благодаря «Работе с данными в любой сфере» вы не только узнаете, как данные влияют на нашу жизнь (и как защитить свои данные), но и сможете расширить свои карьерные возможности.





Кирилл Еременко

Работа с данными в любой сфере

Как выйти на новый уровень, используя аналитику








Переводчик Д. Шалаева

Научный редактор З. Мамедьяров

Редактор Л. Любавина

Главный редактор С. Турко

Руководитель проекта Л. Разживайкина

Корректоры Е. Аксёнова, М. Смирнова

Компьютерная верстка М. Поташкин

Художественное оформление и макет Ю. Буга

Дизайн обложки Ю. Буга



© Kirill Eremenko, 2018

© This translation of Confident Data Skills is published by arrangement with Kogan Page.

© Издание на русском языке, перевод, оформление. ООО «Альпина Паблишер», 2019



Все права защищены. Данная электронная книга предназначена исключительно для частного использования в личных (некоммерческих) целях. Электронная книга, ее части, фрагменты и элементы, включая текст, изображения и иное, не подлежат копированию и любому другому использованию без разрешения правообладателя. В частности, запрещено такое использование, в результате которого электронная книга, ее часть, фрагмент или элемент станут доступными ограниченному или неопределенному кругу лиц, в том числе посредством сети интернет, независимо от того, будет предоставляться доступ за плату или безвозмездно.

Копирование, воспроизведение и иное использование электронной книги, ее частей, фрагментов и элементов, выходящее за пределы частного использования в личных (некоммерческих) целях, без согласия правообладателя является незаконным и влечет уголовную, административную и гражданскую ответственность.


* * *


Моим родителям,

Александру и Елене Еременко,

которые научили меня самому важному в жизни – быть хорошим человеком







Бонус для читателей


Спасибо, что выбрали эту книгу. Вы сделали огромный шаг на пути в науку о данных.

Получите бесплатный доступ к моему курсу A-Z Data Science. Просто зайдите на сайт www.superdatascience.com/bookbonus (http://www.superdatascience.com/bookbonus) и используйте пароль datarockstar.

Удачи в анализе данных!




Введение



«Наверное, вы всегда хотели стать аналитиком данных – с самого детства?»

Мне приятно, что меня об этом спрашивают. Да, я люблю свою работу. Я с большим удовольствием обучаю студентов основам науки о данных. И здорово, что люди, похоже, думают, что энтузиазм по отношению к данному предмету возник во мне еще в молодом возрасте. Но это абсолютно не соответствует действительности. Скажем честно, ни один ребенок не мечтает о том, чтобы стать ученым – аналитиком данных. Дети хотят быть космонавтами. Танцорами. Врачами. Пожарными. И если вы грезите о спасении жизней или о полетах в космическом пространстве, вы вряд ли остановите свой выбор на столь приземленном занятии.

Когда люди спрашивают меня, всегда ли я хотел построить карьеру в области науки о данных, я возвращаюсь к своему детству и вижу маленького русского мальчика, выросшего в Зимбабве. Запах тлеющих углей, брачные вопли африканских красных жаб, незабываемый уют зимнего вечера, кончики пальцев, переворачивающие страницу за страницей сборника историй для детей, – это фрагменты воспоминаний о множестве прекрасных вечеров, когда я слушал русские сказки, которые читала мне мама.

Моя мать хотела, чтобы я, мои братья и сестры любили Зимбабве, но она также заботилась о том, чтобы мы знали свои культурные корни. Она подумала, как наилучшим образом передать нам эту информацию, и решила, что самый действенный способ – сказки. Когда я в конце концов вернулся в Москву – в город, который едва помнил, – то почувствовал, что возвращаюсь домой, благодаря крупицам информации о России, вплетенным в затейливые сюжеты.

Такова сила повествования. И все множество услышанных сказок я хотел разбить на составляющие их компоненты. Мне нужно было увидеть большую картину, но я хотел видеть ее сквозь призму маленьких деталей. Я был очарован каждой частью механизма, создающего что-то настолько прекрасное. Я интуитивно знал: для того чтобы самому рассказать хорошую историю, сначала нужно собрать эти маленькие единицы информации. Именно так сформировалось мое отношение к данным.

В сегодняшнюю цифровую эпоху данные используются для создания историй о том, кто мы такие, как мы себя представляем, что нам нравится и когда мы хотим чего-то. Для того, чтобы проложить тропинку с уникальными виртуальными следами. Машины теперь знают о нас больше, чем мы сами, благодаря всем доступным им данным. Они читают наши личные данные как сборник рассказов о нас. И в науке о данных замечательно то, что любая дисциплина сегодня записывает свои данные, а это значит, что, освоив профессию аналитика данных, мы также можем стать космонавтами, танцорами и врачами, о чем так сильно мечтали.

Мало кто знает, что работать с данными в конечном итоге означает быть рассказчиком, передающим информацию. Так же, как и структурные компоненты историй, проекты по анализу и обработке данных тоже организованы логически. В книге «Работа с данными в любой сфере» четко выделяются пять этапов, которые составляют то, что я называю процессом обработки и анализа данных. Это не единственный подход, который можно использовать, но он обеспечит нашему проекту связь с практикой и продвижение к логическому завершению. И он четко и ясно структурирован, что мне так нравилось в детстве.

И вот я решил рассказать историю данных…




Но я абсолютный новичок


Наука о данных фактически является одной из тех областей, которые извлекают выгоду из опыта других сфер. Я надеюсь, что многие мои читатели уже весьма преуспели в той или иной профессии. Хорошо. Вы ничего не потеряете, если обратитесь к науке о данных, работая в другой области. Отнюдь не вредно для начала разбираться в чем-то еще. Это своего рода фундамент, который вам пригодится, чтобы стать хорошим аналитиком данных.

Начав работать в транснациональной консалтинговой компании Deloitte, я не знал ни одного из алгоритмов, которые мы рассмотрим в этой книге. Да никто от меня этого и не ожидал. Совсем немногие начали свою карьеру с науки о данных. Прочитав книгу, вы обнаружите, что те, кто добился успеха в этой сфере, даже не думали о ней, пока находились в начале своей карьеры. Итак, отбросьте страх перед цифровой неграмотностью – взяв эту книгу, вы сделали первый шаг на пути в мир науки о данных.




Эй, а где код?


Если вы, как и я, пролистываете книгу, прежде чем приступить к чтению, то, возможно, заметили, что вам не встретилось ни одной строки кода. Я слышу, как вы говорите: «Но это ведь книга о науке о данных, так что же происходит?» Наука о данных – чрезвычайно широкий предмет. «Работа с данными в любой сфере» погружает вас в тему и вдохновляет на размышления о том, как эта дисциплина может быть включена в вашу текущую или будущую деловую практику. Вы узнаете методы науки о данных – потому что ее «ингредиенты» (код) легко доступны онлайн. Если воспользоваться аналогией с приготовлением пищи, перед вами в меньшей степени просто книга рецептов и в большей – подробная информация об основных методах, используемых в науке о данных. Изучите их тщательно, и вы начнете интуитивно понимать, почему вам нужно применять определенные коды и методы, – гораздо более эффективный подход к обучению, чем просто предоставление строк кода для подключения к вашему проекту.




Как пользоваться этой книгой


Я написал эту книгу специально для того, чтобы вы могли обратиться к ней, где бы вы ни находились – в поезде, в ванне, в ожидании человека своей мечты. Читайте ее по частям или в один присест, по главам, выбирая самое лучшее, выделяя нужное желтым маркером, наклейками. В начале каждой части вы найдете краткое введение, помогающее быстро определить, какая глава окажется для вас наиболее интересной. Часть первая более объемна, она дает общее представление о науке о данных. Вторая и третья части сосредоточены на процессах анализа и обработки данных, интуиции, стоящей за некоторыми из самых мощных на сегодняшний день аналитических моделей, и на том, как повысить ваши шансы на успех, совершая первые шаги в направлении цели.

Если вы новичок, то получите максимальную отдачу от книги, прочитав ее от корки до корки. Если вы знакомы с наукой о данных как с дисциплиной и хотите добраться до сути того, как применять ее методы, не стесняйтесь обратиться к главе, которая вам больше всего поможет.




Часть первая

«Что это?» Ключевые принципы



Учитывая очевидно безграничный потенциал технических и прикладных наук и связанные с ними широкие возможности для умелых предпринимателей, некоторые могут спросить, почему они вообще должны заниматься наукой о данных – почему бы просто не изучить технологические принципы? В конце концов, технологии управляют миром и не выказывают никаких признаков сдачи позиций. Любой читатель, заботящийся о своей карьере, может подумать, что научиться разрабатывать новые технологии, несомненно, будет наилучшим способом двигаться вперед.

Легко расценивать технологии как фактор, который меняет мир, – они дали нам персональный компьютер, интернет, искусственные органы, беспилотные автомобили, глобальную систему позиционирования (GPS), – но мало кто думает о науке о данных как о движущей силе многих из этих изобретений. Вот почему вам стоит прочитать именно эту книгу, а не книгу о технологиях: вам нужно понять, как работает система, чтобы внести в нее изменения.

Мы не должны рассматривать данные только как скучных, но готовых помочь родителей, а технологии – как стильных подростков. Важность науки о данных не начинается и не заканчивается объяснением того, что технологии нуждаются в данных как одном из многих других функциональных элементов. Это было бы отрицанием прелести данных и множества интересных приложений, которые они предлагают для работы и игры. Короче говоря, невозможно иметь одно без другого. Это означает, что, если у вас есть основа для науки о данных, перед вами будет открыта дверь к широкому кругу других областей, в которых нужен аналитик данных. Это делает науку о данных необычной и благоприятной областью исследований и практики.

В первой части приводится информация о вездесущности данных, а также о развитии и ключевых принципах науки о данных. Эти сведения полезны для начального погружения в предмет. Вы получите четкое представление о том, какое отношение данные имеют к вам, и задумаетесь не только о том, как данные могут непосредственно принести пользу вам и вашей компании, но и как вы можете в течение длительного времени использовать их в профессиональной и прочих сферах.


Начало пути

Глава 1 станет началом нашего путешествия в науку о данных. Сначала в ней будет продемонстрировано, насколько велики масштабы распространения данных и то, каким образом мы все вносим вклад в их производство в наш компьютерный век. Затем я расскажу, как люди собирают данные, работают с ними и, что очень важно, как данные можно использовать для поддержки большого количества проектов и методов внутри и вне самой дисциплины.

Мы установили, что проблемы с наукой о данных частично связаны не с ее относительной сложностью, а скорее с тем, что эта область знаний для многих по-прежнему покрыта туманом. Только когда мы точно понимаем, сколько данных имеется и как они собраны, мы можем начать рассматривать различные способы работы с ними. Мы достигли той точки в нашем технологическом развитии, когда информацию можно эффективно собирать и хранить на благо всех отраслей промышленности и научных дисциплин, о чем свидетельствует количество общедоступных баз данных и финансируемых правительством проектов по агрегированию данных культурными и политическими институтами. Вместе с тем сравнительно немногие знают, как получить доступ к данным и как их проанализировать. Если же люди не осознают пользу данных для своей профессиональной деятельности, все красивые массивы данных только собирают пыль. В этой главе объясняется, почему наука о данных крайне важна именно сейчас, почему это не просто тенденция, которая скоро выйдет из моды, и почему вы должны рассмотреть возможность внедрения ее практик в качестве ключевого компонента решения ваших рабочих задач.

Наконец, в этой главе описывается, как стремительная траектория развития технологий не позволяет нам даже на время отвернуться от науки о данных. Каковы бы ни были представления о мире, к которому мы стремимся, невозможно остановить сбор данных, их обработку и использование. Тем не менее нельзя игнорировать тот факт, что сами по себе данные не касаются вопросов морали, и это обусловливает возможность их нечестного или неправильного использования. Те из вас, кто обеспокоен такого рода злоупотреблениями, могут принять участие в противостоянии им и вступить в дискуссию с глобальными институтами, которые занимаются проблемами, связанными с этикой данных – аспектом, который я нахожу настолько существенным, что отвел ему специальный подраздел в главе 3.


Будущее принадлежит данным

Все – каждый процесс, каждый датчик – скоро будет управляться данными. Это резко изменит способ ведения бизнеса. Я предсказываю, что через десять лет от каждого сотрудника любой организации в мире будет требоваться обладание определенным уровнем грамотности в сфере данных и умение работать с ними, получая на их основе некоторые идеи для повышения ценности бизнеса. Не такая уж дикая мысль, если учесть, что на момент публикации этой книги предполагается, что многие люди знают, как пользоваться цифровым кошельком Apple Pay, выведенным на рынок только в 2014 г.

Глава 2 – «Как данные удовлетворяют наши потребности» – наглядно демонстрирует, что данные являются эндемичными для каждого аспекта нашей жизни. Они управляют нами, накапливая силу в цифрах. Данные всегда играли важную роль в нашем существовании. Наша ДНК несет в себе основные данные о нас, и эти базовые формы данных руководят нами: отвечают за то, как мы выглядим, за форму наших конечностей, за структуру нашего мозга и его способность обрабатывать информацию, а также за диапазон эмоций, которые мы испытываем. Мы – хранилища этих данных, шагающие флеш-накопители биохимической информации; вместе с данными нашего партнера мы передаем их нашим детям и «кодируем». Не интересоваться данными означает не интересоваться самыми фундаментальными принципами жизни.

В этой главе объясняется, как данные используются во многих областях, и для иллюстрации я использую примеры, которые непосредственно перекликаются с пирамидой потребностей Абрахама Маслоу, теорией, хорошо знакомой многим ученым и практикам в области бизнеса и управления. Если эта иерархия является для вас новинкой, не беспокойтесь – я объясню ее суть и то, как она применима к нам, в главе 2.


Приостановка развития

Последняя глава первой части покажет, как новички в науке о данных могут изменить свое мышление, чтобы погрузиться в нее, и поможет выявить те области, где уже сейчас возможно применить анализ данных. Многие достижения науки о данных основательно затронули другие сферы и поставили вопросы о будущем перед самыми разными специалистами и учеными. Если вы хотите развивать свою карьеру как аналитик данных, эта глава подскажет некоторые идеи для сфер, в которых вы, возможно, уже работаете.

В главе 3 я также представлю некоторые наиболее важные подходы, которые вы можете использовать, чтобы начать работу как практик. Наука о данных намного проще, чем многие другие научные дисциплины. Вам не нужно быть прирожденным ученым, чтобы овладеть принципами науки о данных.



Читать бесплатно другие книги:

Вторжение Пылающего Легиона началось. Полчища демонических воинов под предводительством могущественного Архимонда мар...

Гэлвины казались образцовой американской семьей. Отец – военный, мать – домохозяйка, оба активно участвуют в обществе...

…лечить депрессию, онкологию, любую болезнь, если это НЕ касается очевидного хирургического вмешательства, – можно и ...

Задания помогают разобраться в падежных окончаниях, понятии о множественном и единственном числе, предлогах, временны...

Ей обещали, что это тихое место.

Ей обещали, что она спокойно отдохнет.

Карелия. Озеро. Благоустроенные к...

Всем привет! Меня зовут Александр, я пиарщик и обманываю людей. Испытываю ли я муки совести? Абсолютно нет. Новости, ...