Теоретический минимум по Big Data. Всё что нужно знать о больших данных - Анналин Ын - E-Book

Теоретический минимум по Big Data. Всё что нужно знать о больших данных E-Book

Анналин Ын

0,0
7,99 €

-100%
Sammeln Sie Punkte in unserem Gutscheinprogramm und kaufen Sie E-Books und Hörbücher mit bis zu 100% Rabatt.
Mehr erfahren.
Beschreibung

Cегодня Big Data — это большой бизнес. Нашей жизнью управляет информация, и извлечение выгоды из нее становится центральным моментом в работе современных организаций. Не важно кто вы - деловой человек, работающий с аналитикой, начинающий программист или разработчик, - "Теоретический минимум по Big Data" позволит разобраться в основах новой и стремительно развивающейся отрасли обработки больших данных. Хотите узнать о больших данных и механизмах работы с ними? Каждому алгоритму посвящена отдельная глава, в которой не только объясняются основные принципы работы, но и даются примеры использования в реальных задачах. Большое количество иллюстраций и простые комментарии позволят легко разобраться в самых сложных аспектах Big Data. "Отличная визуализация концепций машинного обучения позволяет «нетехнарям» интуитивно понять сложные абстрактные понятия. Это лаконичная и точная выжимка содержит теоретический минимум информации, необходимый для первого знакомства с Big Data." Этан Чен, автор курса CS 102: Big Data, Стэнфордский университет

Das E-Book können Sie in Legimi-Apps oder einer beliebigen App lesen, die das folgende Format unterstützen:

EPUB
MOBI

Seitenzahl: 107

Veröffentlichungsjahr: 2023

Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Анналин Ын, Кеннет Су
Теоретический минимум по Big Data. Всё что нужно знать о больших данных
2021

Переводчик А. Тимохин

Литературный редактор А. Бульченко

Художник С. Маликова

Корректоры С. Беляева, Г. Шкатова

Верстка Л. Егорова

Анналин Ын, Кеннет Су

Теоретический минимум по Big Data. Всё что нужно знать о больших данных. — СПб.: Питер, 2021.

ISBN 978-5-4461-1040-7

© ООО Издательство "Питер", 2021

Все права защищены. Никакая часть данной книги не может быть воспроизведена в какой бы то ни было форме без письменного разрешения владельцев авторских прав.

Оглавление

Предисловие
От издательства
Введение
Почему Data Science?
1. Об основах без лишних слов
1.1. Подготовка данных
1.2. Выбор алгоритма
1.3. Настройка параметров
1.4. Оценка результатов
1.5. Краткие итоги
2. Кластеризация методом k-средних
2.1. Поиск кластеров клиентов
2.2. Пример: профили кинозрителей
2.3. Определение кластеров
2.4. Ограничения
2.5. Краткие итоги
3. Метод главных компонент
3.1. Изучение пищевой ценности
3.2. Главные компоненты
3.3. Пример: анализ пищевых групп
3.4. Ограничения
3.5. Краткие итоги
4. Ассоциативные правила
4.1. Поиск покупательских шаблонов
4.2. Поддержка, достоверность и лифт
4.3. Пример: ведение продуктовых продаж
4.4. Принцип Apriori
4.5. Ограничения
4.6. Краткие итоги
5. Анализ социальных сетей
5.1. Составление схемы отношений
5.2. Пример: геополитика в торговле оружием
5.3. Лувенский метод
5.4. Алгоритм PageRank
5.5. Ограничения
5.6. Краткие итоги
6. Регрессионный анализ
6.1. Выведение линии тренда
6.2. Пример: предсказание цен на дома
6.3. Градиентный спуск
6.4. Коэффициенты регрессии
6.5. Коэффициенты корреляции
6.6. Ограничения
6.7. Краткие итоги
7. Метод k-ближайших соседей и обнаружение аномалий
7.1. Пищевая экспертиза
7.2. Яблоко от яблони недалеко падает
7.3. Пример: истинные различия в вине
7.4. Обнаружение аномалий
7.5. Ограничения
7.6. Краткие итоги
8. Метод опорных векторов
8.1 «Нет» или «о, нет!»?
8.2. Пример: обнаружение сердечно-сосудистых заболеваний
8.3. Построение оптимальной границы
8.4. Ограничения
8.5. Краткие итоги
9. Дерево решений
9.1. Прогноз выживания в катастрофе
9.2. Пример: спасение с тонущего «Титаника»
9.3. Создание дерева решений
9.4. Ограничения
9.5. Краткие итоги
10. Случайные леса
10.1. Мудрость толпы
10.2. Пример: предсказание криминальной активности
10.3. Ансамбли
10.4. Бэггинг
10.5. Ограничения
10.6. Краткие итоги
11. Нейронные сети
11.1. Создание мозга
11.2. Пример: распознавание рукописных цифр
11.3. Компоненты нейронной сети
11.4. Правила активации
11.5. Ограничения
11.6. Краткие итоги
12. A/B-тестирование и многорукие бандиты
12.1. Основы A/B-тестирования
12.2. Ограничения A/B-тестирования
12.3. Стратегия снижения эпсилона
12.4. Пример: многорукие бандиты
12.5. Забавный факт: ставка на победителя
12.6. Ограничения стратегии снижения эпсилона
12.7. Краткие итоги
Приложения
Приложение A. Обзор алгоритмов обучения без учителя
Приложение В. Обзор алгоритмов обучения с учителем
Приложение С. Список параметров настройки
Приложение D. Другие метрики оценки
Глоссарий
Литература и ссылки на источники
Источники на английском языке
Литература на русском языке
Об авторах

Предисловие

Cегодня Big Data (большие данные) — это большой бизнес. Информация все больше управляет нашей жизнью, и получение выгод из нее стало центральным моментом в работе почти любой организации. А методы распознавания образов и прогнозирования создают для бизнеса новые измерения. Например, рекомендательные системы выгодны одновременно покупателям и продавцам, так как информируют первых о продукции, которая могла бы их заинтересовать, а вторым позволяют набивать мошну.

Но Big Data — это лишь часть головоломки. Data Science — это многогранная дисциплина, которая охватывает машинное обучение, статистику и связанные с нею разделы математики и при этом дает нам возможность для анализа данных и извлечения из них пользы. Стоит отметить, что машинное обучение занимает в этом описании ведущую позицию, будучи основным двигателем распознавания образов и технологий прогнозирования. Вкупе с данными алгоритмы машинного обучения, направляя науку о них, ведут к бесценным озарениям и новым способам задействования информации, которая уже в нашем распоряжении.

Чтобы по достоинству оценить то, как Data Science двигает сегодняшнюю информационную революцию, непосвященный должен лучше понимать эту сферу деятельности. Несмотря на высокий спрос на грамотность в вопросах данных, опасения некоторых людей в том, что им не хватит навыков для понимания, стали поводом избегать этой области.

Но тут появляется Теоретический минимум по Big Data.

Стоит познакомиться с работой Анналин Ын и Кеннета Су, чтобы убедиться, что книга своему названию вполне соответствует. Это действительно Data Science для неспециалиста, поэтому математика, местами сложная, которая описывается на отвлеченном уровне, намеренно не освещена подробно. Но не поймите неправильно: это не означает, что содержимое книги размыто. Информация в ней существенная, а вот лаконичность и емкость пошли только на пользу.

Что же хорошего при таком подходе, спросите вы. Вообще, много чего! Я бы утверждал, что для неспециалиста предпочтителен именно такой подход. Подумайте о неспециалисте, которому интересно устройство машины. Абстрактный обзор составных частей автомобиля куда доступнее технического пособия по физике сгорания. То же справедливо и по отношению к Big Data: если вы хотите разобраться в этом, проще начать с общих представлений, не погружаясь сразу в формулы.

Уже в начале книги можно на нескольких страницах познакомиться с фундаментальными понятиями Big Data. Это гарантирует, что каждый может начать чтение книги, уже зная основы. Важные принципы, например часто ­опускаемый во вводных материалах выбор алгоритма, также приводятся сразу. Это пробуждает в читателе желание скорее освоить эти области и закладывает фундамент для будущих знаний.

Есть немало концепций, которые Анналин и Кеннет могли бы счесть достойными включения в книгу, и существует далеко не один способ их представить. Их подход, при котором они сосредоточились на важнейших для Data Science алгоритмах машинного обучения и описали несколько практических случаев, оказался отличным решением. Но не обделены вниманием и проверенные и испытанные алгоритмы, такие как метод k-ближайших соседей, дерево принятия решений, метод k-средних. Хорошо объясняются и более современные алгоритмы классификации и ансамблирования, такие как случайные леса и метод опорных векторов, который нередко отпугивает сложной математикой. Рассмотрены и нейронные сети — движущая сила сегодняшнего помешательства на глубоком обучении.

Другое достоинство книги — описание алгоритмов вместе с интуитивно-понятными примерами использования, будь то объяснение алгоритма случайных лесов в контексте прогнозирования преступлений или метода классификации в применении к кинозрителям. Выбранные примеры обеспечивают ясность и практическое понимание. В то же время избавление от любого намека на высшую математику сохраняет интерес и мотивацию для того, что можно назвать вылазкой читателя в мир Data Science.

Я настоятельно рекомендую Теоретический минимум по Big Data новичкам в качестве отправной точки для изучения Data Science и ее алгоритмов. Мне трудно было бы назвать сопоставимый по уровню материал. С этой книгой математика вам больше не помешает оставаться в неведении.

Мэтью Майо,

дата-сайентист и редактор сайта KDnuggets

@mattmayo13

От издательства

Мы прекрасно понимаем, что некоторые иллюстрации для лучшего восприятия нужно смотреть в цветном варианте. Мы снабдили их QR-кодами, перейдя по которым, вы можете ознакомиться с цветной версией рисунка.

Ваши замечания, предложения, вопросы отправляйте по адресу [email protected] (издательство «Питер», компьютерная редакция).

Мы будем рады узнать ваше мнение!

На веб-сайте издательства www.piter.com вы найдете подробную информацию о наших книгах.

Введение

Эту книгу написали для вас два энтузиаста Data Science, Анналин Ын (Кембриджский университет) и Кеннет Су (Стэнфордский университет).

Мы обратили внимание на то, что, несмотря на растущую роль Data Science в рабочих решениях, многие мало знают об этой области. Поэтому мы составили из руководств книгу, прочитать которую сможет каждый, будь то профессиональный предприниматель, абитуриент, да и просто любой, кому это интересно.

Каждое руководство посвящено важным предпосылкам и функциям одного из методов Data Science и не предполагает математики или научного жаргона. Мы проиллюстрировали эти методы данными и примерами из реального мира.

Мы не сумели бы написать эту книгу одни.

Благодарим нашего редактора и хорошего друга Соню Чан (Sonya Chan) за искусное соединение наших стилей письма и ровность повествования.

Мы признательны нашему талантливому дизайнеру Доре Тань (Dora Tan) за макет книги и обложку.

Благодарим наших друзей Денниса Чу (Dennis Chew), Марка Хо (Mark Ho) и Мишель Фу (Michelle Poh) за бесценные советы о том, как облегчить понимание материала.

Выражаем признательность профессору Лонгу Нгуену (Long Nguyen, Мичиганский университет, г. Анн-Арбор), профессору Перси Ляну (Percy Liang, Стэнфордский университет) и профессору Михалу Косински (Michal Kosinski, Стэнфордский университет) за их терпение во время нашего обучения и за то, что поделились своим экспертным мнением.

Наконец, благодарим друг друга за то, что хотя и ссорились, как это заведено у друзей, но не останавливались, пока не завершили начатое дело.

Почему Data Science?

Представьте себе, что вы молодой врач. К вам пришел пациент, который жалуется на одышку, боли в груди и периодическую изжогу. Вы убедились, что его давление и показания сердечного ритма в норме и ничего подозрительного у него прежде не замечалось.

Вы также отметили его полноту. Поскольку такие симптомы типичны для людей с избыточным весом, вы заверили его, что все в порядке, и посоветовали найти время для упражнений.

Слишком часто это приводит к неверному диагнозу при сердечно-сосудистых заболеваниях. У пациентов в этом состоянии проявляются симптомы, которые схожи с симптомами ожирения, и врачи прекращают диагностику, которая могла бы обнаружить более серьезное заболевание.

Мы — люди, и наши суждения обусловлены ограниченным субъективным опытом и несовершенными знаниями. Это ухудшает процесс принятия решения и, как в случае с неопытным врачом, удерживает от дальнейших проверок, которые могли бы привести к более точным выводам.

Здесь может помочь Data Science.

Не ограничиваясь суждением одного индивида, методы Data Science позволяют задействовать для принятия лучшего решения информацию из разных источников. Например, мы могли бы свериться со статистикой по пациентам с такими симптомами и обнаружить диагнозы, о которых не подумали.

С современным вычислением и передовыми алгоритмами мы можем:

• обнаружить скрытые тенденции в больших наборах данных;

• воспользоваться этими тенденциями для прогнозирования;

• вычислить вероятность любого возможного исхода;

• получить точные результаты быстро.

Эта книга написана доступным языком (никаких формул!) для легкого введения в Data Science и алгоритмы. Чтобы облегчить понимание ключевых идей, мы будем придерживаться интуитивно-понятных объяснений и иллюстраций.

Каждый алгоритм представлен отдельной главой с реальным случаем для объяснения работы этого алгоритма. Данные этих примеров доступны онлайн, а в разделе ссылок приведены источники.

Для повторения изученного обратитесь к кратким итогам в конце каждой главы. В конце книги вы также найдете удобные таблицы для сравнения алгоритмов и глоссарий основных терминов.

Мы надеемся дать вам практическое понимание Data Science, чтобы и вы вооружились ею для лучших решений.

Время начинать.

1. Об основах без лишних слов

Чтобы разобраться с тем, как работают алгоритмы Data Science, мы должны начать с основ. Эта глава книги самая длинная. Она вдвое больше остальных, которые останавливаются на каждом алгоритме подробнее. Тем не менее здесь вы найдете обстоятельный обзор основных шагов почти любого исследования с применением Data Science. Эти основные приемы помогут определиться с выбором алгоритмов в соответствии с контекстом и условиями исследования.

Такое исследование включает четыре ключевых шага. Сначала обрабатываются и подготавливаются данные. Потом составляется краткий перечень соответствующих исследованию алгоритмов. Затем для улучшения результатов настраиваются параметры этих алгоритмов. И наконец, строятся модели для выбора лучшей из них.

1.1. Подготовка данных

В Data Science главную роль играют сами данные. Если качество данных низкое, то результаты даже самого изощренного анализа окажутся не ахти какими. В этом разделе мы рассмотрим типичный формат данных, используемый для анализа, и методы их обработки для улучшения результатов.

Формат данных

Обычно для анализа данных используют табличное представление (табл. 1). Каждая строка представляет собой элемент данных с описанием отдельного наблюдения, а каждый столбец несет переменную для его описания. Переменные также называются атрибутами, признаками или размерностями.

Таблица 1. Вымышленный набор данных о продуктовых покупках животных в магазине. Строки — это покупки, а столбцы — информация о них

В зависимости от цели можно изменить представленный в строках тип наблюдений. Например, выборка в табл. 1 позволяет изучать закономерности, рассматривая покупки.

Но если вместо этого мы хотим исследовать закономерности покупок в зависимости от дня, то нам нужно представить в строках общий итог. Для всестороннего анализа имеет смысл также добавить новые переменные, такие как погода (табл. 2).

Таблица 2. Переформатированный набор данных о покупках за день с дополнительными переменными

Типы переменных

Есть четыре главных типа переменных. Чтобы убедиться, что к ним применимы выбранные алгоритмы, важно понимать разницу.

• Бинарная. Это простейший тип переменных только с двумя вариантами значения. В табл. 1 бинарная переменная показывает, брал ли покупатель рыбу.

• Категориальная. Если вариантов больше двух, информация может быть представлена категориальной переменной. В табл. 1 категориальная переменная описывает вид покупателя.

• Целочисленная. Такой тип используется, когда информация может быть представлена целым числом. В табл. 1 целое число выражает количество купленных каждым покупателем фруктов.

• Непрерывная (количественная). Это самая подробная переменная. Она содержит числа со знаками после запятой. В табл. 1 такие переменные показывают количество потраченных покупателем денег.

Выбор переменных

Хотя в нашем первоначальном наборе данных может быть много разных переменных, применение в алгоритме слишком большого их числа ведет к замедлению вычислений или к ошибочным предсказаниям из-за информационного шума. Поэтому нам надо остановиться на коротком списке важнейших переменных.

Выбор переменных часто делается методом проб и ошибок. Их имеет смысл добавлять и убирать, учитывая промежуточные результаты. Для начала мы можем использовать простые графики для выявления корреляций (см. раздел 6.5) между переменными, отбирая самые многообещающие для дальнейшего анализа.

Конструирование признаков

Тем не менее иногда хорошие переменные нужно сконструировать. Например, если мы хотим предсказать, кто из покупателей в табл. 1 не будет брать рыбу, то можем посмотреть на переменную их вида, заключив, что кролики, лошади и жирафы рыбу не покупают. А если мы сгруппируем виды покупателей в более широкие категории — травоядных, хищников и всеядных, — то получим более универсальный вывод: травоядные рыбу не берут.

Вместо переформатирования одной переменной мы можем скомбинировать их методом, называемым уменьшением размерности (dimension reduction), который будет рассмотрен в главе 3. Уменьшение размерности может использоваться для извлечения самой полезной информации и ее выражения в небольшом наборе переменных для дальнейшего анализа.

Неполные данные