Машинное обучение на R: экспертные техники для прогностического анализа - Бретт Ланц - E-Book

Машинное обучение на R: экспертные техники для прогностического анализа E-Book

Бретт Ланц

0,0

Beschreibung

Язык R предлагает мощный набор методов машинного обучения, позволяющих быстро проводить нетривиальный анализ ваших данных. Книга является руководством, которое поможет применять методы машинного обучения в решении ежедневных задач. Бретт Ланц научит всему необходимому для анализа данных, формирования прогнозов и визуализации данных. Здесь вы найдете информацию о новых улучшенных библиотеках, советы об этических аспектах машинного обучения и проблемах предвзятости, а также познакомитесь с глубоким обучением. В этой книге - Основы машинного обучения и особенности обучения компьютера на примерах. - Подготовка данных к использованию в машинном обучении средствами языка R. - Классификация значимости результатов. - Предсказание событий с помощью деревьев решений, правил и опорных векторов. - Прогнозирование числовых данных и оценка финансовых данных с помощью регрессионных методов. - Моделирование сложных процессов с использованием нейронных сетей – фундамент глубокого обучения. - Оценка моделей и улучшение их производительности. - Новейшие технологии для обработки больших данных, в частности R 3.6, Spark, H2O и TensorFlow.

Sie lesen das E-Book in den Legimi-Apps auf:

Android
iOS
von Legimi
zertifizierten E-Readern
Kindle™-E-Readern
(für ausgewählte Pakete)

Seitenzahl: 586

Veröffentlichungsjahr: 2024

Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:

Android
iOS
Bewertungen
0,0
0
0
0
0
0
Mehr Informationen
Mehr Informationen
Legimi prüft nicht, ob Rezensionen von Nutzern stammen, die den betreffenden Titel tatsächlich gekauft oder gelesen/gehört haben. Wir entfernen aber gefälschte Rezensionen.



Бретт Ланц
Машинное обучение на R: экспертные техники для прогностического анализа

Научный редактор Н. Искра

Переводчик Е. Сандицкая (Полонская)

Технический редактор Н. Гринчик

Литературный редактор А. Дубейко

Художники Н. Гринчик, В. Мостипан, Г. Синякина (Маклакова)

Корректоры Н. Искра, Е. Павлович, Е. Рафалюк-Бузовская

Верстка Г. Блинов

Бретт Ланц

Машинное обучение на R: экспертные техники для прогностического анализа. — СПб.: Питер, 2021.

ISBN 978-5-4461-1512-9

© ООО Издательство "Питер", 2021

Все права защищены. Никакая часть данной книги не может быть воспроизведена в какой бы то ни было форме без письменного разрешения владельцев авторских прав.

Оглавление

Об авторе
О научном редакторе
Предисловие
Для кого предназначена книга
О чем вы прочтете в издании
Что вам нужно для чтения книги
От издательства
1. Введение в машинное обучение
Происхождение машинного обучения
Область применения машинного обучения и злоупотребление им
Как учатся машины
Машинное обучение на практике
Машинное обучение с использованием R
Резюме
2. Управление данными и их интерпретация
Структуры данных R
Управление данными в R
Исследование данных и их интерпретация
Резюме
3. Ленивое обучение: классификация с использованием метода ближайших соседей
Что такое классификация методом ближайших соседей
Пример: диагностика рака молочной железы с помощью алгоритма k-NN
Резюме
4. Вероятностное обучение: классификация с использованием наивного байесовского классификатора
Наивный байесовский классификатор
Пример: фильтрация спама в мобильном телефоне с помощью наивного байесовского алгоритма
Резюме
5. Разделяй и властвуй: классификация с использованием деревьев решений и правил
Деревья решений
Пример: распознавание рискованных банковских кредитов с помощью деревьев решений C5.0
Правила классификации
Пример: распознавание ядовитых грибов по алгоритму обучения на основе правил
Резюме
6. Прогнозирование числовых данных: регрессионные методы
Понятие регрессии
Пример: прогнозирование медицинских расходов с помощью линейной регрессии
Регрессионные деревья и деревья моделей
Пример: оценка качества вина с помощью регрессионного дерева и дерева моделей
Резюме
7. Методы «черного ящика»: нейронные сети и метод опорных векторов
Нейронные сети
Пример: моделирование прочности бетона с помощью нейронной сети
Метод опорных векторов
Пример: оптическое распознавание символов с помощью SVM
Резюме
8. Обнаружение закономерностей: анализ потребительской корзины с помощью ассоциативных правил
Ассоциативные правила
Пример: выявление часто покупаемых продуктов в соответствии с ассоциативными правилами
Резюме
9. Поиск групп данных: кластеризация методом k-средних
Что такое кластеризация
Сегментация рынка для подростков с использованием кластеризации методом k-средних
Резюме
10. Оценка эффективности модели
Измерение эффективности классификации
Оценка эффективности в будущем
Резюме
11. Повышение эффективности модели
Повышение эффективности готовых моделей
Повышение эффективности модели с помощью метаобучения
Резюме
12. Специальные разделы машинного обучения
Управление реальными данными и их подготовка
Работа со специфическими данными
Повышение эффективности R
Резюме

Об авторе

Бретт Ланц (Brett Lantz, @DataSpelunking) более десяти лет использует инновационные методы обработки данных для изучения поведения человека. Будучи по образованию социологом, Бретт впервые увлекся машинным обучением во время исследования большой базы профилей подростков в социальных сетях. Бретт — преподаватель DataCamp и часто выступает с докладами на конференциях и семинарах по машинному обучению по всему миру. Он известный энтузиаст в сфере практического применения науки о данных в области спорта, беспилотных транспортных средств, изучения иностранных языков и моды, а также во многих других отраслях. Бретт надеется в один прекрасный день написать обо всем этом на сайте dataspelunking.com, посвященном обмену знаниями о поиске закономерностей в данных.

Я не смог бы написать эту книгу без поддержки моей семьи. В частности, моя жена Джессика заслуживает огромной благодарности за ее бесконечное терпение и поддержку. Мои сыновья Уилл и Кэл родились в тот период, когда создавались первое и второе издания соответственно, и я бы не смог написать третье, если бы они меня отвлекали. Я посвящаю им эту книгу в надежде, что однажды она вдохновит их на решение больших задач. Желаю им следовать своему любопытству, куда бы оно их ни привело.

Я также признателен многим другим людям, которые косвенно поддержали эту книгу. Общение с педагогами, коллегами и сотрудниками Мичиганского университета, Университета Нотр-Дам и Университета Центральной Флориды способствовало рождению многих идей, которые я попытался выразить в тексте; что же касается отсутствия ясности в их выражении, то это сугубо мое упущение. Кроме того, эта книга могла бы вообще не появиться без более широкого сообщества исследователей, которые поделились своим опытом в виде статей, лекций и исходного кода. Наконец, я ценю усилия команд R и RStudio, а также всех тех, кто внес вклад в создание R-пакетов. Благодаря проделанной работе мы смогли донести идеи машинного обучения до широкой публики. Я искренне надеюсь, что мой труд также станет важной частью этой мозаики.

О научном редакторе

Рагхав Бали (Raghav Bali) — старший научный сотрудник одной из крупнейших в мире организаций здравоохранения. Занимается исследованиями и разработкой корпоративных решений, основанных на машинном обучении, глубоком обучении и обработке естественного языка для использования в области здравоохранения и страхования. На своей предыдущей должности в Intel он участвовал в реализации проактивных инициатив в области информационных технологий, основанных на больших данных, с использованием обработки естественного языка, глубокого обучения и традиционных статистических методов. В American Express работал в области цифрового взаимодействия и удержания клиентов.

Рагхав является автором нескольких книг, выпущенных ведущими издательствами. Его последняя книга посвящена новейшим достижениям в области исследования трансферного обучения.

Рагхав окончил Международный институт информационных технологий в Бангалоре, имеет степень магистра (диплом с отличием). В те редкие моменты, когда он не занят решением научных проблем, Рагхав любит читать и фотографировать все подряд.

Предисловие

В основе машинного обучения (англ. Machine Learning, ML) лежат алгоритмы, которые преобразуют информацию в практически ценные данные. Именно поэтому машинное обучение так популярно в современную эру больших данных. Без него было бы почти невозможно отслеживать огромный поток информации.

Учитывая растущую популярность R — кросс-платформенной статистической свободно распространяемой среды программирования, — еще никогда не было более подходящего времени, чтобы начать использовать машинное обучение. R предоставляет мощный, но простой в освоении набор инструментов, которые помогут вам постигнуть суть ваших данных.

Сочетая практические примеры с базовой теорией, которая требуется для понимания того, как все работает внутри, эта книга даст вам возможность получить все необходимые знания, чтобы можно было начать работу с машинным обучением.

Для кого предназначена книга

Книга предназначена для тех, кто рассчитывает использовать данные в конкретной области. Возможно, вы уже немного знакомы с машинным обучением, но никогда не работали с языком R; или, наоборот, немного знаете об R, но почти не знаете о машинном обучении. В любом случае эта книга поможет вам быстро начать работу. Было бы полезно немного освежить в памяти основные понятия математики и программирования, но никакого предварительного опыта не потребуется. Вам нужно лишь желание учиться.

О чем вы прочтете в издании

Глава 1 «Введение в машинное обучение» содержит терминологию и понятия, которые определяют и выделяют теорию машинного обучения среди других областей, а также включает информацию о том, как выбрать алгоритм, подходящий для решения конкретной задачи.

Глава 2 «Управление данными и их интерпретация» даст вам возможность полностью погрузиться в работу с данными в среде R. Здесь речь пойдет об основных структурах данных и процедурах, используемых для загрузки, исследования и интерпретации данных.

Глава 3 «Ленивое обучение: классификация с использованием метода ближайших соседей» научит вас понимать и применять простой, но мощный алгоритм машинного обучения для решения вашей первой практической задачи: выявления особо опасных видов рака.

Глава 4 «Вероятностное обучение: классификация с использованием наивного байесовского классификатора» раскрывает основные понятия теории вероятностей, которые используются в современных системах фильтрации спама. Создавая собственный фильтр спама, вы изучите основы интеллектуального анализа текста.

Глава 5 «Разделяй и властвуй: классификация с использованием деревьев решений и правил» посвящена нескольким обучающим алгоритмам, прогнозы которых не только точны, но и легко интерпретируемы. Мы применим эти методы к задачам, в которых важна прозрачность.

Глава 6 «Прогнозирование числовых данных: регрессионные методы» познакомит с алгоритмами машинного обучения, используемыми для числовых прогнозов. Поскольку эти методы тесно связаны с областью статистики, вы также изучите базовые понятия, необходимые для понимания числовых отношений.

Глава 7 «Методы “черного ящика”: нейронные сети и метод опорных векторов» описывает два сложных, но мощных алгоритма машинного обучения. Их математика на первый взгляд может вас испугать, однако мы разберем примеры, иллюстрирующие их внутреннюю работу.

Глава 8 «Обнаружение закономерностей: анализ потребительской корзины с помощью ассоциативных правил» объясняет алгоритм, используемый в рекомендательных системах, применяемых во многих компаниях розничной торговли. Если вы когда-нибудь задумывались о том, почему системы розничных продаж знают ваши покупательские привычки лучше, чем вы сами, то эта глава раскроет их секреты.

Глава 9 «Поиск групп данных: кластеризация методом k-средних» посвящена процедуре поиска кластеров связанных элементов. Мы воспользуемся этим алгоритмом для идентификации профилей в онлайн-сообществе.

Глава 10 «Оценка эффективности модели» предоставит информацию о том, как измерить успешность проекта машинного обучения и получить надежный прогноз  использования конкретного метода в будущем на других данных.

Глава 11 «Повышение эффективности модели» раскрывает методы, используемые теми, кто возглавляет список лидеров в области машинного обучения. Если в вас живет дух соревновательности или вы просто хотите получить максимальную отдачу от своих данных, то вам необходимо добавить эти методы в свой арсенал.

Глава 12 «Специальные разделы машинного обучения» исследует границы машинного обучения: от обработки больших данных до ускорения работы R. Прочитав ее, вы откроете для себя новые горизонты и узнаете, что еще можно делать с помощью R.

Что вам нужно для чтения книги

Примеры в этой книге написаны и протестированы для версии R 3.5.2, установленной в Microsoft Windows и Mac OS X, хотя они, вероятно, будут работать с любой текущей версией R.

Загрузите файлы примеров кода

Пакет с примерами кода для этой книги размещен в GitHub по адресу https://github.com/PacktPublishing/Machine-Learning-with-R-Third-Edition и по адресу https://github.com/dataspelunking/MLwR/.

Для того чтобы скачать файлы кода, нужно выполнить следующие действия.

1. Перейдите по указанной ссылке на сайт github.com.

2. Нажмите кнопку Clone or Download.

3. Щелкните кнопкой мыши на ссылке Download ZIP.

4. Скачайте архив с файлами примеров.

После загрузки файла распакуйте папку, используя последнюю версию одного из следующих архиваторов:

• WinRAR/7-Zip для Windows;

• Zipeg/iZip/UnRarX для Mac;

• 7-Zip/PeaZip для Linux.

Цветные иллюстрации

Мы также предоставляем PDF-файл с цветными скриншотами и схемами, приведенными в книге. Вы можете скачать его по адресу https://www.packtpub.com/sites/default/files/downloads/9781788295864_ColorImages.pdf.

Условные обозначения

В издании вы увидите несколько стилей текста, с помощью которых выделяются разные виды информации. Вот несколько примеров этих стилей и объяснение их значения.

Код в тексте, имена функций, имена файлов, расширения файлов, пользовательский ввод и названия R-пакетов отображаются следующим образом: «Функция knn() в пакете class предоставляет стандартную классическую реализацию алгоритма k-NN».

Пользовательский ввод и вывод в среде R записывается следующим образом:

> table(mushrooms$type)

   edible poisonous

     4208      3916

Новые термины выделены курсивом, а важные слова — жирным шрифтом. Слова, которые вы видите на экране, например в меню или диалоговых окнах, выделены в тексте следующим образом: «Ссылка Task Views в левой части страницы CRAN указывает на список рекомендованных пакетов».

Важные примечания выглядят так.

Советы и подсказки описаны в таких врезках.

От издательства

Ваши замечания, предложения, вопросы отправляйте по адресу [email protected] (издательство «Питер», компьютерная редакция).

Мы будем рады узнать ваше мнение!

На веб-сайте издательства www.piter.com вы найдете подробную информацию о наших книгах.