Erhalten Sie Zugang zu diesem und mehr als 300000 Büchern ab EUR 5,99 monatlich.
Язык R предлагает мощный набор методов машинного обучения, позволяющих быстро проводить нетривиальный анализ ваших данных. Книга является руководством, которое поможет применять методы машинного обучения в решении ежедневных задач. Бретт Ланц научит всему необходимому для анализа данных, формирования прогнозов и визуализации данных. Здесь вы найдете информацию о новых улучшенных библиотеках, советы об этических аспектах машинного обучения и проблемах предвзятости, а также познакомитесь с глубоким обучением. В этой книге - Основы машинного обучения и особенности обучения компьютера на примерах. - Подготовка данных к использованию в машинном обучении средствами языка R. - Классификация значимости результатов. - Предсказание событий с помощью деревьев решений, правил и опорных векторов. - Прогнозирование числовых данных и оценка финансовых данных с помощью регрессионных методов. - Моделирование сложных процессов с использованием нейронных сетей – фундамент глубокого обучения. - Оценка моделей и улучшение их производительности. - Новейшие технологии для обработки больших данных, в частности R 3.6, Spark, H2O и TensorFlow.
Sie lesen das E-Book in den Legimi-Apps auf:
Seitenzahl: 586
Veröffentlichungsjahr: 2024
Das E-Book (TTS) können Sie hören im Abo „Legimi Premium” in Legimi-Apps auf:
Научный редактор Н. Искра
Переводчик Е. Сандицкая (Полонская)
Технический редактор Н. Гринчик
Литературный редактор А. Дубейко
Художники Н. Гринчик, В. Мостипан, Г. Синякина (Маклакова)
Корректоры Н. Искра, Е. Павлович, Е. Рафалюк-Бузовская
Верстка Г. Блинов
Бретт Ланц
Машинное обучение на R: экспертные техники для прогностического анализа. — СПб.: Питер, 2021.
ISBN 978-5-4461-1512-9
© ООО Издательство "Питер", 2021
Все права защищены. Никакая часть данной книги не может быть воспроизведена в какой бы то ни было форме без письменного разрешения владельцев авторских прав.
Бретт Ланц (Brett Lantz, @DataSpelunking) более десяти лет использует инновационные методы обработки данных для изучения поведения человека. Будучи по образованию социологом, Бретт впервые увлекся машинным обучением во время исследования большой базы профилей подростков в социальных сетях. Бретт — преподаватель DataCamp и часто выступает с докладами на конференциях и семинарах по машинному обучению по всему миру. Он известный энтузиаст в сфере практического применения науки о данных в области спорта, беспилотных транспортных средств, изучения иностранных языков и моды, а также во многих других отраслях. Бретт надеется в один прекрасный день написать обо всем этом на сайте dataspelunking.com, посвященном обмену знаниями о поиске закономерностей в данных.
Я не смог бы написать эту книгу без поддержки моей семьи. В частности, моя жена Джессика заслуживает огромной благодарности за ее бесконечное терпение и поддержку. Мои сыновья Уилл и Кэл родились в тот период, когда создавались первое и второе издания соответственно, и я бы не смог написать третье, если бы они меня отвлекали. Я посвящаю им эту книгу в надежде, что однажды она вдохновит их на решение больших задач. Желаю им следовать своему любопытству, куда бы оно их ни привело.
Я также признателен многим другим людям, которые косвенно поддержали эту книгу. Общение с педагогами, коллегами и сотрудниками Мичиганского университета, Университета Нотр-Дам и Университета Центральной Флориды способствовало рождению многих идей, которые я попытался выразить в тексте; что же касается отсутствия ясности в их выражении, то это сугубо мое упущение. Кроме того, эта книга могла бы вообще не появиться без более широкого сообщества исследователей, которые поделились своим опытом в виде статей, лекций и исходного кода. Наконец, я ценю усилия команд R и RStudio, а также всех тех, кто внес вклад в создание R-пакетов. Благодаря проделанной работе мы смогли донести идеи машинного обучения до широкой публики. Я искренне надеюсь, что мой труд также станет важной частью этой мозаики.
Рагхав Бали (Raghav Bali) — старший научный сотрудник одной из крупнейших в мире организаций здравоохранения. Занимается исследованиями и разработкой корпоративных решений, основанных на машинном обучении, глубоком обучении и обработке естественного языка для использования в области здравоохранения и страхования. На своей предыдущей должности в Intel он участвовал в реализации проактивных инициатив в области информационных технологий, основанных на больших данных, с использованием обработки естественного языка, глубокого обучения и традиционных статистических методов. В American Express работал в области цифрового взаимодействия и удержания клиентов.
Рагхав является автором нескольких книг, выпущенных ведущими издательствами. Его последняя книга посвящена новейшим достижениям в области исследования трансферного обучения.
Рагхав окончил Международный институт информационных технологий в Бангалоре, имеет степень магистра (диплом с отличием). В те редкие моменты, когда он не занят решением научных проблем, Рагхав любит читать и фотографировать все подряд.
В основе машинного обучения (англ. Machine Learning, ML) лежат алгоритмы, которые преобразуют информацию в практически ценные данные. Именно поэтому машинное обучение так популярно в современную эру больших данных. Без него было бы почти невозможно отслеживать огромный поток информации.
Учитывая растущую популярность R — кросс-платформенной статистической свободно распространяемой среды программирования, — еще никогда не было более подходящего времени, чтобы начать использовать машинное обучение. R предоставляет мощный, но простой в освоении набор инструментов, которые помогут вам постигнуть суть ваших данных.
Сочетая практические примеры с базовой теорией, которая требуется для понимания того, как все работает внутри, эта книга даст вам возможность получить все необходимые знания, чтобы можно было начать работу с машинным обучением.
Книга предназначена для тех, кто рассчитывает использовать данные в конкретной области. Возможно, вы уже немного знакомы с машинным обучением, но никогда не работали с языком R; или, наоборот, немного знаете об R, но почти не знаете о машинном обучении. В любом случае эта книга поможет вам быстро начать работу. Было бы полезно немного освежить в памяти основные понятия математики и программирования, но никакого предварительного опыта не потребуется. Вам нужно лишь желание учиться.
Глава 1 «Введение в машинное обучение» содержит терминологию и понятия, которые определяют и выделяют теорию машинного обучения среди других областей, а также включает информацию о том, как выбрать алгоритм, подходящий для решения конкретной задачи.
Глава 2 «Управление данными и их интерпретация» даст вам возможность полностью погрузиться в работу с данными в среде R. Здесь речь пойдет об основных структурах данных и процедурах, используемых для загрузки, исследования и интерпретации данных.
Глава 3 «Ленивое обучение: классификация с использованием метода ближайших соседей» научит вас понимать и применять простой, но мощный алгоритм машинного обучения для решения вашей первой практической задачи: выявления особо опасных видов рака.
Глава 4 «Вероятностное обучение: классификация с использованием наивного байесовского классификатора» раскрывает основные понятия теории вероятностей, которые используются в современных системах фильтрации спама. Создавая собственный фильтр спама, вы изучите основы интеллектуального анализа текста.
Глава 5 «Разделяй и властвуй: классификация с использованием деревьев решений и правил» посвящена нескольким обучающим алгоритмам, прогнозы которых не только точны, но и легко интерпретируемы. Мы применим эти методы к задачам, в которых важна прозрачность.
Глава 6 «Прогнозирование числовых данных: регрессионные методы» познакомит с алгоритмами машинного обучения, используемыми для числовых прогнозов. Поскольку эти методы тесно связаны с областью статистики, вы также изучите базовые понятия, необходимые для понимания числовых отношений.
Глава 7 «Методы “черного ящика”: нейронные сети и метод опорных векторов» описывает два сложных, но мощных алгоритма машинного обучения. Их математика на первый взгляд может вас испугать, однако мы разберем примеры, иллюстрирующие их внутреннюю работу.
Глава 8 «Обнаружение закономерностей: анализ потребительской корзины с помощью ассоциативных правил» объясняет алгоритм, используемый в рекомендательных системах, применяемых во многих компаниях розничной торговли. Если вы когда-нибудь задумывались о том, почему системы розничных продаж знают ваши покупательские привычки лучше, чем вы сами, то эта глава раскроет их секреты.
Глава 9 «Поиск групп данных: кластеризация методом k-средних» посвящена процедуре поиска кластеров связанных элементов. Мы воспользуемся этим алгоритмом для идентификации профилей в онлайн-сообществе.
Глава 10 «Оценка эффективности модели» предоставит информацию о том, как измерить успешность проекта машинного обучения и получить надежный прогноз использования конкретного метода в будущем на других данных.
Глава 11 «Повышение эффективности модели» раскрывает методы, используемые теми, кто возглавляет список лидеров в области машинного обучения. Если в вас живет дух соревновательности или вы просто хотите получить максимальную отдачу от своих данных, то вам необходимо добавить эти методы в свой арсенал.
Глава 12 «Специальные разделы машинного обучения» исследует границы машинного обучения: от обработки больших данных до ускорения работы R. Прочитав ее, вы откроете для себя новые горизонты и узнаете, что еще можно делать с помощью R.
Примеры в этой книге написаны и протестированы для версии R 3.5.2, установленной в Microsoft Windows и Mac OS X, хотя они, вероятно, будут работать с любой текущей версией R.
Пакет с примерами кода для этой книги размещен в GitHub по адресу https://github.com/PacktPublishing/Machine-Learning-with-R-Third-Edition и по адресу https://github.com/dataspelunking/MLwR/.
Для того чтобы скачать файлы кода, нужно выполнить следующие действия.
1. Перейдите по указанной ссылке на сайт github.com.
2. Нажмите кнопку Clone or Download.
3. Щелкните кнопкой мыши на ссылке Download ZIP.
4. Скачайте архив с файлами примеров.
После загрузки файла распакуйте папку, используя последнюю версию одного из следующих архиваторов:
• WinRAR/7-Zip для Windows;
• Zipeg/iZip/UnRarX для Mac;
• 7-Zip/PeaZip для Linux.
Мы также предоставляем PDF-файл с цветными скриншотами и схемами, приведенными в книге. Вы можете скачать его по адресу https://www.packtpub.com/sites/default/files/downloads/9781788295864_ColorImages.pdf.
В издании вы увидите несколько стилей текста, с помощью которых выделяются разные виды информации. Вот несколько примеров этих стилей и объяснение их значения.
Код в тексте, имена функций, имена файлов, расширения файлов, пользовательский ввод и названия R-пакетов отображаются следующим образом: «Функция knn() в пакете class предоставляет стандартную классическую реализацию алгоритма k-NN».
Пользовательский ввод и вывод в среде R записывается следующим образом:
> table(mushrooms$type)
edible poisonous
4208 3916
Новые термины выделены курсивом, а важные слова — жирным шрифтом. Слова, которые вы видите на экране, например в меню или диалоговых окнах, выделены в тексте следующим образом: «Ссылка Task Views в левой части страницы CRAN указывает на список рекомендованных пакетов».
Важные примечания выглядят так.
Советы и подсказки описаны в таких врезках.
Ваши замечания, предложения, вопросы отправляйте по адресу [email protected] (издательство «Питер», компьютерная редакция).
Мы будем рады узнать ваше мнение!
На веб-сайте издательства www.piter.com вы найдете подробную информацию о наших книгах.