Skip to content

«Анатомия больших языковых моделей: от линейной регрессии к общему искусственному интеллекту» Вспомогательный код

License

Notifications You must be signed in to change notification settings

mag1art/regression2chatgpt

 
 

Repository files navigation

«Анатомия больших языковых моделей: от линейной регрессии к общему искусственному интеллекту» Вспомогательный код

Краткое описание

Для классических моделей искусственного интеллекта сторонние открытые инструменты предоставляют хорошо инкапсулированные реализации, и их использование несложно. Однако, из-за инженерных соображений, эти открытые инструменты вводят в код слишком много инкапсуляции и деталей, что затрудняет понимание основной структуры моделей. Чтобы помочь читателям лучше освоить принципы моделей, в этой книге было уделено большое внимание повторной реализации основных частей моделей с подробными комментариями. Иногда для описания изящных алгоритмов требуется значительный объем текста, и результаты могут быть не такими наглядными, как хотелось бы. В то время как чтение кода становится более интуитивным и понятным.

Этот код зависит от множества сторонних библиотек, соответствующие команды для установки указаны в начале соответствующих скриптов. Выполняйте эти скрипты в заданном порядке. Поскольку они используют случайные числа, при повторном запуске могут получаться немного разные результаты, но это не окажет значительного влияния на общую картину. Следует отметить, что код, связанный с большими языковыми моделями, должен выполняться на GPU, иначе время вычислений значительно увеличится.

Оглавление

  • ch03_linear: Линейная регрессия
  • ch04_logit: Логистическая регрессия
  • ch05_econometrics: Взгляд с точки зрения эконометрики
  • ch06_optimizer: Алгоритмы оптимизации
  • ch07_autograd: Обратное распространение ошибки
  • ch08_mlp: Многослойный перцептрон
  • ch09_cnn: Свёрточная нейронная сеть
  • ch10_rnn: Рекуррентная нейронная сеть
  • ch11_llm: Большая языковая модель
  • ch12_rl: Обучение с подкреплением
  • ch13_others: Другие классические модели

Содержание

Большие языковые модели, такие как ChatGPT, находятся на переднем крае современных исследований в области искусственного интеллекта. Чтобы построить такую сложную систему и полностью понять все её детали, необходимо всесторонне овладеть многими аспектами искусственного интеллекта. Обычно процесс обучения начинается с базовых знаний, постепенно углубляя сложность, освоение сложных концепций, и, в конечном итоге, достигая передовой границы науки. Однако, такой учебный процесс часто вызывает замешательство на начальных этапах, затрудняя понимание вклада каждого этапа в достижение конечной цели.

Чтобы более ясно понять путь обучения, можно применить обратное мышление: если вы хотите глубоко понять большие языковые модели, какие знания вам нужно иметь? На приведенной ниже схеме показаны основные элементы этой системы знаний и их взаимосвязь, которые будут охвачены в этой книге.

大纲横

На уровне структуры моделей основными элементами больших языковых моделей являются механизм внимания и технологии оптимизации глубокого обучения. Механизм внимания берет свое начало из развития рекуррентных нейронных сетей. Чтобы глубоко понять рекуррентные нейронные сети, нужно сначала понять базовую модель нейронных сетей — многослойный перцептрон. Основы многослойного перцептрона можно далее разделить на три части:

Во-первых, это линейная регрессия как каркас модели. Во-вторых, это функция активации как душа модели, эволюционировавшая из логистической регрессии. Наконец, это алгоритм обратного распространения ошибок и основанные на нем методы оптимизации как инженерная основа. Началом глубокого обучения являются сверточные нейронные сети, из которых большие языковые модели заимствовали множество приемов: как ускорить обучение и эволюцию моделей. Конечно, основой для понимания сверточных нейронных сетей также является многослойный перцептрон.

Структура моделей, безусловно, является ключевым элементом обучения, но помимо этого, нам также нужно понять материальную основу больших языковых моделей, то есть данные. Обучение работе с данными в основном сосредоточено на методах тренировки моделей, интерпретации моделей и инженерии признаков. Обучение больших языковых моделей включает переносное обучение и обучение с подкреплением, которые берут начало в контролируемом обучении. Интерпретация моделей и инженерия признаков заимствуют опыт эконометрики и других классических моделей.

Как для структуры моделей, так и для работы с данными, обсуждение технических аспектов невозможно без математической основы, в частности, тензоров, вероятностей и математического анализа.

Благодарности

Кроме того, к книге прилагается бесплатный видеокурс: Bilibili

Если у вас есть отзывы, предложения или критика по поводу этой книги, пожалуйста, оставьте свои комментарии на Douban. Еще раз спасибо всем.

About

«Анатомия больших языковых моделей: от линейной регрессии к общему искусственному интеллекту» Вспомогательный код

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 99.7%
  • Python 0.3%