Назад
1020

Как LLM научились слышать и создавать звук?

1020

Введение

Аудио — одна из самых сложных модальностей для интеграции в большие языковые модели. В отличие от текста, который уже является дискретным, или изображений, делимых на патчи, аудио имеет непрерывную природу и требует высокой частоты дискретизации для сохранения качества. Эта особенность создаёт уникальные технические вызовы при попытке объединить звуковую информацию с текстовыми возможностями LLM. Развитие возможностей аудио в языковых моделях проходило по нескольким направлениям одновременно:

Рисунок 1. Развитие возможностей аудио у LLM

Исследования показали: LLM могут неявно развивать способности к пониманию аудио и изображений просто через обучение на тексте. Это открытие предполагает, что текстовые представления содержат достаточно информации для формирования внутренних представлений других модальностей. А это кардинально меняет наше понимание возможностей языковых моделей.

Преобразование звука в картинку: зачем и как это работает

Звук — одномерная волна, представляющая собой колебания давления во времени. Удобный формат представления звука для нейросети — мел-спектрограмма. Мел-спектрограмма (см. рисунок 2) показывает, как энергия сигнала распределяется по частотам (по шкале мел) и времени.

Это похоже на тепловую карту, только вместо температуры — громкость различных звуков.

Рисунок 2. Пример мел-спектрограммы. Горизонтальная ось — время, вертикальная ось — частота, цвет/яркость — интенсивность сигнала на данной частоте и в данный момент времени. Источник: https://medium.com/analytics-vidhya/understanding-the-mel-spectrogram-fca2afa2ce53

Внимательный читатель заметит, что мел-спектрограмма — двумерное изображение. Именно в этом кроется ключевая идея подхода обработки аудио: если оно представляется картинкой, значит, его можно обрабатывать как картинку. Это открывает возможность применения картиночных архитектур: Convolutional Neural Networks (CNNs), Vision Transformers (ViTs) для обработки аудио.

Whisper (OpenAI) [2022 г.]

В 2022 году OpenAI представила Whisper, мощную «general-purpose» модель (модель общего назначения) для автоматического распознавания речи (ASR), обученную на сотнях тысяч часов аудиоданных на десятках языков.


Whisper построен на основе классической энкодер-декодер архитектуры трансформера. Энкодер обрабатывает входные аудиоданные, которые предварительно разбиваются на 30-секундные фрагменты и преобразуются в log-мел-спектрограмму. Спектрограмма нормализуется в диапазон [-1, 1] с почти нулевым средним значением. Это «почти», а не строго нулевое значение, обусловлено специфической схемой нормализации, которая была выбрана для воспроизведения поведения библиотеки librosa без добавления её в зависимости проекта. Конкретная формула (log_spec + 4.0) / 4.0 не гарантирует строго нулевое среднее, но обеспечивает консистентность между обучением и инференсом, что критически важно для стабильной работы модели. Энкодер включает два свёрточных слоя, синусоидальные позиционные эмбеддинги (рисунок 4) и серию Transformer encoder блоков с pre-activation residual connections.


Краткая справка по pre-activation residual connections

Pre-activation residual connections — усовершенствованная версия классического residual connection, где функции активации и нормализации применяются до основных вычислений слоя, а не после них.

В обычных residual connections формула выглядит так:

y=F(x)+x

В pre-activation residual connections формула принимает вид:

\(x_{ℓ+1}=F(ϕ(x_ℓ))+x_ℓ\), где φ — функция активации (например, ReLU) или нормализации (например, LayerNorm), применяемая перед основными вычислениями F [подробности].

Рисунок 3. Классический residual connection (слева) vs pre-activation residual connections (справа). Источник: https://arxiv.org/pdf/1603.05027

Рисунок 4. Пример позиционного кодирования. Источник: https://machinelearningmastery.com/a-gentle-introduction-to-positional-encoding-in-transformer-models-part-1/

Декодер представляет собой стандартный Transformer-декодер, который использует изученные позиционные эмбеддинги и связанные входные-выходные представления токенов. Декодер предсказывает соответствующие текстовые подписи, перемежающиеся со специальными токенами для выполнения различных задач (см. рисунок 5).

Рисунок 5. Модель Whisper. Источник: https://openai.com/index/whisper/

Whisper использует систему специальных токенов для управления различными задачами в рамках единой архитектуры энкодер-декодер трансформера:

  • токены языка (по одному уникальному токену на язык);
  • токены задач (<|transcribe|> или <|translate|>);
  • токены временных меток (<|notimestamps|>);
  • токен обнаружения голосовой активности (<|nospeech|>);
  • токены начала и конца транскрипции (<|startoftranscript|>, <|endoftranscript|>).

Whisper поддерживает 98 языков и может как транскрибировать речь на том же языке, что и аудио, так и переводить с других языков на английский. Около трети аудиодатасета Whisper составляют неанглийские данные, и модель попеременно выполняет задачу транскрипции на исходном языке или перевода на английский.

Модели генерации музыки

Современные мультимодальные языковые модели открывают новые горизонты в генерации музыки, позволяя создавать композиции с опорой на текстовые описания.

MuseCoCo (Microsoft) [2023 г.]

Одним из ярких и инновационных решений в этой области стала система MuseCoCo, разработанная Microsoft в 2023 году. В отличие от классических end-to-end моделей, MuseCoCo реализует двухэтапную архитектуру, обеспечивающую гибкость, точный контроль и эффективное использование больших неразмеченных датасетов.

MuseCoCo — система, объединяющая несколько моделей и программных компонент, которые реализуют многоэтапный процесс генерации музыки на основе текстового описания (например: «спокойная джазовая мелодия с женским вокалом»). Система предлагает точный контроль через музыкальные атрибуты, включая инструменты, ритм, структуру, высоту звука, стиль и эмоции.

Ключевая особенность MuseCoCo — разбиение задачи генерации музыки на два независимых этапа (рисунок 5, 6):

  1. Извлечение музыкальных атрибутов из текста (Text-to-Attribute Understanding)

    На первом этапе система анализирует текстовое описание и определяет значения ключевых музыкальных атрибутов: инструменты, жанр, темп, настроение, размер такта, лад и другие. Для этого используется языковой энкодер на базе BERT, который превращает свободный текст в структурированный набор характеристик. Для обучения первой стадии используются синтетические пары «текст — атрибуты», созданные автоматически на основе шаблонов и доработанные с помощью языковых моделей (например, ChatGPT).
  2. Генерация музыки на основе атрибутов (Attribute-to-Music Generation)

    Генератор реализован на базе модифицированного трансформера (Linear Transformer), который обучается на токенизированных MIDI-последовательностях. Такой подход позволяет эффективно моделировать долгосрочные зависимости в музыке и поддерживать высокое качество генерации даже на длинных последовательностях (до 16 тактов, максимальная длина — 5120 токенов). На этапе обучения на вход модели подаются последовательности музыкальных событий (например, ноты, длительности, инструменты), а также извлечённые музыкальные атрибуты (жанр, темп, эмоция и др.). Это позволяет модели учиться предсказывать следующее музыкальное событие на основе предыдущих, а также учитывать заданные характеристики музыки. На этапе генерации модель получает на вход только начальные условия (например, короткий префикс или только атрибуты) и далее поочередно генерирует новые музыкальные события, опираясь на уже сгенерированную последовательность и заданные атрибуты. Такой подход обеспечивает управляемость и точность генерации символьной музыки. Linear Transformer снижает вычислительные затраты по сравнению с классическим self-attention, что позволяет увеличивать размер модели (глубину и ширину слоёв) без чрезмерного роста требований к ресурсам. В результате, модель масштабируется до 1,2 млрд параметров, что позволяет достигать высокого уровня музыкальности и контролируемости результата. Поскольку атрибуты можно извлекать автоматически, обучение генератора проходит в self-supervised режиме: каждая MIDI-композиция становится парой «атрибуты — последовательность событий», что позволяет использовать огромные неразмеченные датасеты. После генерации токенов происходит обратное преобразование — детокенизация. Это детерминированный процесс: последовательность токенов преобразуется обратно в MIDI-файл, где каждая команда соответствует конкретному музыкальному событию.
Рисунок 6. Двухэтапная структура MuseCoco. Этап text-to-attribute undestanding извлекает различные музыкальные атрибуты, на основе которых на этапе atribute-to-music generation создается символическая музыка. Источник: https://arxiv.org/pdf/2306.00110
Рисунок 7. Процедура обучения/инференса MuseCoCo. Во время обучения каждая часть обучается самостоятельно. При инференсе часть перевода текста в атрибут извлекает значения музыкальных атрибутов, на основе которых часть генерации атрибута музыки генерирует символическую музыку. Источник: https://arxiv.org/pdf/2306.00110

MusicGEN (MetaAI) [2024 г.]

MusicGen фокусируется на text-to-music генерации, но также поддерживает аудиоконтекст — например, продолжение заданной музыкальной темы. MusicGen, в отличие от MuseCoCo, использует одноэтапную архитектуру на базе трансформера, а не сложные многоуровневые или каскадные модели. Это упрощает процесс и делает его более быстрым и управляемым.

Ключевой технологический компонент MusicGen — различные codebook interleaving patterns, которые используются для авторегрессивного моделирования музыки. Благодаря эффективному чередованию токенов из разных codebooks MusicGen может генерировать музыку высокого качества за меньшее число шагов, что особенно важно для длинных аудиофрагментов и стереогенерации.

Codebook (кодовая книга) — набор векторов, который используется для дискретизации аудиосигнала. С помощью аудиотокенизатора EnCodec исходный непрерывный аудиосигнал преобразуется в последовательность дискретных токенов: каждый временной шаг аудио описывается четырьмя токенами, по одному из каждого codebook (k₁, k₂, k₃, k₄). Эти токены и есть сжатое представление музыки, пригодное для обработки языковой моделью (рисунок 8).

Разбиение аудио на временные шаги

EnCodec преобразует аудиосигнал с частотой дискретизации (например, 32 кГц) в последовательность скрытых представлений с гораздо меньшей частотой кадров (например, 50 Гц). Это значит, что каждая секунда музыки разбивается на 50 временных шагов, а каждый шаг кодируется четырьмя токенами (по одному из каждого codebook). Например, 30 секунд аудио — это 1500 временных шагов, каждый из которых содержит 4 токена.

Рисунок 8. Процедура обучения EnCodec. Encoder преобразует входной аудиосигнал в последовательность векторов признаков. Выход Encoder — компактное представление аудио, пригодное для дальнейшего квантования. Quantizer дискретизирует выходы энкодера, превращая их в последовательности индексов codebook. Decoder восстанавливает аудиосигнал из дискретных представлений, полученных после квантования. Discriminator используется в процессе состязательного обучения. ℓ_w — Commitment Loss: применяется к энкодеру для стабилизации квантования. ℓ_d — Discriminator Loss: обучает дискриминатор отличать реальные и восстановленные сигналы. ℓ_g — Generator Loss: обучает декодер «обманывать» дискриминатор. ℓ_s — Spectrogram Loss: сравнивает спектрограммы оригинального и восстановленного аудио. ℓ_t — Time-domain Loss: сравнивает временные представления сигналов. Источник: https://arxiv.org/abs/2210.13438

Codebook interleaving patterns: зачем нужны и принцип работы

Когда для каждого временного шага есть четыре токена из разных codebook, возникает вопрос: в каком порядке подавать эти токены в языковую модель для генерации музыки? От этого зависит, насколько хорошо модель будет улавливать временные и иерархические зависимости в музыке, а также скорость и качество генерации.

Codebook interleaving patterns — способы чередования и раскладки токенов, полученных из разных codebooks, для подачи в декодер. Вот основные из них (рисунок 9):

  1. Flattening Pattern последовательно обрабатывает все codebooks по временным шагам, создавая длинную последовательность. Это делается следующим образом: сначала по всем временным шагам собираются токены из первой кодовой книги (k1), затем — из второй (k2) и далее, пока не будут объединены токены из всех кодовых книг. В результате получается одна последовательность, в которой сначала идут все токены из k1, затем — из k2, затем — из k3 и, наконец, — из k4. Этот подход простой, но может терять важные временные зависимости в музыке.
  2. Parallel Pattern обрабатывает все codebooks одновременно на каждом временном шаге, что позволяет сохранить временную структуру музыки и обеспечить синхронизацию между различными аспектами звука.
  3. Coarse First Pattern следует иерархическому подходу к генерации аудиотокенов: сначала по всей длительности аудиофрагмента генерируются токены из низких (coarse) codebooks, а затем к ним добавляются токены из более высоких (fine) codebooks. Низкими называются первые codebooks (k1, k2), которые отвечают за передачу самой общей структуры и базовых характеристик музыки — ритм, гармония и основные динамические изменения. Высокие codebooks, напротив, кодируют более тонкие детали: нюансы тембра, текстуры, высокочастотные компоненты и другие мелкие особенности звука. Такой порядок имитирует естественный процесс создания музыки: сначала формируется основа композиции, а затем постепенно добавляются детали, делающие звук насыщенным и реалистичным. Иерархическая организация токенов позволяет более эффективно управлять сложностью генерации и добиваться высокого качества синтеза аудио.
  4. Delay Pattern наиболее сложный паттерн, который вводит временные сдвиги между различными codebooks, позволяя учитывать причинно-следственные связи в музыке. Именно этот паттерн используется в финальной версии MusicGen, поскольку он обеспечивает оптимальный баланс между качеством генерации и вычислительной эффективностью.
Рисунок 9. Codebooks модели MusicGen. Здесь нули используются для выравнивания там, где на данном шаге последовательности от конкретного codebook не требуется токен. Например, при паттерне с задержкой (delay pattern) или coarse-first pattern некоторые codebooks начинают выдавать токены с задержкой относительно других. В эти «пропущенные» места вставляются нули как специальные placeholder-символы. В Flattening pattern нули — не аудиотокены, а специальные placeholders, которые обеспечивают корректное выравнивание и обработку последовательности токенов из разных codebooks в процессе подачи их на декодера. Sequence steps — шаги новой, собранной последовательности токенов для декодера, а не исходные временные шаги аудио. Источник: https://arxiv.org/pdf/2306.05284

Codebook interleaving patterns отвечают за баланс между качеством, скоростью и вычислительной эффективностью при генерации аудио:

  • Flattening сохраняет максимум связей, но очень медленный.
  • Parallel быстрый, но может терять сложные зависимости.
  • Coarse First позволяет строить музыку по принципу «от общего к частному».
  • Delay оптимально сочетает скорость и качество, позволяя эффективно моделировать сложные временные и иерархические зависимости между токенами.

Музыка в итоге формируется так: языковая модель генерирует последовательность токенов согласно выбранному паттерну, после чего EnCodec декодирует эти токены обратно в аудиосигнал. Таким образом, выбранный паттерн напрямую влияет на то, насколько связной, музыкальной и качественной будет итоговая композиция.

MusicGEN умеет сохранять ритм, инструментальный состав, настроение и даже повторно использовать мотивы, заданные пользователем. При этом она показывает устойчивость к шуму и стилистическую гибкость.

От изображений и звука к видео

Видео — мультимедийный формат, который представляет собой синхронизированную последовательность изображений (кадров) во времени, часто сопровождаемую звуковой дорожкой. Видео сочетает в себе как визуальную, так и аудиоинформацию, что позволяет передавать динамичные сцены, речь, музыку и другие звуки. Чтобы понимать и интерпретировать такой контент, модели должны не просто «видеть» и «слышать», но и делать это синхронно, интегрируя модальности во времени. Именно здесь начинается новая эра мультимодальных LLM.

Video-ChatGPT [2023 г.]

Video-ChatGPT объединяет репрезентативные способности предобученного визуального энкодера с генеративными возможностями большой языковой модели. В основе Video-ChatGPT лежит архитектура, объединяющая визуальный энкодер CLIP и языковой декодер Vicuna, но специально адаптированная для работы с видео, а не только с изображениями. Обработка аудиодорожки или генерация звуковых ответов не входит в функционал Video-ChatGPT.

Рисунок 10. Архитектура Video-ChatGPT. Video-ChatGPT использует визуальный энкодер CLIP-L/14 для извлечения как пространственных, так и временных признаков из видео. Это достигается путём усреднения признаков на уровне отдельных кадров по временной и пространственной осям соответственно. Полученные пространственно-временные признаки затем подаются в обучаемый линейный слой, который проецирует их в пространство входов языковой модели (LLM). Источник: https://arxiv.org/pdf/2306.05424

В качестве визуального энкодера используется CLIP ViT-L/14, уже предобученный на огромном корпусе пар «изображение-текст». Для работы с видео этот энкодер модифицируется: каждый кадр видео обрабатывается как отдельное изображение, после чего извлечённые пространственные признаки объединяются с учётом временных связей между кадрами.

Агрегация пространственных и временных признаков

  • Каждый кадр видео проходит через CLIP, где извлекаются визуальные эмбеддинги.
  • Для получения единого представления видео эмбеддинги всех кадров агрегируются — обычно с помощью простого усреднения (mean pooling) или более сложных методов (self-attention или временные адаптеры). Это позволяет учитывать как статическую информацию в каждом кадре, так и динамику изменений во времени.
  • Итоговое агрегированное представление содержит как пространственные, так и временные признаки, что критично для понимания видеоконтента.

В качестве языкового декодера используется Vicuna — это LLM, инициализированная весами LLaVA (LLaVA изначально интегрирует CLIP и Vicuna для мультимодальных задач, связанных с изображениями, и проходит предварительное обучение на соответствующих данных).

Адаптация к видеоинструкционным задачам

На этапе дообучения Video-ChatGPT используется специально собранный датасет из 100 000 пар «видео — вопрос/ответ», охватывающих пространственные, временные и контекстные аспекты. В ходе обучения обновляются только параметры адаптерного слоя, который проецирует агрегированные видеофичи в пространство языковой модели. Это позволяет эффективно согласовывать визуальную и языковую информацию, используя уже имеющиеся знания двух моделей без необходимости их полного переобучения.

Ни CLIP, ни Vicuna не подвергаются полноценному дообучению на видео — дообучается только адаптер, который учится согласовывать видеофичи со входом языковой модели. Это позволяет эффективно использовать уже имеющиеся знания обеих моделей и быстро адаптировать систему к новым мультимодальным задачам. Хотя Video-ChatGPT действительно обучается на паре «видео — вопрос/ответ», его функциональность не ограничивается только классическим VideoQA (ответами на вопросы по видео). Благодаря архитектуре и разнообразию инструкций в обучающем датасете модель способна выполнять широкий спектр задач по видеоанализу и генерации:

  • Описание и суммаризация видео Модель может генерировать подробные описания происходящего, выделять ключевые моменты, объяснять динамику сцен и давать краткие или развернутые резюме видеоролика.
  • Креативные и генеративные задачи Video-ChatGPT умеет сочинять истории, рекламные тексты, стихи или сценарии на основе видеоконтента, а также объяснять, почему ролик может быть смешным или необычным.
  • Пространственное и временное понимание Модель способна анализировать пространственные отношения между объектами, отслеживать действия во времени, определять последовательность событий и отвечать на вопросы о развитии сюжета.
  • Распознавание действий и объектов Система может определять, какие действия совершают персонажи, сколько объектов присутствует в кадре, где происходит действие и т.д.
  • Локализация и анализ сцен Video-ChatGPT может указывать, где в видео происходит определённое событие, и анализировать детали сцен.
  • Рефлексия и причинно-следственный анализ Модель способна объяснять мотивы персонажей, предсказывать, что произойдёт дальше, и анализировать причинно-следственные связи между событиями.
  • Генерация кода по видео (экспериментально) В некоторых демонстрациях модель может даже писать простой код, основываясь на содержании видео (например, генерировать скрипты для обработки или анализа данных из ролика).

Gemini 1.5 Pro (Google) [2024 г.]

Gemini 1.5 Pro — мультимодальная языковая модель Google нового поколения, отличающаяся рекордно большим контекстным окном (до 1 миллиона токенов) и высокой эффективностью обработки различных типов данных: текста, изображений, аудио и видео.

Рекордное контекстное окно

Благодаря огромному контекстному окну модель может анализировать видео продолжительностью до 1 часа при стандартном разрешении (примерно 300 токенов/сек: 1 кадр в секунду, 258 токенов на кадр, 32 токена на секунду аудио) или до 3-х часов при низком разрешении (примерно 100 токенов/сек: 66 токенов на кадр).

Рисунок 11. Обработка видео моделью Gemini 1.5 Pro. Источник: https://arxiv.org/pdf/2403.05530

Архитектура Mixture-of-Experts (MoE)

Модель построена на архитектуре Mixture-of-Experts (MoE), где вместо одного большого трансформера используется множество специализированных «экспертов», которые динамически активируются в зависимости от типа и содержания входа. Это позволяет существенно повысить качество, скорость и масштабируемость обработки данных [подробности].

Нативная мультимодальность

Gemini 1.5 Pro с самого начала обучалась на смешанных данных (текст, изображения, аудио, видео), что обеспечило глубокую интеграцию между модальностями и позволило выполнить сложные задачи мультимодального анализа и генерации.

Универсальность применения

Модель поддерживает:

  • сложные задачи поиска и анализа в длинных документах и кодовых базах;
  • мультимодальный вопрос-ответ и генерацию описаний по видео и аудио;
  • переводы, суммаризацию, генерацию кода, анализ изображений и аудиосигналов;
  • интеллектуальные ассистенты и чат-боты, способные оперировать мультимодальными данными.

Инновации в обучении и инференсе

Благодаря динамической маршрутизации экспертов и оптимизированным механизмам внимания Gemini 1.5 Pro обеспечивает высокое качество генерации и анализа при меньших затратах на обучение и обслуживание по сравнению с предыдущими поколениями.

Модель способна «читать» и анализировать огромные массивы информации: от целых книг и кодовых репозиториев до часов видео и аудиозаписей. В тестах Needle-in-a-Haystack Gemini 1.5 Pro демонстрирует почти идеальную способность находить конкретную информацию среди миллионов токенов, что критично для задач поиска и анализа в реальных сценариях [подробности].

Gemini 2.5 Pro (Google) [2025 г.]

Gemini 2.5 Pro — эволюционное развитие архитектуры Gemini, сфокусированное на ещё более глубокой интеграции модальностей и расширении возможностей понимания видео и аудио. Модель стала одной из первых, кто нативно работает с видео, аудио, текстом, изображениями и кодом в едином контексте.

Существенно расширенное контекстное окно

Одно из ключевых отличий — существенно расширенное контекстное окно. Gemini 2.5 Pro может обрабатывать до 6 часов видео при низком разрешении медиа (66 токенов на кадр) благодаря поддержке контекста в 2 миллиона токенов [подробности].

Улучшенная мультимодальная интеграция

Gemini 2.5 — первая нативно мультимодальная модель, которая может использовать аудиовизуальную информацию вместе с кодом и другими форматами данных. Это кардинальное отличие от 1.5 Pro, которая имела более ограниченную интеграцию модальностей.

Gemini 2.5 Pro не просто извлекает текстовую информацию из видео, а анализирует визуальные, звуковые и временные связи, что позволяет:

  • описывать сюжет, выявлять ключевые сцены и события;
  • отвечать на вопросы, требующие анализа динамики или контекста (например, «Что произошло после появления героя?»);
  • понимать сложные визуальные инструкции, оценивать качество монтажа, ритм, нарративной структуры.

Архитектурные инновации

Gemini 2.5 Pro использует оптимизированный трансформер-декодер с эффективным вниманием и специализированными блоками для обработки разных типов данных. Модель добивается высокой точности и глубины reasoning благодаря сочетанию RLHF, supervised fine-tuning, chain-of-thought prompting, dynamic thinking budget и использованию специализированных датасетов для постобучения, включающие сложные инженерные, юридические, научные и бизнес-задачи. Это способствует улучшению способности модели к анализу и обобщению информации.

Сравнительная таблица: Gemini 1.5 Pro vs Gemini 2.5 Pro

ХарактеристикаGemini 1.5 ProGemini 2.5 Pro
Контекстное окноДо 1 млн токеновДо 2 млн токенов
МультимодальностьТекст, изображение, аудио, видеоТекст, изображение, аудио, видео, код
АрхитектураMoE TransformerОптимизированный Transformer Decoder
Глубина видеоанализаБазовое пониманиеГлубокое понимание с учётом динамики и аудио
Интеграция модальностейОграниченнаяНативная, одновременная
Применение reasoningВысокоеБолее высокое, поддержка сложных цепочек
Генерация и анализ кодаЕстьСущественно улучшена

Заключение

Способность языковых моделей воспринимать, интерпретировать и создавать звук — не просто расширение их возможностей, а фундаментальный шаг к формированию по-настоящему мультимодального интеллекта. Мы увидели, как LLM научились «слышать» с помощью мел-спектрограмм, «понимать» аудио благодаря архитектурам вроде Whisper и даже «создавать» музыку (например, с MusicGen), синхронизировать её с визуальными образами в видео.

Понимание базовых принципов работы LLM — фундамент для успешного освоения мультимодальных технологий. Ведь именно языковые модели служат центральным связующим элементом, объединяющим различные модальности в единое пространство понимания. Качественную базу можно заложить у нас на курсе по LLM 😎

Телеграм-канал

DeepSchool

Короткие посты по теории ML/DL, полезные
библиотеки и фреймворки, вопросы с собеседований
и советы, которые помогут в работе

Открыть Телеграм

Увидели ошибку?

Напишите нам в Telegram!