Версия 13:58, 1 апреля 2026

[Категория:LLM] [Категория:LMStudio] [Категория:Open WebUI]

LLM

Есть 2 вида параметров (неочевидно)

параметры самой модели
параметры запуска модели

Параметры самой модели

Это то, что модель из себя представляет.

Размер модели

7B, 14B, 27B, 70B

B = billions, миллиарды параметров чем число больше, тем модель обычно:

умнее
лучше держит сложные инструкции
лучше пишет код
лучше рассуждает
медленнее
требует больше памяти
сильнее грузит железо

Очень грубо:

7B–8B — быстрые, лёгкие
12B–14B — хороший баланс
27B–32B — уже заметно качественнее, но тяжелее
70B+ — топ по качеству, но локально уже дорого

Когда говорят "модель 14B", это значит не "14 миллиардов настроек для пользователя",
а что внутри сети около 14 млрд чисел, которые определяют её поведение.

Квантование

4-bit
5-bit
6-bit
8-bit

Это способ хранения весов модели в более компактном виде.

Идея простая:

без квантования модель занимает очень много памяти квантование сжимает веса за это иногда платишь качеством

Общее правило:

4-bit — самый популярный практический вариант сильно экономит память обычно хорош для локального запуска 6-bit / 8-bit — качество чуть лучше но ест больше памяти работает медленнее или просто тяжелее для системы

Грубо:

меньше бит → меньше RAM/VRAM → быстрее/легче запустить больше бит → качество ближе к оригиналу → тяжелее

Для локального использования это один из самых важных параметров.

3) Формат модели: MLX, GGUF, иногда другие

Это не “умность” модели, а формат/движок, в котором она запускается.

Для тебя на Mac M-серии главное:

MLX

Формат/экосистема, хорошо заточенная под Apple Silicon.

Обычно:

лучше подходит для M-чипов лучше использует Apple GPU / unified memory часто самый логичный выбор на Mac GGUF

Очень популярный универсальный формат для llama.cpp.

Плюсы:

огромный выбор моделей много квантовок отличная совместимость

Минус:

на Mac M-серии не всегда лучший вариант по производительности по сравнению с хорошим MLX-портом 4) Context window: 8K, 32K, 128K, 256K

Это сколько текста модель может “держать в голове” в одном запросе.

Примеры:

твой промпт история чата вставленные документы код системная инструкция

Все это вместе занимает контекст.

Что это значит на практике 8K — обычный чат, короткие задачи 32K — уже можно давать длинные тексты 128K — большие документы, длинные диалоги 256K+ — очень длинные документы/кодовые базы

Но есть важный нюанс:

большой контекст != лучшее понимание всего текста Модель может технически принять 128K, но качество внимания к самым ранним частям текста может быть неидеальным.

Плюс большой контекст:

требует больше памяти замедляет работу 5) Base vs Instruct / Chat

Это очень важно.

Base model

“Сырая” модель после общего обучения. Она знает язык, факты, паттерны, но не всегда хорошо следует инструкциям.

Instruct / Chat model

Доработанная модель, которую специально учили:

отвечать на вопросы следовать инструкциям вести диалог не уходить в странный текстоген

Для обычного пользователя почти всегда нужна именно:

Instruct Chat иногда Assistant

Если ты хочешь чат в LM Studio — обычно берёшь instruct/chat, а не base.

6) Multimodal / Vision

Некоторые модели умеют не только текст.

Например:

текст + изображение иногда аудио

Если у модели есть vision, это значит, что ей можно дать картинку и спросить:

что на фото что на скриншоте что в диаграмме распознать UI и так далее

Если такого нет — модель только текстовая.

7) Reasoning / Thinking

Сейчас у некоторых семейств моделей есть режимы “thinking” или reasoning-oriented.

Это значит, что модель:

лучше справляется со сложными задачами лучше в многошаговом анализе но обычно: медленнее дороже по токенам не всегда нужен для простого чата

Для бытового чата reasoning не обязателен. Для кода, сложной логики, анализа — часто полезен.

8) Tool use / Function calling / JSON mode

Это уже ближе к агентам и интеграциям.

Tool calling

Модель умеет не просто ответить текстом, а сказать:

“вызови вот этот инструмент” “сходи в API” “выполни функцию с такими аргументами”

Это полезно для агентов.

JSON mode / Structured output

Модель умеет стабильно отвечать в виде JSON.

Полезно, если ты хочешь:

автоматизацию интеграции пайплайны обработку ответов программой

Для обычного чата не критично. Для агентов — очень полезно.

9) Dense vs MoE

Это уже следующий уровень, но полезно знать.

Dense

Обычная модель: при генерации работает вся сеть.

MoE (Mixture of Experts)

Модель состоит из нескольких “экспертов”, но на каждом токене активируется только часть.

Что это даёт:

модель может вести себя как более крупная при этом вычислительно может быть дешевле полной dense-модели такого же общего размера

Но названия MoE часто сбивают с толку. Например, условное 8x7B — это не просто “56B как обычная dense”. Там интерпретация сложнее.

Для начала можно просто помнить:

dense — проще понять MoE — хитрее устроены, иногда очень выгодны 10) Лицензия

Это не влияет на качество, но влияет на использование.

Например:

можно ли коммерчески использовать можно ли в компании можно ли дообучать можно ли распространять

Для домашнего чата часто неважно. Для рабочих сценариев — уже важно.

2. Параметры запуска модели

Теперь вторая группа — это то, что ты меняешь при генерации ответа.

Они не меняют саму модель, а меняют её поведение в момент ответа.

Temperature

Насколько ответ будет “творческим” и вариативным.

низкая (0.0–0.3) более предсказуемо, сухо, стабильно средняя (0.5–0.8) нормальный баланс высокая (1.0+) больше разнообразия, но больше странностей

Практика:

код, точность, извлечение фактов → пониже идеи, стиль, креатив → повыше Top-p

Ещё один способ ограничить случайность.

Проще всего так:

temperature = “насколько смело фантазировать” top-p = “из какого круга вероятных слов вообще можно выбирать”

Обычно:

либо просто трогаешь temperature либо очень аккуратно меняешь top-p

Новичку часто достаточно не трогать top-p.

Max tokens

Максимальная длина ответа.

мало → ответ может обрезаться много → ответ длиннее, но дороже/медленнее Seed

Фиксирует случайность.

Если seed одинаковый и остальные настройки те же, можно получить более воспроизводимый результат.

Полезно для тестов.

Stop sequences

Говоришь модели, где остановиться.

Полезно в автоматизации и специальных форматах вывода.

Repeat penalty / frequency penalty / presence penalty

Это способы бороться с:

повторениями зацикливанием однообразием

Трогать их на старте обычно не нужно.

Что важнее всего для выбора модели

Если совсем по-простому, для тебя самые важные поля — вот эти:

размер модели — 8B, 14B, 27B квантование — 4-bit, 6-bit, 8-bit формат — MLX или GGUF контекст — 32K, 128K тип — Instruct/Chat или Base есть ли vision / tool use / reasoning Очень короткая шпаргалка

Когда видишь что-то вроде:

qwen3-14b-instruct-4bit-mlx

это можно читать так:

qwen3 — семейство модели 14b — размер instruct — обучена для диалога и инструкций 4bit — квантована для экономии памяти mlx — формат, удобный для Mac M-серии Для твоего Mac M4 48GB базовое правило

На твоей машине обычно логично смотреть сначала на:

8B–14B — как комфортная база 27B–32B — если хочешь лучшее качество и готов к меньшей скорости MLX — как первый выбор на Apple Silicon Instruct/Chat, а не Base 4-bit — как нормальная стартовая квантовка

Дальше лучше разбирать уже на живых примерах. Например, взять 3 реальные строки из LM Studio и я расшифрую каждую по частям.

Квантование (Q)

В названиях моделей, помимо размера (например, 24b), мы часто встретим суффиксы вроде Q4_K_M. Это значит, что модель квантована — сжата с некоторой потерей качества как JPEG, только не для изображений, а для нейросетей. Все модели, доступные для скачивания через LM Studio, уже идут в квантованном виде — это позволяет запускать их на обычном потребительском железе, без серверных GPU. Квантование — это компромисс между точностью и производительностью: модель занимает меньше памяти, работает быстрее, но может немного терять в качестве.
А пока достаточно запомнить: чем выше цифра после Q — тем точнее модель, но тем тяжелее она запускается. Q8 - сохраняет наибольшее качество, но требует больше VRAM. Q2 и Q3 - слишком шакалье сжатие. Оптимальный компромисс — Q4_K_M или Q5_K_M.

LLM: различия между версиями

Версия 13:58, 1 апреля 2026

Содержание

LLM

Параметры самой модели

Размер модели

Квантование

Квантование (Q)

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Навигация

Поиск

Инструменты

@@ Строка 5: / Строка 5: @@
 =LLM=
+Есть 2 вида параметров  (неочевидно)
+* параметры самой модели
+* параметры запуска модели
+=Параметры самой модели=
+Это то, что модель из себя представляет.
+==Размер модели==
+* 7B, 14B, 27B, 70B
+B = billions, миллиарды параметров
+чем число больше, тем модель обычно:
+* умнее
+* лучше держит сложные инструкции
+* лучше пишет код
+* лучше рассуждает
+* медленнее
+* требует больше памяти
+* сильнее грузит железо
+Очень грубо:
+* 7B–8B — быстрые, лёгкие
+* 12B–14B — хороший баланс
+* 27B–32B — уже заметно качественнее, но тяжелее
+* 70B+ — топ по качеству, но локально уже дорого
+<BR>
+Когда говорят "модель 14B", это значит не "14 миллиардов настроек для пользователя", <BR>
+а что внутри сети около 14 млрд чисел, которые определяют её поведение.
+</BR>
+==Квантование==
+* 4-bit
+* 5-bit
+* 6-bit
+* 8-bit
+Это способ хранения весов модели в более компактном виде.
+Идея простая:
+без квантования модель занимает очень много памяти
+квантование сжимает веса
+за это иногда платишь качеством
+Общее правило:
+-bit — самый популярный практический вариант
+сильно экономит память
+обычно хорош для локального запуска
+-bit / 8-bit — качество чуть лучше
+но ест больше памяти
+работает медленнее или просто тяжелее для системы
+Грубо:
+меньше бит → меньше RAM/VRAM → быстрее/легче запустить
+больше бит → качество ближе к оригиналу → тяжелее
+Для локального использования это один из самых важных параметров.
+) Формат модели: MLX, GGUF, иногда другие
+Это не “умность” модели, а формат/движок, в котором она запускается.
+Для тебя на Mac M-серии главное:
+MLX
+Формат/экосистема, хорошо заточенная под Apple Silicon.
+Обычно:
+лучше подходит для M-чипов
+лучше использует Apple GPU / unified memory
+часто самый логичный выбор на Mac
+GGUF
+Очень популярный универсальный формат для llama.cpp.
+Плюсы:
+огромный выбор моделей
+много квантовок
+отличная совместимость
+Минус:
+на Mac M-серии не всегда лучший вариант по производительности по сравнению с хорошим MLX-портом
+) Context window: 8K, 32K, 128K, 256K
+Это сколько текста модель может “держать в голове” в одном запросе.
+Примеры:
+твой промпт
+история чата
+вставленные документы
+код
+системная инструкция
+Все это вместе занимает контекст.
+Что это значит на практике
+K — обычный чат, короткие задачи
+K — уже можно давать длинные тексты
+K — большие документы, длинные диалоги
+K+ — очень длинные документы/кодовые базы
+Но есть важный нюанс:
+большой контекст != лучшее понимание всего текста
+Модель может технически принять 128K, но качество внимания к самым ранним частям текста может быть неидеальным.
+Плюс большой контекст:
+требует больше памяти
+замедляет работу
+) Base vs Instruct / Chat
+Это очень важно.
+Base model
+“Сырая” модель после общего обучения.
+Она знает язык, факты, паттерны, но не всегда хорошо следует инструкциям.
+Instruct / Chat model
+Доработанная модель, которую специально учили:
+отвечать на вопросы
+следовать инструкциям
+вести диалог
+не уходить в странный текстоген
+Для обычного пользователя почти всегда нужна именно:
+Instruct
+Chat
+иногда Assistant
+Если ты хочешь чат в LM Studio — обычно берёшь instruct/chat, а не base.
+) Multimodal / Vision
+Некоторые модели умеют не только текст.
+Например:
+текст + изображение
+иногда аудио
+Если у модели есть vision, это значит, что ей можно дать картинку и спросить:
+что на фото
+что на скриншоте
+что в диаграмме
+распознать UI и так далее
+Если такого нет — модель только текстовая.
+) Reasoning / Thinking
+Сейчас у некоторых семейств моделей есть режимы “thinking” или reasoning-oriented.
+Это значит, что модель:
+лучше справляется со сложными задачами
+лучше в многошаговом анализе
+но обычно:
+медленнее
+дороже по токенам
+не всегда нужен для простого чата
+Для бытового чата reasoning не обязателен.
+Для кода, сложной логики, анализа — часто полезен.
+) Tool use / Function calling / JSON mode
+Это уже ближе к агентам и интеграциям.
+Tool calling
+Модель умеет не просто ответить текстом, а сказать:
+“вызови вот этот инструмент”
+“сходи в API”
+“выполни функцию с такими аргументами”
+Это полезно для агентов.
+JSON mode / Structured output
+Модель умеет стабильно отвечать в виде JSON.
+Полезно, если ты хочешь:
+автоматизацию
+интеграции
+пайплайны
+обработку ответов программой
+Для обычного чата не критично.
+Для агентов — очень полезно.
+) Dense vs MoE
+Это уже следующий уровень, но полезно знать.
+Dense
+Обычная модель: при генерации работает вся сеть.
+MoE (Mixture of Experts)
+Модель состоит из нескольких “экспертов”, но на каждом токене активируется только часть.
+Что это даёт:
+модель может вести себя как более крупная
+при этом вычислительно может быть дешевле полной dense-модели такого же общего размера
+Но названия MoE часто сбивают с толку.
+Например, условное 8x7B — это не просто “56B как обычная dense”. Там интерпретация сложнее.
+Для начала можно просто помнить:
+dense — проще понять
+MoE — хитрее устроены, иногда очень выгодны
+) Лицензия
+Это не влияет на качество, но влияет на использование.
+Например:
+можно ли коммерчески использовать
+можно ли в компании
+можно ли дообучать
+можно ли распространять
+Для домашнего чата часто неважно.
+Для рабочих сценариев — уже важно.
+. Параметры запуска модели
+Теперь вторая группа — это то, что ты меняешь при генерации ответа.
+Они не меняют саму модель, а меняют её поведение в момент ответа.
+Temperature
+Насколько ответ будет “творческим” и вариативным.
+низкая (0.0–0.3)
+более предсказуемо, сухо, стабильно
+средняя (0.5–0.8)
+нормальный баланс
+высокая (1.0+)
+больше разнообразия, но больше странностей
+Практика:
+код, точность, извлечение фактов → пониже
+идеи, стиль, креатив → повыше
+Top-p
+Ещё один способ ограничить случайность.
+Проще всего так:
+temperature = “насколько смело фантазировать”
+top-p = “из какого круга вероятных слов вообще можно выбирать”
+Обычно:
+либо просто трогаешь temperature
+либо очень аккуратно меняешь top-p
+Новичку часто достаточно не трогать top-p.
+Max tokens
+Максимальная длина ответа.
+мало → ответ может обрезаться
+много → ответ длиннее, но дороже/медленнее
+Seed
+Фиксирует случайность.
+Если seed одинаковый и остальные настройки те же, можно получить более воспроизводимый результат.
+Полезно для тестов.
+Stop sequences
+Говоришь модели, где остановиться.
+Полезно в автоматизации и специальных форматах вывода.
+Repeat penalty / frequency penalty / presence penalty
+Это способы бороться с:
+повторениями
+зацикливанием
+однообразием
+Трогать их на старте обычно не нужно.
+Что важнее всего для выбора модели
+Если совсем по-простому, для тебя самые важные поля — вот эти:
+размер модели — 8B, 14B, 27B
+квантование — 4-bit, 6-bit, 8-bit
+формат — MLX или GGUF
+контекст — 32K, 128K
+тип — Instruct/Chat или Base
+есть ли vision / tool use / reasoning
+Очень короткая шпаргалка
+Когда видишь что-то вроде:
+qwen3-14b-instruct-4bit-mlx
+это можно читать так:
+qwen3 — семейство модели
+b — размер
+instruct — обучена для диалога и инструкций
+bit — квантована для экономии памяти
+mlx — формат, удобный для Mac M-серии
+Для твоего Mac M4 48GB базовое правило
+На твоей машине обычно логично смотреть сначала на:
+B–14B — как комфортная база
+B–32B — если хочешь лучшее качество и готов к меньшей скорости
+MLX — как первый выбор на Apple Silicon
+Instruct/Chat, а не Base
+-bit — как нормальная стартовая квантовка
+Дальше лучше разбирать уже на живых примерах.
+Например, взять 3 реальные строки из LM Studio и я расшифрую каждую по частям.
 =Квантование (Q)=
 В названиях моделей, помимо размера (например, 24b), мы часто встретим суффиксы вроде Q4_K_M. Это значит, что модель квантована — сжата с некоторой потерей качества как JPEG, только не для изображений, а для нейросетей.