LLM: различия между версиями
Sirmax (обсуждение | вклад) (Новая страница: «[Категория:LLM] [Категория:LMStudio] [Категория:Open WebUI] =LLM=») |
Sirmax (обсуждение | вклад) (→LLM) |
||
| Строка 4: | Строка 4: | ||
=LLM= |
=LLM= |
||
| + | |||
| + | =Квантование (Q)= |
||
| + | В названиях моделей, помимо размера (например, 24b), мы часто встретим суффиксы вроде Q4_K_M. Это значит, что модель квантована — сжата с некоторой потерей качества как JPEG, только не для изображений, а для нейросетей. |
||
| + | Все модели, доступные для скачивания через LM Studio, уже идут в квантованном виде — это позволяет запускать их на обычном потребительском железе, без серверных GPU. |
||
| + | Квантование — это компромисс между точностью и производительностью: модель занимает меньше памяти, работает быстрее, но может немного терять в качестве. |
||
| + | <BR> |
||
| + | А пока достаточно запомнить: |
||
| + | чем выше цифра после Q — тем точнее модель, но тем тяжелее она запускается. Q8 - сохраняет наибольшее качество, но требует больше VRAM. Q2 и Q3 - слишком шакалье сжатие. Оптимальный компромисс — Q4_K_M или Q5_K_M. |
||
| + | <BR> |
||
Версия 10:07, 1 апреля 2026
[Категория:LLM] [Категория:LMStudio] [Категория:Open WebUI]
LLM
Квантование (Q)
В названиях моделей, помимо размера (например, 24b), мы часто встретим суффиксы вроде Q4_K_M. Это значит, что модель квантована — сжата с некоторой потерей качества как JPEG, только не для изображений, а для нейросетей.
Все модели, доступные для скачивания через LM Studio, уже идут в квантованном виде — это позволяет запускать их на обычном потребительском железе, без серверных GPU.
Квантование — это компромисс между точностью и производительностью: модель занимает меньше памяти, работает быстрее, но может немного терять в качестве.
А пока достаточно запомнить:
чем выше цифра после Q — тем точнее модель, но тем тяжелее она запускается. Q8 - сохраняет наибольшее качество, но требует больше VRAM. Q2 и Q3 - слишком шакалье сжатие. Оптимальный компромисс — Q4_K_M или Q5_K_M.