LLM: различия между версиями

Материал из noname.com.ua
Перейти к навигацииПерейти к поиску
(Новая страница: «[Категория:LLM] [Категория:LMStudio] [Категория:Open WebUI] =LLM=»)
 
Строка 4: Строка 4:
   
 
=LLM=
 
=LLM=
  +
  +
=Квантование (Q)=
  +
В названиях моделей, помимо размера (например, 24b), мы часто встретим суффиксы вроде Q4_K_M. Это значит, что модель квантована — сжата с некоторой потерей качества как JPEG, только не для изображений, а для нейросетей.
  +
Все модели, доступные для скачивания через LM Studio, уже идут в квантованном виде — это позволяет запускать их на обычном потребительском железе, без серверных GPU.
  +
Квантование — это компромисс между точностью и производительностью: модель занимает меньше памяти, работает быстрее, но может немного терять в качестве.
  +
<BR>
  +
А пока достаточно запомнить:
  +
чем выше цифра после Q — тем точнее модель, но тем тяжелее она запускается. Q8 - сохраняет наибольшее качество, но требует больше VRAM. Q2 и Q3 - слишком шакалье сжатие. Оптимальный компромисс — Q4_K_M или Q5_K_M.
  +
<BR>

Версия 10:07, 1 апреля 2026

[Категория:LLM] [Категория:LMStudio] [Категория:Open WebUI]

LLM

Квантование (Q)

В названиях моделей, помимо размера (например, 24b), мы часто встретим суффиксы вроде Q4_K_M. Это значит, что модель квантована — сжата с некоторой потерей качества как JPEG, только не для изображений, а для нейросетей. Все модели, доступные для скачивания через LM Studio, уже идут в квантованном виде — это позволяет запускать их на обычном потребительском железе, без серверных GPU. Квантование — это компромисс между точностью и производительностью: модель занимает меньше памяти, работает быстрее, но может немного терять в качестве.
А пока достаточно запомнить: чем выше цифра после Q — тем точнее модель, но тем тяжелее она запускается. Q8 - сохраняет наибольшее качество, но требует больше VRAM. Q2 и Q3 - слишком шакалье сжатие. Оптимальный компромисс — Q4_K_M или Q5_K_M.