Як запустити LLM локально на комп’ютері менш ніж за 10 хвилин

Перевидано Платоном

читають: 0

Руки на З огляду на всі розмови про масивні навчальні кластери машинного навчання та комп’ютери зі штучним інтелектом, вас пробачать, якщо ви подумаєте, що вам потрібне якесь спеціальне обладнання, щоб працювати з великими мовними моделями (LLM), що генерують текст і код, удома.

Насправді є хороший шанс, що настільна система, на якій ви це читаєте, є такою більш ніж здатний запуску широкого спектру LLM, у тому числі чат-ботів, таких як Mistral, або генераторів вихідного коду, таких як Codellama.

Фактично, за допомогою відкритих інструментів, таких як Ollama, LM Suite і Llama.cpp, відносно легко запустити ці моделі у вашій системі.

В інтересах простоти та сумісності між платформами ми розглянемо Оллама, який після встановлення працює приблизно однаково в Windows, Linux і Mac.

Трохи про продуктивність, сумісність і підтримку GPU AMD:

Загалом, великі мовні моделі, такі як Mistral або Llama 2, найкраще працюють із спеціальними прискорювачами. Є причина, через яку оператори центрів обробки даних купують і розгортають графічні процесори в кластерах із 10,000 XNUMX або більше, хоча вам знадобиться найменша частка таких ресурсів.

Ollama пропонує власну підтримку для графічних процесорів M-серії Nvidia та Apple. Графічні процесори Nvidia з принаймні 4 ГБ пам’яті повинні працювати. Ми тестували з 12 ГБ RTX 3060, хоча ми рекомендуємо принаймні 16 ГБ пам’яті для Mac серії M.

Користувачі Linux захочуть спочатку встановити найновіший пропрієтарний драйвер Nvidia і, можливо, двійкові файли CUDA. Там є додаткова інформація про це налаштування тут.

Якщо ви використовуєте графічний процесор Radeon серії 7000 або новіший, AMD має повний посібник із запуску LLM у вашій системі, який ви можете знайти тут.

Хороша новина полягає в тому, що якщо у вас немає підтримуваної відеокарти, Ollama все одно працюватиме на сумісному з AVX2 процесорі, хоча й набагато повільніше, ніж якби у вас підтримувався графічний процесор. І хоча рекомендовано 16 ГБ пам’яті, можливо, ви зможете обійтися з меншим обсягом, вибравши квантовану модель — докладніше про це за хвилину.

Встановлення Ollama

Встановлення Ollama досить просте, незалежно від вашої базової операційної системи. Це відкритий код, який ви можете перевірити тут.

Для тих, хто використовує Windows або Mac OS, голова ollama.com завантажте та встановіть його, як і будь-яку іншу програму.

Для тих, хто використовує Linux, це ще простіше: просто запустіть цей один лайнер — ви знайдете інструкції зі встановлення вручну тут, хочеш — і в перегони.

curl -fsSL https://ollama.com/install.sh | ш

Установка вашої першої моделі

Незалежно від вашої операційної системи, робота з Ollama практично однакова. Оллама рекомендує почати з Лама 2 7B, нейронної мережі на основі семи мільярдів параметрів, але для цього посібника ми розглянемо Містраль 7Б оскільки він досить потужний і був джерелом деяких спір в останні тижні.

Почніть із відкриття PowerShell або емулятора терміналу та виконання такої команди, щоб завантажити та запустити модель у режимі інтерактивного чату.

ollama run mistral

Після завантаження ви перейдете до підказки чату, де зможете почати взаємодію з моделлю, як у ChatGPT, Copilot або Google Gemini.

LLM, як-от Mistral 7B, працюють напрочуд добре на цьому 2-річному M1 Max MacBook Pro – Натисніть, щоб збільшити

Якщо ви нічого не отримуєте, можливо, вам доведеться спочатку запустити Ollama з меню «Пуск» у Windows або папки програм на Mac.

Моделі, теги та квантування

Mistal 7B є лише одним із кількох LLM, включаючи інші версії моделі, які доступні за допомогою Ollama. Ви можете знайти повний список разом із інструкціями щодо запуску кожного тут, але загальний синтаксис виглядає приблизно так:

ollama запустіть ім'я моделі: тег моделі

Теги моделі використовуються для визначення версії моделі, яку ви хочете завантажити. Якщо ви залишите його вимкненим, Оллама припустить, що вам потрібна остання версія. З нашого досвіду це, як правило, 4-бітна квантована версія моделі.

Якщо, наприклад, ви хочете запустити Meta Llama2 7B на FP16, це виглядатиме так:

ollama запустити llama2:7b-chat-fp16

Але перш ніж спробувати це, ви можете ще раз перевірити, що у вашій системі достатньо пам’яті. У нашому попередньому прикладі з Mistral використовувалося 4-бітне квантування, що означає, що моделі потрібно півгігабайта пам’яті на кожен 1 мільярд параметрів. І не забувайте: він має сім мільярдів параметрів.

Квантування — це техніка, яка використовується для стиснення моделі шляхом перетворення її вагових коефіцієнтів і активацій на нижчу точність. Це дозволяє Mistral 7B працювати в межах 4 ГБ графічного процесора або системної оперативної пам’яті, як правило, з мінімальною втратою якості виведення, хоча ваш пробіг може відрізнятися.

Наведений вище приклад Llama 2 7B працює з половинною точністю (FP16). У результаті вам фактично знадобиться 2 ГБ пам’яті на мільярд параметрів, що в даному випадку становить трохи більше 14 ГБ. Якщо у вас немає новішого графічного процесора з 16 ГБ або більше vRAM, у вас може не вистачити ресурсів для запуску моделі з такою точністю.

Керуючий Ollama

Керування, оновлення та видалення встановлених моделей за допомогою Ollama повинно відчувати себе як вдома для всіх, хто раніше використовував такі речі, як Docker CLI.

У цьому розділі ми розглянемо кілька поширених завдань, які ви можете виконати.

Щоб отримати список встановлених моделей, виконайте:

список олама

Щоб видалити модель, виконайте:

ollama rm назва моделі: тег моделі

Щоб отримати або оновити існуючу модель, запустіть:

ollama pull назва моделі: тег моделі

Додаткові команди Ollama можна знайти, виконавши:

оллама --допомога

Як ми зазначали раніше, Ollama є лише одним із багатьох фреймворків для запуску та тестування локальних LLM. Якщо ви зіткнетеся з цим, вам може пощастити більше з іншими. І ні, штучний інтелект це не написав.

Реєстр має на меті надати вам більше інформації про використання магістерських програм у найближчому майбутньому, тож не забудьте поділитися своїми гострими запитаннями про AI PC у розділі коментарів. І не забувайте про безпека ланцюга поставок. ®