Руки на З огляду на всі розмови про масивні навчальні кластери машинного навчання та комп’ютери зі штучним інтелектом, вас пробачать, якщо ви подумаєте, що вам потрібне якесь спеціальне обладнання, щоб працювати з великими мовними моделями (LLM), що генерують текст і код, удома.
Насправді є хороший шанс, що настільна система, на якій ви це читаєте, є такою більш ніж здатний запуску широкого спектру LLM, у тому числі чат-ботів, таких як Mistral, або генераторів вихідного коду, таких як Codellama.
Фактично, за допомогою відкритих інструментів, таких як Ollama, LM Suite і Llama.cpp, відносно легко запустити ці моделі у вашій системі.
В інтересах простоти та сумісності між платформами ми розглянемо Оллама, який після встановлення працює приблизно однаково в Windows, Linux і Mac.
Трохи про продуктивність, сумісність і підтримку GPU AMD:
Загалом, великі мовні моделі, такі як Mistral або Llama 2, найкраще працюють із спеціальними прискорювачами. Є причина, через яку оператори центрів обробки даних купують і розгортають графічні процесори в кластерах із 10,000 XNUMX або більше, хоча вам знадобиться найменша частка таких ресурсів.
Ollama пропонує власну підтримку для графічних процесорів M-серії Nvidia та Apple. Графічні процесори Nvidia з принаймні 4 ГБ пам’яті повинні працювати. Ми тестували з 12 ГБ RTX 3060, хоча ми рекомендуємо принаймні 16 ГБ пам’яті для Mac серії M.
Користувачі Linux захочуть спочатку встановити найновіший пропрієтарний драйвер Nvidia і, можливо, двійкові файли CUDA. Там є додаткова інформація про це налаштування тут.
Якщо ви використовуєте графічний процесор Radeon серії 7000 або новіший, AMD має повний посібник із запуску LLM у вашій системі, який ви можете знайти тут.
Хороша новина полягає в тому, що якщо у вас немає підтримуваної відеокарти, Ollama все одно працюватиме на сумісному з AVX2 процесорі, хоча й набагато повільніше, ніж якби у вас підтримувався графічний процесор. І хоча рекомендовано 16 ГБ пам’яті, можливо, ви зможете обійтися з меншим обсягом, вибравши квантовану модель — докладніше про це за хвилину.
Встановлення Ollama
Встановлення Ollama досить просте, незалежно від вашої базової операційної системи. Це відкритий код, який ви можете перевірити тут.
Для тих, хто використовує Windows або Mac OS, голова ollama.com завантажте та встановіть його, як і будь-яку іншу програму.
Для тих, хто використовує Linux, це ще простіше: просто запустіть цей один лайнер — ви знайдете інструкції зі встановлення вручну тут, хочеш — і в перегони.
curl -fsSL https://ollama.com/install.sh | ш
Установка вашої першої моделі
Незалежно від вашої операційної системи, робота з Ollama практично однакова. Оллама рекомендує почати з Лама 2 7B, нейронної мережі на основі семи мільярдів параметрів, але для цього посібника ми розглянемо Містраль 7Б оскільки він досить потужний і був джерелом деяких спір в останні тижні.
Почніть із відкриття PowerShell або емулятора терміналу та виконання такої команди, щоб завантажити та запустити модель у режимі інтерактивного чату.
ollama run mistral
Після завантаження ви перейдете до підказки чату, де зможете почати взаємодію з моделлю, як у ChatGPT, Copilot або Google Gemini.
LLM, як-от Mistral 7B, працюють напрочуд добре на цьому 2-річному M1 Max MacBook Pro – Натисніть, щоб збільшити
Якщо ви нічого не отримуєте, можливо, вам доведеться спочатку запустити Ollama з меню «Пуск» у Windows або папки програм на Mac.
Моделі, теги та квантування
Mistal 7B є лише одним із кількох LLM, включаючи інші версії моделі, які доступні за допомогою Ollama. Ви можете знайти повний список разом із інструкціями щодо запуску кожного тут, але загальний синтаксис виглядає приблизно так:
ollama запустіть ім'я моделі: тег моделі
Теги моделі використовуються для визначення версії моделі, яку ви хочете завантажити. Якщо ви залишите його вимкненим, Оллама припустить, що вам потрібна остання версія. З нашого досвіду це, як правило, 4-бітна квантована версія моделі.
Якщо, наприклад, ви хочете запустити Meta Llama2 7B на FP16, це виглядатиме так:
ollama запустити llama2:7b-chat-fp16
Але перш ніж спробувати це, ви можете ще раз перевірити, що у вашій системі достатньо пам’яті. У нашому попередньому прикладі з Mistral використовувалося 4-бітне квантування, що означає, що моделі потрібно півгігабайта пам’яті на кожен 1 мільярд параметрів. І не забувайте: він має сім мільярдів параметрів.
Квантування — це техніка, яка використовується для стиснення моделі шляхом перетворення її вагових коефіцієнтів і активацій на нижчу точність. Це дозволяє Mistral 7B працювати в межах 4 ГБ графічного процесора або системної оперативної пам’яті, як правило, з мінімальною втратою якості виведення, хоча ваш пробіг може відрізнятися.
Наведений вище приклад Llama 2 7B працює з половинною точністю (FP16). У результаті вам фактично знадобиться 2 ГБ пам’яті на мільярд параметрів, що в даному випадку становить трохи більше 14 ГБ. Якщо у вас немає новішого графічного процесора з 16 ГБ або більше vRAM, у вас може не вистачити ресурсів для запуску моделі з такою точністю.
Керуючий Ollama
Керування, оновлення та видалення встановлених моделей за допомогою Ollama повинно відчувати себе як вдома для всіх, хто раніше використовував такі речі, як Docker CLI.
У цьому розділі ми розглянемо кілька поширених завдань, які ви можете виконати.
Щоб отримати список встановлених моделей, виконайте:
список олама
Щоб видалити модель, виконайте:
ollama rm назва моделі: тег моделі
Щоб отримати або оновити існуючу модель, запустіть:
ollama pull назва моделі: тег моделі
Додаткові команди Ollama можна знайти, виконавши:
оллама --допомога
Як ми зазначали раніше, Ollama є лише одним із багатьох фреймворків для запуску та тестування локальних LLM. Якщо ви зіткнетеся з цим, вам може пощастити більше з іншими. І ні, штучний інтелект це не написав.
Реєстр має на меті надати вам більше інформації про використання магістерських програм у найближчому майбутньому, тож не забудьте поділитися своїми гострими запитаннями про AI PC у розділі коментарів. І не забувайте про безпека ланцюга поставок. ®
- Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
- PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
- PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
- ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
- PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
- джерело: https://go.theregister.com/feed/www.theregister.com/2024/03/17/ai_pc_local_llm/
- : має
- :є
- : ні
- :де
- $UP
- 000
- 1
- 10
- 2%
- a
- Здатний
- МЕНЮ
- вище
- прискорювачі
- доступною
- через
- активації
- насправді
- AI
- Цілі
- ВСІ
- дозволяє
- по
- хоча
- AMD
- an
- та
- будь-який
- будь
- все
- додаток
- застосування
- ЕСТЬ
- AS
- припустити
- At
- доступний
- база
- BE
- було
- перед тим
- КРАЩЕ
- Мільярд
- border
- боти
- приносити
- спалювання
- але
- Купівля
- by
- CAN
- здатний
- карта
- випадок
- ланцюг
- шанс
- чат
- ChatGPT
- перевірка
- cli
- клацання
- CO
- код
- коментарі
- загальний
- сумісність
- стискати
- перетворення
- копілот
- центральний процесор
- Крос-платформна
- Дата-центр
- присвячених
- розгортання
- робочий стіл
- DID
- Docker
- Дон
- Не знаю
- подвійний
- скачати
- водій
- впав
- кожен
- Раніше
- легко
- досить
- Навіть
- Кожен
- приклад
- виконувати
- виконання
- існуючий
- досвід
- факт
- почувати
- кілька
- знайти
- Перший
- після
- для
- Вперед
- знайдений
- фракція
- каркаси
- від
- Повний
- майбутнє
- Близнюки
- Загальне
- генератори
- отримати
- отримання
- GIF
- Go
- йде
- буде
- добре
- є
- GPU
- Графічні процесори
- графіка
- керівництво
- було
- Половина
- апаратні засоби
- Мати
- голова
- Головна
- Як
- How To
- HTTPS
- if
- in
- У тому числі
- інформація
- встановлювати
- установка
- встановлений
- інструкції
- взаємодіючих
- інтерактивний
- інтерес
- IT
- ЙОГО
- просто
- тільки один
- Дитина
- етикетка
- мова
- великий
- в значній мірі
- останній
- запуск
- найменш
- Залишати
- менше
- як
- Linux
- список
- ll
- Лама
- llm
- місцевий
- локально
- подивитися
- виглядає як
- шукати
- серія
- знизити
- удача
- макінтош
- MacBook
- керівництво
- багато
- масивний
- Макс
- Може..
- засоби
- пам'ять
- Меню
- може бути
- мінімальний
- хвилин
- протокол
- режим
- модель
- Моделі
- більше
- рідний
- Близько
- Необхідність
- потреби
- мережу
- Нейронний
- нейронної мережі
- новіший
- новини
- немає
- зазначив,
- Nvidia
- of
- від
- Пропозиції
- on
- один раз
- ONE
- відкрити
- з відкритим вихідним кодом
- відкриття
- відкрито
- операційний
- операційна система
- Оператори
- вибравши
- or
- OS
- Інше
- інші
- наші
- з
- вихід
- над
- параметри
- PC
- ПК
- для
- продуктивність
- plato
- Інформація про дані Платона
- PlatoData
- Play
- PowerShell
- Точність
- досить
- попередній
- Pro
- ймовірно
- власником
- якість
- питань
- скачки
- Оперативна пам'ять
- діапазон
- читання
- Реальність
- причина
- останній
- рекомендувати
- рекомендований
- рекомендує
- Незалежно
- щодо
- видаляти
- видалення
- ресурси
- результат
- право
- RTX
- RTX 3060
- прогін
- біг
- пробіжки
- s
- жертвувати
- то ж
- розділ
- установка
- сім
- кілька
- Поділитись
- Повинен
- простий
- простота
- з
- повільніше
- So
- деякі
- що в сім'ї щось
- Source
- вихідні
- спеціальний
- старт
- Починаючи
- Як і раніше
- прямий
- такі
- набір
- підтримка
- Підтриманий
- Переконайтеся
- дивно
- синтаксис
- система
- T
- взяття
- балаканина
- завдання
- техніка
- має тенденцію
- термінал
- перевірений
- Тестування
- ніж
- Що
- Команда
- Джерело
- Їх
- Там.
- Ці
- речі
- Мислення
- це
- ті
- хоча?
- до
- інструменти
- Навчання
- біда
- намагатися
- якщо не
- Оновити
- оновлення
- використовуваний
- користувачі
- використання
- зазвичай
- використовує
- змінюватися
- версія
- версії
- хотіти
- хотів
- we
- тижня
- ДОБРЕ
- який
- в той час як
- всі
- широкий
- Широкий діапазон
- волі
- windows
- з
- в
- слово
- Work
- робочий
- працює
- запис
- ви
- вашу
- зефірнет