Как да изтеглите и инсталирате Llama 2 локално - |Обяснение на технологията|Направи си сам|

Читатели като вас помагат в подкрепа на MUO. Когато правите покупка чрез връзки на нашия сайт, ние може да спечелим комисионна за партньор. Прочетете още.

Meta пусна Llama 2 през лятото на 2023 г. Новата версия на Llama е фино настроена с 40% повече токени от оригиналния модел Llama, удвоявайки дължината на контекста си и значително превъзхождайки другите налични модели с отворен код. Най-бързият и лесен начин за достъп до Llama 2 е чрез API чрез онлайн платформа. Въпреки това, ако искате най-доброто изживяване, инсталирането и зареждането на Llama 2 директно на вашия компютър е най-доброто.

Имайки това предвид, ние създадохме ръководство стъпка по стъпка за това как да използвате Text-Generation-WebUI за зареждане на квантован Llama 2 LLM локално на вашия компютър.

Защо да инсталирате Llama 2 локално

Има много причини, поради които хората избират да стартират директно Llama 2. Някои го правят от съображения за поверителност, други за персонализиране, а други за офлайн възможности. Ако проучвате, настройвате фино или интегрирате Llama 2 за вашите проекти, тогава достъпът до Llama 2 чрез API може да не е за вас. Смисълът на стартирането на LLM локално на вашия компютър е да се намали зависимостта от AI инструменти на трети страни и използвайте AI по всяко време и навсякъде, без да се притеснявате от изтичане на потенциално чувствителни данни към компании и други организации.

С това казано, нека започнем с ръководството стъпка по стъпка за локално инсталиране на Llama 2.

можете ли да използвате два различни вида овен

Стъпка 1: Инсталирайте Visual Studio 2019 Build Tool

За да опростим нещата, ще използваме инсталатор с едно кликване за Text-Generation-WebUI (програмата, използвана за зареждане на Llama 2 с GUI). Въпреки това, за да работи този инсталатор, трябва да изтеглите Visual Studio 2019 Build Tool и да инсталирате необходимите ресурси.

Изтегли: Visual Studio 2019 (Безплатно)

Продължете и изтеглете общностното издание на софтуера.
Сега инсталирайте Visual Studio 2019, след което отворете софтуера. След отваряне поставете отметка в квадратчето Разработка на настолен компютър с C++ и натиснете инсталирай.

Сега, след като сте инсталирали Desktop development с C++, е време да изтеглите инсталатора с едно щракване Text-Generation-WebUI.

Стъпка 2: Инсталирайте Text-Generation-WebUI

Инсталаторът с едно щракване Text-Generation-WebUI е скрипт, който автоматично създава необходимите папки и настройва Conda средата и всички необходими изисквания за стартиране на AI модел.

За да инсталирате скрипта, изтеглете инсталатора с едно щракване, като щракнете върху Код > Изтеглете ZIP.

Изтегли: Инсталатор за генериране на текст-WebUI (Безплатно)

След като го изтеглите, извлечете ZIP файла в предпочитаното от вас местоположение, след което отворете извлечената папка.
В папката превъртете надолу и потърсете подходящата стартова програма за вашата операционна система. Стартирайте програмите, като щракнете двукратно върху съответния скрипт.
- Ако сте на Windows, изберете стартови_прозорци пакетен файл
- за MacOS изберете start_macos черупка
- за Linux, start_linux shell скрипт.
Вашата антивирусна програма може да създаде предупреждение; това е добре. Подканата е просто антивирусна фалшиво положителна за изпълнение на пакетен файл или скрипт. Кликнете върху Бягай все пак .
Ще се отвори терминал и ще започне настройката. В началото настройката ще спре на пауза и ще ви попита какъв графичен процесор използвате. Изберете подходящия тип GPU, инсталиран на вашия компютър, и натиснете enter. За тези без специална графична карта изберете Няма (искам да стартирам модели в режим CPU) . Имайте предвид, че работата в режим CPU е много по-бавна в сравнение с работата на модела със специален GPU.
След като настройката приключи, вече можете да стартирате локално Text-Generation-WebUI. Можете да го направите, като отворите предпочитания от вас уеб браузър и въведете предоставения IP адрес в URL адреса.
WebUI вече е готов за използване.

Програмата обаче е само модел за зареждане. Нека изтеглим Llama 2 за стартиране на зареждащия модел.

Стъпка 3: Изтеглете модела Llama 2

Има доста неща, които трябва да имате предвид, когато решавате от коя итерация на Llama 2 се нуждаете. Те включват параметри, квантуване, хардуерна оптимизация, размер и използване. Цялата тази информация ще бъде отбелязана в името на модела.

Параметри: Броят на параметрите, използвани за обучение на модела. По-големите параметри правят по-способни модели, но на цената на производителността.
Употреба: Може да бъде стандартен или чат. Моделът на чат е оптимизиран да се използва като чатбот като ChatGPT, докато стандартът е моделът по подразбиране.
Хардуерна оптимизация: Отнася се до това какъв хардуер управлява най-добре модела. GPTQ означава, че моделът е оптимизиран да работи на специален GPU, докато GGML е оптимизиран да работи на CPU.
Квантуване: Означава прецизността на теглата и активациите в модел. За извод оптимална е точност от q4.
размер: Отнася се за размера на конкретния модел.

Обърнете внимание, че някои модели може да са подредени по различен начин и може дори да нямат същия тип показана информация. Въпреки това, този тип конвенция за именуване е доста често срещана в HuggingFace Библиотека с модели, така че все още си струва да се разбере.

В този пример моделът може да бъде идентифициран като модел Llama 2 със среден размер, обучен на 13 милиарда параметъра, оптимизирани за извеждане на чат с помощта на специален процесор.

За тези, които работят на специален GPU, изберете a GPTQ модел, докато за тези, които използват процесор, изберете GGML . Ако искате да разговаряте с модела, както бихте направили с ChatGPT, изберете чат , но ако искате да експериментирате с модела с пълните му възможности, използвайте стандартен модел. Що се отнася до параметрите, знайте, че използването на по-големи модели ще осигури по-добри резултати за сметка на производителността. Аз лично бих ви препоръчал да започнете с модел 7B. Що се отнася до квантуване, използвайте q4, тъй като е само за извод.

Изтегли: GGML (Безплатно)

Изтегли: GPTQ (Безплатно)

как да получите безплатен офис 365

След като вече знаете от каква итерация на Llama 2 се нуждаете, изтеглете модела, който искате.

В моя случай, тъй като изпълнявам това на ултрабук, ще използвам GGML модел, фино настроен за чат, call-2-7b-chat-ggmlv3.q4_K_S.bin.

След като изтеглянето приключи, поставете модела текст-генериране-webui-основен > модели .

Сега, след като вашият модел е изтеглен и поставен в папката на модела, е време да конфигурирате програмата за зареждане на модела.

Стъпка 4: Конфигурирайте Text-Generation-WebUI

Сега нека започнем фазата на конфигуриране.

Още веднъж отворете Text-Generation-WebUI, като стартирате стартиране_(вашата ОС) файл (вижте предишните стъпки по-горе).
Щракнете върху разделите, разположени над GUI Модел. Щракнете върху бутона за опресняване в падащото меню на модела и изберете вашия модел.
Сега щракнете върху падащото меню на Модел товарач и изберете AutoGPTQ за тези, които използват GTPQ модел и cтрансформатори за тези, които използват GGML модел. Накрая кликнете върху Заредете за да заредите вашия модел.
За да използвате модела, отворете раздела Чат и започнете да тествате модела.

Поздравления, успешно заредихте Llama2 на вашия локален компютър!

Изпробвайте други LLM

След като вече знаете как да стартирате Llama 2 директно на вашия компютър с помощта на Text-Generation-WebUI, трябва да можете да стартирате и други LLM освен Llama. Просто помнете конвенциите за именуване на моделите и че само квантувани версии на модели (обикновено с точност q4) могат да се зареждат на обикновени компютри. Много квантувани LLM са налични на HuggingFace. Ако искате да разгледате други модели, потърсете TheBloke в библиотеката с модели на HuggingFace и трябва да намерите много налични модели.