GPT-5: 4 нови функции, които искаме да видим - |Обяснение на технологията|

бързи връзки

Какво представлява GPT-5 на OpenAI?

Повече мултимодалност

По-голям и по-ефективен контекстен прозорец

GPT агенти

По-малко халюцинации

GPT-4 на OpenAI в момента е най-добрият генеративен AI инструмент на пазара, но това не означава, че не гледаме към бъдещето. С главния изпълнителен директор на OpenAI Сам Алтман, който редовно пуска намеци за GPT-5, изглежда вероятно скоро да видим нов, надграден AI модел.

MUO Видео на деня ПРЕВЪРТЕТЕ, ЗА ДА ПРОДЪЛЖИТЕ СЪС СЪДЪРЖАНИЕТО

Поне на това се надяваме. Няма конкретна дата за стартиране на GPT-5 и повечето от това, което мислим, че знаем, идва от събирането на друга информация и опитите за свързване на точките.

Все пак, независимо от крайната дата, има няколко ключови функции, които искаме да видим, когато GPT-5 стартира.

Какво представлява GPT-5 на OpenAI?

GPT-5 е дългоочакваният наследник на GPT-4 AI модела на OpenAI, който се очаква да бъде най-мощният генеративен модел на пазара. Въпреки че в момента няма официална дата за пускане на GPT-5, има индикации, че може да бъде пуснат още през лятото на 2024 г. Към момента са известни много малко подробности за модела, но могат да се кажат няколко неща с известно количество сигурност:

OpenAI е регистрирала търговска марка за името с Служба за патенти и търговски марки на Съединените щати .
Няколко ръководители на OpenAI са обсъдили или намекнали за възможните възможности на модела.
Изпълнителният директор на OpenAI Сам Алтман многократно спомена модела през март 2024 г Интервю в YouTube с Лекс Фридман.

Всичко това сочи към една вълнуваща реалност: GPT-5 идва! Това каза, че доста неща са спекулации в този момент. Но има няколко неща, които се надяваме да видим и сме доста уверени, че ще видим в модела. Ето някои от тях:

1. Повече мултимодалност

OpenAI Sora генератор на текст към видео

Едно от най-вълнуващите подобрения на GPT семейството от AI модели е мултимодалността. За по-голяма яснота, мултимодалността е способността на AI модел да обработва повече от текст, но и други видове входове като изображения, аудио и видео. Мултимодалността ще бъде важен еталон за напредък за семейството модели GPT в бъдеще.

списък на каналите на Android tv box

Тъй като GPT-4 вече е опитен в обработката на входове и изходи на изображения, подобренията, обхващащи аудио и видео обработката, са следващият крайъгълен камък за OpenAI, а GPT-5 е добро място за начало. Google вече прави сериозен напредък с този вид мултимодалност със своя модел Gemini AI. Би било нехарактерно за OpenAI да не отговаря. Но, разбира се, не ни вярвайте на думата. В неговия Unconfuse Me подкаст [PDF препис], Бил Гейтс попита главния изпълнителен директор на OpenAI Сам Олтман какви етапи предвижда за серията GPT през следващите две години. Първият му отговор? Обработка на видео.

Така че за GPT-5 очакваме да можем да си играем с видеоклипове – да качваме видеоклипове като подкани, да създаваме видеоклипове в движение, да редактираме видеоклипове с текстови подкани, да извличаме сегменти от видеоклипове и да намираме конкретни сцени от големи видео файлове. Очакваме да можем да правим подобни неща с аудио файлове. Това е голямо искане, да. Но като се има предвид колко бързо е развитието на AI, това е много разумно очакване.

2. По-голям и по-ефективен контекстен прозорец

Ралф Джетнер Борха/ flickr

Въпреки че е един от най-сложните AI модели на пазара, GPT фамилията AI модели има един от най-малките контекстни прозорци. Например, Claude 3 на Anthropic може да се похвали с контекстен прозорец от 200 000 токена , докато Gemini на Google може да обработва зашеметяващите 1 милион жетона (128 000 за стандартна употреба). За разлика от това, GPT-4 има сравнително по-малък контекстен прозорец от 128 000 токена, с приблизително 32 000 токена или по-малко реалистично налични за използване на интерфейси като ChatGPT.

С навлизането на усъвършенствана мултимодалност, подобрен контекстен прозорец е почти неизбежен. Може би увеличение с коефициент две или четири би било достатъчно, но се надяваме да видим нещо като коефициент десет. Това ще позволи на GPT-5 да обработва много повече информация по много по-ефективен начин. По-големият контекстен прозорец не винаги означава по-добър. Така че, вместо просто да увеличаваме прозореца на контекста, бихме искали да видим повишена ефективност на обработката на контекста.

Виждате ли, един модел може да има контекстен прозорец с един милион токени (капацитет от около 700 000 думи), но да не успява да създаде изчерпателно резюме, когато бъде помолен да обобщи книга с 500 000 думи, защото не може да обработи адекватно целия контекст, въпреки че има капацитет за това на теория. Това, че можете да прочетете книга от 500 000 думи, не означава, че можете да си спомните всичко в нея или да я обработите разумно.

пощенско приложение за windows 10 срещу outlook

3. GPT агенти

Коширо К/ Shutterstock

Може би една от най-вълнуващите възможности за издание на GPT-5 е дебютът на GPT агенти. Въпреки че терминът „променящ играта“ вероятно е бил прекалено използван в AI, GPT агентите наистина биха променили играта във всеки практически смисъл. Но колко променящо играта би било това?

В момента AI модели като GPT-4 могат да ви помогнат да изпълните задача. Те могат да напишат имейл, да се пошегуват, да решат математическа задача или да напишат публикация в блог за вас. Въпреки това, те могат да изпълняват само тази конкретна задача и не могат да изпълнят набор от свързани задачи, които биха били необходими, за да завършите вашата работа.

Да приемем, че сте уеб разработчик. Като част от работата ви се очаква да правите много неща: дизайн, писане на код, отстраняване на неизправности и много повече. Понастоящем можете да делегирате само част от тези задачи на AI модели наведнъж. Може би можете да помолите модела GPT-4 да напише код за началната страница, след това да го помолите да направи това за страницата за контакти и след това за страницата About и т.н. Ще трябва да изпълнявате тези задачи итеративно. Има и задачи, които моделите просто не могат да изпълнят.

Този итеративен процес на подсказване на AI модели за конкретни подзадачи отнема време и е неефективен. В този сценарий вие – уеб разработчикът – сте човешкият агент, отговорен за координирането и подканването на AI моделите една задача в даден момент, докато не изпълните цял набор от свързани задачи.

изработка на фотоколаж за фейсбук

GPT Agents обещава специализирани експертни ботове, координирани от, надяваме се, GPT-5, способни да се самоподсказват и да се справят автономно с всички подмножества на сложна задача. Акцент върху „самоподсказване“ и „автономно“.

Така че, ако GPT-5 се доставя с GPT агенти, можете да го помолите да „изгради уебсайт за портфолио за Максуел Тимъти“, вместо просто „да ми напишете код за началната страница“. Тогава GPT-5 теоретично ще може да се самоподсказва, като извиква експертни AI агенти, за да се справят с различните подзадачи, необходими за изграждането на уебсайт. Може да извика един GPT, за да изтрие мрежата за информация за Максуел Тимъти, друг агент, за да напише кода за различни страници, друг агент, за да генерира и оптимизира изображения, и дори друг AI агент, за да внедри сайта, всичко това без необходимост от повтарящи се човешки подканване.

4. По-малко халюцинации

Въпреки че OpenAI измина дълъг път в справянето с халюцинациите в своите AI модели, истинският лакмус за GPT-5 ще бъде способността му да се справи с постоянния проблем с халюцинациите, който задържа широкото приемане на AI при високи залози, критични за безопасността области като здравеопазване, авиация и киберсигурност. Това са всички области, които биха имали голяма полза от интензивното участие на AI, но в момента избягват значително приемане.

За по-голяма яснота, халюцинациите в този контекст се отнасят до ситуации, при които AI моделът генерира и представя правдоподобно звучаща, но напълно изфабрикувана информация с висока степен на увереност.

Представете си сценарий, при който GPT-4 е интегриран в диагностична система за анализиране на симптоми на пациенти и медицински доклади. Една халюцинация може да накара AI уверено да постави неправилна диагноза или да препоръча потенциално опасен курс на лечение въз основа на въображаеми факти и фалшива логика. Последствията от такава грешка в областта на медицината могат да бъдат катастрофални.

Подобни резерви важат и за други области с големи последици, като авиация, ядрена енергия, морски операции и киберсигурност. Не очакваме GPT-5 да реши напълно проблема с халюцинациите, но очакваме значително да намали възможността от подобни инциденти.

Докато с нетърпение очакваме официалното пускане на този дългоочакван AI модел, едно нещо е сигурно: GPT-5 има потенциала да предефинира границите на това, което е възможно с изкуствения интелект, поставяйки началото на нова ера на сътрудничество между човек и машина и иновации.