

РАГ није увек довољно брз или довољно интелигентан за модерне агентске АИ радне токове. Како тимови прелазе са краткотрајних цхатбота на дуготрајне агенте са тешким алатима уграђеним у производне системе, та ограничења постају све теже заобићи.
Као одговор, тимови експериментишу са алтернативним меморијским архитектурама — које се понекад називају контекстуална меморија или агентска меморија — које дају приоритет упорности и стабилности у односу на динамичко проналажење.
Једна од новијих имплементација овог приступа је "опсервацијско памћење," технологија отвореног кода коју је развила Мастра, коју су основали инжењери који су претходно изградили и продали Гатсби фрамеворк за Нетлифи.
За разлику од РАГ система који динамички преузимају контекст, опсервациона меморија користи два позадинска агента (Обсервер и Рефлецтор) да компримује историју разговора у датирани дневник посматрања. Компримована запажања остају у контексту, потпуно елиминишући проналажење. За текстуални садржај систем постиже компресију од 3-6к. За радна оптерећења агената са великим бројем алата која генеришу велике излазе, односи компресије достижу 5-40к.
Компромис је у томе што опсервациона меморија даје приоритет ономе што је агент већ видео и одлучио у односу на претрагу ширег екстерног корпуса, што га чини мање погодним за отворено откривање знања или случајеве употребе који захтевају усаглашеност.
Систем је постигао 94,87% на ЛонгМемЕвал-у користећи ГПТ-5-мини, уз одржавање потпуно стабилног прозора контекста који се може кеширати. На стандардном ГПТ-4о моделу, опсервациона меморија је постигла 84,23% у поређењу са Мастрином сопственом РАГ имплементацијом на 80,05%.
"Има ову сјајну карактеристику да је и једноставнији и моћнији, као да има боље резултате на мерилима," Сам Бхагват, суоснивач и извршни директор компаније Мастра, рекао је за ВентуреБеат.
Како то функционише: Два агента компресују историју у запажања
Архитектура је једноставнија од традиционалних меморијских система, али даје боље резултате.
Меморија посматрања дели контекстни прозор на два блока. Први садржи запажања — компресоване белешке са датумом извучене из претходних разговора. Други садржи необрађену историју порука из тренутне сесије.
Два позадинска агента управљају процесом компресије. Када незапажене поруке достигну 30.000 токена (подесиво), агент Обсервер их компресује у нова запажања и додаје их првом блоку. Оригиналне поруке се испуштају. Када запажања достигну 40.000 токена (такође се могу конфигурисати), Рефлецтор агент реструктурира и сажима евиденцију посматрања, комбинујући повезане ставке и уклањајући замењене информације.
"Начин на који на неки начин компримујете ове поруке током времена је да заправо само добијате поруке, а онда имате агента да каже: ‘ОК, које су кључне ствари које треба запамтити из овог скупа порука?’" Бхагват је рекао. "Некако га компримујете, а онда добијете још 30.000 токена, и компримујете то."
Формат је заснован на тексту, а не на структурираним објектима. Нису потребне векторске базе података или базе података графова.
Стабилни контекстни прозори смањују трошкове токена до 10 пута
Економија опсервационе меморије долази од брзог кеширања. Антхропиц, ОпенАИ и други провајдери смањују трошкове токена за 4-10 пута за кеширане упите у односу на оне који нису кеширани. Већина меморијских система не може да искористи ово јер мења промпт на сваком кораку убацивањем динамички преузетог контекста, што поништава кеш меморију. За производне тимове, та нестабилност се директно претвара у непредвидиве криве трошкова и оптерећење агената које је теже буџетирати.
Опсервационо памћење одржава контекст стабилним. Блок за посматрање је само за додавање док се рефлексија не покрене, што значи да системски промпт и постојећа запажања формирају конзистентан префикс који се може кеширати у многим круговима. Поруке се додају у необрађени блок историје све док се не достигне праг од 30.000 токена. Сваки потез пре тога је пун погодак у кеш меморији.
Када се посматрање покрене, поруке се замењују новим запажањима која се додају постојећем блоку посматрања. Префикс за посматрање остаје доследан, тако да систем и даље добија делимичан погодак у кеш меморији. Само током рефлексије (које се покреће ретко) цео кеш је поништен.
Просечна величина контекстног прозора за Мастрино тестирање ЛонгМемЕвал бенцхмарк-а била је око 30.000 токена, далеко мање него што би захтевала цела историја разговора.
Зашто се ово разликује од традиционалног сабијања
Већина агената за кодирање користи збијање за управљање дугим контекстом. Сажимање омогућава да се контекстни прозор попуни до краја, а затим компресује целу историју у резиме када је пред преливањем. Агент наставља, прозор се поново попуњава и процес се понавља.
Сажимање производи резимее у стилу документације. Она обухвата суштину онога што се догодило, али губи конкретне догађаје, одлуке и детаље. Компресија се дешава у великим серијама, што сваки пролаз чини рачунарски скупим. То ради на људској читљивости, али често уклања специфичне одлуке и интеракције алата које агенти морају да делују доследно током времена.
Обсервер, с друге стране, ради чешће, обрађујући мање комаде. Уместо резимирања разговора, он производи дневник одлука заснован на догађајима — структурирану листу датираних, приоритетних запажања о томе шта се конкретно догодило. Сваки циклус посматрања обрађује мање контекста и ефикасније га компресује.
Дневник се никада не сажима у блоб. Чак и током рефлексије, Рефлектор реорганизује и сажима запажања како би пронашао везе и избацио сувишне податке. Али структура заснована на догађајима и даље постоји. Резултат се чита као дневник одлука и акција, а не као документација.
Случајеви коришћења предузећа: Дуготрајни разговори са агентима
Купци компаније Мастра обухватају неколико категорија. Неки праве чет-ботове у апликацији за ЦМС платформе као што су Санити или Цонтентфул. Други креирају АИ СРЕ системе који помажу инжењерским тимовима да тријају упозорења. Агенти за обраду докумената баве се папирологијом за традиционална предузећа која се крећу ка аутоматизацији.
Оно што ови случајеви коришћења деле је потреба за дуготрајним разговорима који одржавају контекст током недеља или месеци. Агент уграђен у систем за управљање садржајем треба да запамти да је пре три недеље корисник тражио одређени формат извештаја. СРЕ агент треба да прати која упозорења су истражена и које су одлуке донете.
"Један од великих циљева за 2025. и 2026. је изградња агента унутар њихове веб апликације," Бхагват је рекао о Б2Б СааС компанијама. "Тај агент треба да буде у стању да се сети да сте ме, отприлике, пре три недеље питали о овој ствари, или сте рекли да желите извештај о оваквом типу садржаја или приказима сегментираним према овом показатељу."
У тим сценаријима, меморија престаје да буде оптимизација и постаје услов за производ — корисници одмах примећују када агенти забораве претходне одлуке или преференције.
Опсервационо памћење држи месецима историје разговора присутним и доступним. Агент може да одговори док памти цео контекст, без да захтева од корисника да поново објашњава преференције или претходне одлуке.
Систем је испоручен као део Мастре 1.0 и сада је доступан. Тим је ове недеље објавио додатке за ЛангЦхаин, Верцелов АИ СДК и друге оквире, омогућавајући програмерима да користе опсервациону меморију изван Мастра екосистема.
Шта то значи за производне АИ системе
Опсервациона меморија нуди другачији архитектонски приступ од векторске базе података и РАГ цевовода који доминирају тренутним имплементацијама. Једноставнија архитектура (базирана на тексту, без специјализованих база података) олакшава отклањање грешака и одржавање. Стабилни контекстни прозор омогућава агресивно кеширање које смањује трошкове. Референтне перформансе сугеришу да приступ може да функционише на великом нивоу.
За тимове предузећа који процењују приступе меморији, кључна питања су:
-
Колико контекста ваши агенти треба да одржавају током свих сесија?
-
Која је ваша толеранција за компресију са губицима у односу на претрагу целог корпуса?
-
Да ли вам је потребно динамичко проналажење које РАГ пружа или би стабилан контекст функционисао боље?
-
Да ли су ваши агенти преоптерећени алатима и генеришу велике количине излаза за које је потребна компресија?
Одговори одређују да ли опсервациона меморија одговара вашем случају употребе. Бхагват позиционира меморију као један од највећих примитива потребних за агенте високих перформанси, поред употребе алата, оркестрације тока посла, видљивости и заштитних ограда. За пословне агенте уграђене у производе, заборављање контекста између сесија је неприхватљиво. Корисници очекују да агенти памте своје преференције, претходне одлуке и текући рад.
"Најтежа ствар за агенте за изградњу тимова је производња, која може да потраје," Бхагват је рекао. "Памћење је заиста важан део у томе, јер је једноставно узнемирујуће ако користите било коју врсту агентског алата и на неки начин му нешто кажете, а онда то једноставно заборави."
Како агенти прелазе са експеримената на уграђене системе записа, начин на који тимови дизајнирају меморију може бити важан колико и модел који изаберу.


