Piękno jako ustrukturyzowana praca poznawcza — pełny rdzeń matematyczny
Oto naukowa warstwa TITI, stworzona dla czytelnika poszukującego rzeczywistego mechanizmu działania, a nie haseł reklamowych. Przedstawia ona rdzeń estetyczny silnika w sposób, w jaki fabryka publikuje wszystkie inne dane: w pełni, wraz z wzorami i jawnym określeniem tego, co model postuluje, a czego nie. Głównym założeniem jest przedefiniowanie pojęcia. Piękno nie jest traktowane jako statyczna, skalarna właściwość obiektu. Modeluje się je jako ustrukturyzowaną pracę poznawczą, jaką indukowane przez obiekt pole potencjalne wykonuje na modelu predykcyjnym obserwatora wzdłuż trajektorii na rozmaitości informacyjnej, przy ograniczonej dyssypacji i koherencji fazowej. Model jest prezentowany jako spójna struktura teoretyczna i instrument diagnostyczny — a nie jako udowodnione prawo fizyczne rządzące mózgiem. Jego cel jest operacyjny: przekształcenie doświadczenia estetycznego w mierzalne hipotezy projektowe — koszt poznawczy, ustrukturyzowaną tajemnicę, zestrojenie fazowe, zdolność interpretacyjną oraz wartość samej trajektorii.
Ontologia: obiekt, podmiot i ścieżka w przestrzeni modeli
Obiekt estetyczny — obraz, utwór muzyczny, interfejs, budynek, system marki, a nawet wzór matematyczny — nigdy nie jest oceniany jako piękny sam w sobie. Zamiast tego obiekt indukuje pole w przestrzeni wewnętrznych modeli predykcyjnych obserwatora. Podmiot nie jest przedstawiany jako stały wektor preferencji, lecz jako predykcyjny system poznawczy o wewnętrznych stanach modelu. Stan modelu jest punktem na rozmaitości,
a doświadczenie estetyczne to trajektoria tego stanu podczas interakcji obserwatora z obiektem:
To pierwszy i kluczowy krok: wartość estetyczna jest właściwością ścieżki, którą pokonuje model obserwatora, a nie samego obiektu.
Rozmaitość informacyjna i metryka Fishera-Rao
Przyjmuje się, że wewnętrzne modele obserwatora stanowią parametryczną rodzinę rozkładów, zatem przestrzeń modeli posiada naturalną geometrię statystyczną. Metryką jest macierz informacji Fishera:
Metryka ta mierzy, jak trudno jest obserwatorowi odróżnić bliskie stany predykcyjne. Między stanami, które leżą blisko siebie w metryce Fishera-Rao, można przechodzić przy niskim koszcie poznawczym; stany znacznie oddalone wymagają większej pracy. Odległość estetyczna nie jest zatem płaska — ta sama różnica wizualna może być łatwa do przyswojenia dla jednego obserwatora i trudna dla innego, ponieważ ich wewnętrzne rozmaitości mają różną krzywiznę. Odległość między dwoma stanami poznawczymi jest długością geodezyjną:
Indukowany przez obiekt potencjał estetyczny
Obiekt indukuje skalarne pole potencjału w przestrzeni modeli. W każdym stanie modelu jego wartość reprezentuje nierozstrzygnięte napięcie wolnej energii, niedopasowanie predykcyjne lub potencjał interpretacyjny, który tworzy obiekt. Można go utożsamić z wariacyjną energią swobodną modelu obserwatora względem sygnału wejściowego obiektu:
Ujęcie to celowo nie sprowadza się do zasady wolnej energii (Free Energy Principle). Zasada ta pyta o to, jak organizm minimises wolną energię w celu zachowania homeostazy; tutaj pytanie brzmi, jak obiekt kształtuje trajektorię w krajobrazie wolnej energii, aby ścieżka ta była poznawczo wartościowa, koherentna fazowo i nierozwiązana w trywialny sposób. Silnik nie premiuje najniższej możliwej wolnej energii — premiuje ustrukturyzowany ruch w bogatym krajobrazie. Siła, jaką obiekt wywiera na interpretację, jest gradientem metrycznym potencjału:
Nudny obiekt charakteryzuje się płytkim, trywialnym polem; obiekt chaotyczny — polem niespójnym; dzieło sztuki — głębokim, ustrukturyzowanym polem o wielu atraktorach.
Ustrukturyzowana tajemnica a szum
Zaskoczenie przemija — dobrze znane arcydzieło straciłoby całą wartość, gdyby piękno było tylko zaskoczeniem. Model potrzebuje więc statycznego, ale ustrukturyzowanego komponentu. Ponieważ warstwy interpretacyjne są statystycznie zależne, naiwna suma ważona prowadziłaby do podwójnego liczenia; skorygowana forma wykorzystuje łańcuchową regułę entropii:
gdzie warstwy interpretacji L_1, L_2, …, L_n niosą ze sobą kompozycyjną, symboliczną, kontekstualną, archetypową, kulturową i wyższego rzędu niepewność interpretacyjną (symbole zapisano jako L_i, a no H_i, aby uniknąć odczytania jako entropii entropii). Każdy człon warunkowy dodaje tylko tę ustrukturyzowaną niepewność, która pozostaje po uwzględnieniu niższych warstw, dzięki czemu nic nie jest liczone podwójnie. Tajemnica jest wyraźnie oddzielona od szumu. Szum to niekompresowalna losowość, która zwiększa koszt bez dodawania spójnej interpretacji; tajemnica to kompresowalna, lecz jeszcze niewyczerpana struktura, która zachęca do dalszej interpretacji:
Generatywna zdolność interpretacyjna
Niech zbiór stabilnych interpretacji generowanych przez obiekt w podmiocie będzie przestrzenią interpretacji, gdzie każda stabilna interpretacja stanowi atraktor dynamiki poznawczej obserwatora. Naiwny stosunek objętości interpretacji do złożoności generatora dąży do nieskończoności, gdy generator jest trywialny — co błędnie ukazywałoby losowe wyzwalacze skojarzeń jako nieskończenie wartościowe. Zregularyzowana forma eliminuje ten problem i premiuje spójne bogactwo:
Człony tego stosunku zostały nazwane, lecz nie są jeszcze ściśle określone: objętość interpretacji Vol(Ω) oraz złożoność generatora K_gen — niezależnie od tego, czy są realizowane jako złożoność Kołmogorowa, długość opisu/implementacji, liczba komponentów, czy miara grafu zależności — wciąż muszą zostać zoperacjonalizowane dla każdego medium. W obecnym zapisie stosunek ten stanowi poprawnie sformułowaną hipotezę, a nie gotowy estymator; końcowa ramka wyraźnie podtrzymuje to rozróżnienie.
Współczynnik koherencji penalizuje eksplozję losowych skojarzeń: wysoka wartość wymaga wielu interpretacji oraz ich ustrukturyzowanej spójności, a no wielu niepowiązanych asocjacji. Jest on znormalizowany przez charakterystyczną skalę odległości interpretacyjnej τ, dzięki czemu wykładnik jest bezwymiarowy, a średnia jest obliczana dla wszystkich par stabilnych interpretacji:
Koherencja fazowa — synchronizacja tam, gdzie ona występuje
Każda dynamiczna cecha estetyczna jest zapisywana jako złożony sygnał amplitudy i fazy. Faza nie jest tu metaforą: dopuszcza się ją tylko tam, gdzie istnieje rzeczywista synchronizacja, rytm lub oscylacja — muzyka, czas animacji, rytm przewijania, synchronizacja ruchów sakadowych, opóźnienie interakcji, czas ujawniania elementów, cykle uwagi.
Reprezentując stany dynamiczne obiektu i podmiotu w przestrzeni Hilberta, znormalizowana koherencja fazowa jest ich ograniczonym dopasowaniem iloczynu skalarnego:
W przypadku systemów dynamicznych mierzy to rzeczywiste zsynchronizowanie czasowe — w interfejsie wysoka koherencja fazowa oznacza, że ruch, pojawianie się elementów i reakcja następują dokładnie wtedy, gdy uwaga użytkownika jest gotowa na ich przyjęcie. W przypadku artefaktu static faza nie jest stosowana bezpośrednio: ujawnia się jedynie poprzez indukowaną przez artefakt trajektorię uwagi — kolejność, w jakiej oko skanuje kompozycję, a jej warstwy odsłaniają się w czasie. Tam, gdzie taka sekwencyjność uwagi nie jest mierzalna, koherencję fazową zastępuje się wyrównaniem strukturalnym, zamiast narzucać ją na nieruchomy obraz.
Sformułowanie hamiltonowskie
Przyjmując pozycję modelu poznawczego za współrzędną uogólnioną, uogólniony pęd poznawczy jest prędkością ważoną lokalną krzywizną rozmaitości — zatem mały ruch pojęciowy w obszarze o dużej krzywiźnie może nieść ze sobą duży pęd:
Kinetyczna energia poznawcza to energia ruchu modelu — wysokie wartości odpowiadają szybkiej restrukturyzacji predykcji obserwatora. Jest to ta sama energia zapisana na dwa równoważne sposoby: z metryką działającą na prędkości (kowariantna g_{ij}) oraz — po sprowadzeniu prędkości do sprzężonego pędu powyżej — z metryką inverse działającą na pędy (kontrawariantna g^{ij}). Górny indeks w zapisie pędu jest dokładnie tym, co znosi dolny indeks w p_i:
Potencjał estetyczny łączy pole obiektu z tajemnicą i koherencją fazową; znaki ujemne oznaczają, że wysoka tajemnica i wysoka koherencja fazowa tworzą studnie atrakcyjne, które wciągają procesy poznawcze w głębsze zaangażowanie:
Hamiltonian estetyczny jest sumą członów kinetycznych i potencjalnych — to diagnostyczna energia stanu estetycznego:
W idealnym przypadku bezdyssypacyjnym dynamika podlega równaniom Hamiltona; jest to idealizacja czystej kontemplacji, wolnej od zmęczenia i zakłóceń:
Otwarty bilans dyssypacyjny — centralne równanie bilansu
Rzeczywiste procesy poznawcze nie są idealne. Wprowadzenie tempa kosztu dyssypacyjnego i ustrukturyzowanego strumienia wejściowego przekształca układ w otwarty, rządzony przez równanie bilansu układu otwartego leżące u podstaw modelu (jest to analogia do bilansu termodynamicznego, a nie twierdzenie z zakresu fizyki termodynamicznej):
Piękno trwa, gdy obiekt dostarcza wystarczająco dużo ustrukturyzowanych danych wejściowych, aby zrekompensować dyssypację poznawczą, nie naruszając przy tym koherencji. Z tego jednego bilansu wynikają poszczególne reżimy poznawcze.
Reżimy poznawcze
Nuda nie jest oswojeniem; to brak bilansu dyssypacyjnego — obiekt przestaje pokrywać koszt uwagi, a trajektoria zapada się do trywialnego minimum:
Przeładowanie to nie tylko wysoka złożoność; to utrata spójnej interpretacji — zbyt wiele informacji płynie zbyt szybko, obserwator nie jest w stanie zsynchronizować fazy, a interpretacje ulegają destabilizacji:
Estetyczny przepływ (flow) to zrównoważona dynamika układu otwartego: wejście i koszt są w równowadze, tajemnica pozostaje ustrukturyzowana, koherencja fazowa jest wysoka, a obserwator utrzymuje się w polu estetycznym. Trwałe piękno to ten sam bilans zachowany przy wielokrotnej ekspozycji — trwa ono nie dlatego, że generuje nieustanne zaskoczenie, lecz dlatego, że zachowuje stabilną, ustrukturyzowaną tajemnicę i spójną zdolność interpretacyjną:
Pełny funkcjonał działania estetycznego
Zbierając te człony, urzeczywistniona wartość estetyczna w przedziale percepcyjnym jest zintegrowaną po trajektorii pracą poznawczą, pomnożoną przez spójną zdolność interpretacyjną:
Każdy człon niesie ze sobą wymiar sprowadzający się do natężenia przepływu informacji (naty na sekundę): człon przepływu potencjału, tempo uwalniania ustrukturyzowanej tajemnicy, tempo próbkowania koherencji fazowej — zestawione z tempem kosztu poznawczego. Całka stanowi całkowitą pracę estetyczną w natach; mnożnik zdolności interpretacyjnej jest bezwymiarowy.
| człon | znaczenie | obserwowalna inżynieryjna |
|---|---|---|
| indukowane przez obiekt pole niedopasowania predykcyjnego | tempo aktualizacji modelu względem stanów artefaktu | |
| ustrukturyzowana, nierozstrzygnięta głębia interpretacyjna | nierozstrzygnięta głębia semantyczna nagradzająca dalszą analizę | |
| synchronizacja czasowa dynamiki obiektu i podmiotu | dostrojenie ruchu/ujawniania UI do zachowania użytkownika | |
| koszt poznawczy / dyssypacja | opóźnienie, wahanie, cofanie się, przeładowanie | |
| spójna zdolność interpretacyjna przypadająca na złożoność | stabilna pojemność ścieżki poznawczej przypadająca na złożoność implementacji |
Co postuluje ta matematyka, a czego nie
Można postulować
Co można postulować: spójną strukturę formalną przekładającą doświadczenie estetyczne na mierzalne hipotezy projektowe — koszt poznawczy, ustrukturyzowaną tajemnicę, zestrojenie fazowe, zdolność interpretacyjną i wartość trajektorii — modelowane jako zintegrowana po trajektorii praca poznawcza na rozmaitości informacyjnej Fishera-Rao, z diagnostycznym hamiltonianem, otwartym równaniem bilansu dyssypacyjnego oraz falsyfikowalnymi reżimami poznawczymi (nuda, przeładowanie, przepływ, trwałe piękno).
Nie można postulować
Czego nie można postulować: że jest to zmierzone prawo fizyczne rządzące mózgiem, że hamiltonian estetyczny jest zachowaną wielkością fizyczną, ani że model jest dziś w pełni zdefiniowany jako kalkulator. Jest to formalny niezmiennik diagnostyczny do modelowania poznawczej dynamiki estetycznej, a nie udowodnione prawo zachowania.
Jawna granica
Jawna granica: model określa siły i bilanse, lecz nie definiuje jeszcze w pełni, jak MIERZYĆ każdą z tych wartości. Potencjał obiektu Φ_O, koszt poznawczy C(t), strumień wejściowy I_input(t), szum i entropie rozstrzygnięte, złożoność generatora K_gen, przestrzeń interpretacji Ω oraz stałe ν_res i T_char są sformułowane jako szacowalne wielkości obserwowalne, a nie jako gotowe operatory z określonymi jednostkami i procedurami. To, czy każdą z nich można odtworzyć wyłącznie na podstawie telemetrii, czy też wymaga to narzędzi takich jak okulografia (eye-tracking), stanowi otwartą granicę badawczą — i tak też jest prezentowane. Dopóki operatory te nie zostaną precyzyjnie określone, projekt ten pozostaje strukturą modelową, a nie gotowym kalkulatorem.
Dlaczego publikujemy w całości
Dlaczego mimo to publikujemy model w całości: spójna struktura teoretyczna, przedstawiona wraz z wzorami i zakresem swoich granic, stanowi kontrakt rzetelności naukowej warstwy badawczej — warstwa marketingowa mówi o tym, co robi TITI; ta warstwa wyjaśnia, dlaczego model jest tak ustrukturyzowany i gdzie na dzień dzisiejszy kończą się dowody empiryczne.
Najbardziej zwięzła definicja modelu: piękno to zintegrowana po trajektorii praca poznawcza generowana przez indukowane przez obiekt informacyjne pole potencjału, pomnożona przez spójną zdolność interpretacyjną i ograniczona przez dopasowanie fazowe oraz dyssypację poznawczą.
Literatura
- Amari, S. & Nagaoka, H. — Methods of Information Geometry (metryka Fishera-Rao, rozmaitości statystyczne) — https://doi.org/10.1090/mmono/191
- Friston, K. — The free-energy principle: a unified brain theory? (wariacyjna energia swobodna) — https://doi.org/10.1038/nrn2787
- Itti, L. & Baldi, P. — Bayesian surprise attracts human attention (zaskoczenie i uwaga) — https://doi.org/10.1016/j.visres.2008.09.007
Jedyny interfejs
Porozmawiaj z wbudowanym czatem
Cześć — jestem titi. Powiedz, co chcesz stworzyć; wystarczy kilka słów.
Zamienię to w prawdziwą, przetestowaną, wdrożoną stronę.
Silnik sprawdzony w środowisku produkcyjnym