uttalande-om-behovet-av-att-tanka-om-kring-ai

För några veckor sedan visade vår infrastrukturfaktura oss något som vår färdplan inte hade gjort. De automatiska AI-åtgärderna som håller ihop vårt ekosystem genom att slå samman dubblerade patientjournaler och foga samman fragmenterade händelser till en enda vårdkedja – kostade långt mer än vad värdet av varje enskild åtgärd kunde motivera. Varje sammanslagningsomgång kördes mot stora modeller som var tvungna att tillfrågas i sin helhet för att återvinna fakta som i princip bara tar upp några få bytes. Detta var inte en avvikelse i faktureringen, utan ett symptom.

Vi spårade det till problemet med hur modeller lagras som vikter i ett stort neuralt nätverk. Dessa vikter tränas en gång och fryses sedan. Metoden fungerar, och den har skapat den kapabilitet som alla nu bygger vidare på, men i samma ögonblick som du behöver underhålla den kunskapen istället för att bara använda den, uppstår sprickorna. Närmare bestämt fyra stycken:

Otransparens. En bedömning som "den här journalen och den där journalen beskriver samma person" lagras inte på något ställe som du kan peka på. Den är spridd över miljontals parametrar, och modellen kan inte berätta varför den fattade det beslut den gjorde.
Inga rena redigeringar. Att korrigera ett inaktuellt faktum kräver omträning eller finjustering, utan någon garanti för att korrigeringen stannar där du placerade den.
Glömska. Lär modellen något nytt och den försämras i det tysta på områden den redan behärskade. Inom forskningsfältet kallas detta för katastrofal glömska (catastrophic forgetting), och namnet är ingen överdrift.
Kostnad. Både träning och vardaglig inferens förbrukar energi och kapital, och räkningen växer i takt med skalbarheten snarare än med nyttan.

Här är den del som är värd att stanna upp vid. Den mänskliga hjärnan driver en jämförbar och bredare kompetens på ungefär 20 watt. Den lyckas med detta genom stark funktionell modularitet och mestadels lokalt lärande, där en koppling förändras baserat på de två neuroner den länkar samman, snarare än genom en omräkning av hela systemet. Vi påstår inte att vi kopierar hjärnan. Vi påpekar bara att den täta viktmatrisen är ett alternativ snarare än en naturlag, och och att något betydligt billigare bevisligen är möjligt.

Så vi började bygga mot en annan grund. Vi har lagt fram det tekniska argumentet i en vitbok, Beyond the Weight Matrix, och den korta versionen lyder som följer:

Istället för ett stort, fryst nätverk lever kunskapen i många små fack. Varje fack äger ett enskilt fragment av vad systemet vet, och varje fack kan läsas eller bytas ut individuellt utan att störa resten. Inuti ett fack skrivs ett fragment som en explicit ekvation snarare än som ett dolt mönster av vikter. Den skillnaden spelar större roll än det låter: till skillnad från en vikt kan en ekvation läsas av en människa och skrivas om på plats.

Uppdateringar fungerar också annorlunda. Ny information justerar inte tyst ett lagrat värde. Den föreslår en förändring, och förändringen godkänns först efter att den har passerat en verifieringsgrind som kontrollerar den mot relaterade fack och, när det är relevant, mot extern bevisning. Om den inkommande informationen inte klarar kontrollen kan systemet avvisa den. Varje ändring som faktiskt släpps in bär med sig en logg över varför den gjordes.

Det svårare problemet är det språkliga flytet. Det mesta av vad en kompetent språkanvändare vet är inte ett prydligt faktum. Vi föredrar "starkt te" framför "kraftfullt te", men vi föredrar "kraftfull motor" framför "stark motor", och ingen grammatisk regel kan förklara skillnaden. Denna gradvisa, kontextberoende kunskap utgör den större delen av kompetensen, och den motsätter sig att skrivas ner. Vår metod håller den ändå explicit: varje preferens lagras tillsammans med sin styrka i ett namngivet, redigerbart fält (slot), så att den storhetsordning som en vanlig modell skulle begrava blir något som en granskare kan läsa och en administratör kan ändra.

Varför spelar detta störst roll inom hälso- och sjukvården? Eftersom egenskaper som bara är bekväma på andra ställen blir till absoluta krav här:

Ett beslut om journalsammanslagning som påverkar en patients vård måste vara granskningsbart, inte en svart låda.
Ett faktum som visar sig vara felaktigt måste kunna korrigeras på några minuter, inte vid nästa omträningscykel.
Varje klinisk eller administrativ inferens ska kunna redovisa vad den baserades på.

Reglerat arbete med stort fokus på granskning är exakt var redigerbar och verifierbar kunskap gör störst nytta, och det tenderar att involvera en hög andel tydliga, kontrollerbara fakta. Det är därför vi börjar här snarare än med öppna språkliga tillämpningar.

Vi är skyldiga er den ärliga delen också. Detta är en riktning, inte en färdig produkt, och det har ett genuint öppet problem i sin kärna. Eftersom gradvisa preferenser beror på kontexten, och kontexten kan vända upp och ner på dem, kan systemet inte lagra en regel för varje par av uttryck. I värsta fall skulle det behövas en regel för varje kontext, och antalet kontexter i naturligt språk är tillräckligt stort för att återuppbygga just den viktmatris vi ville undvika, fast i fulltext. Arbetet med att omvandla detta förslag till ett fungerande system handlar till stor del om att komprimera den tillväxten: att bryta ut delad struktur och organisera kontexter i hierarkier så att representationen expanderar långsamt. Huruvida detta kan göras samtidigt som man behåller den redigerbarhet som motiverade insatsen från första början är frågan som hela arkitekturen står eller faller med.

Det är därför vi publicerar detta istället för att hålla det internt. Inget enskilt företag kommer att lösa komprimeringsproblemet på egen hand, och branschen har tillbringat år med att förfina ett paradigm samtidigt som man underinvesterat i alternativen. Energikostnaden för frysta viktmatriser håller på att förvandlas till en belastning för hela industrin, inte bara en enskild post i en balansräkning. Hälso- och sjukvården i synnerhet har inte råd med modeller som saknar verktyg för granskning eller korrigering, och ingen enskild organisation besitter tillräckligt med data, metoder eller klinisk kontext för att nå dit på egen hand.

Därför uppmanar vi forskarsamhället att rikta en del av sin uppmärksamhet åt detta håll:

Gemensamma benchmark-tester för hur rent en modell kan redigeras och hur väl den håller ihop efter att det har gjorts.
Öppna metoder för att komprimera kontextberoende kunskap. Detta är flaskhalsen, och den angår alla som arbetar inom detta område.
Gemensamma gränssnitt mellan facken, så att ett resultat som genereras i ett laboratorium kan återanvändas på andra ställen istället för att byggas upp från grunden.

Vi kommer att fortsätta publicera vad vi lär oss, inklusive de delar som misslyckas. Om du arbetar med neurosymboliska system, modellredigering, effektiv inferens eller klinisk kunskapsrepresentation skulle vi uppskatta möjligheten att utbyta erfarenheter. Vitboken är platsen att börja på.

Håll utkik efter våra månatliga nyheter!

Bli informerad

Uttalande om behovet av att tänka om kring AI