банер_странице

вести

Модел великог језика (LLM) може да пише убедљиве чланке засноване на брзим речима, да полаже испите стручне стручности и да пише информације прилагођене пацијентима и емпатичне. Међутим, поред добро познатих ризика фикције, крхкости и нетачних чињеница у LLM-у, друга нерешена питања постепено долазе у фокус, попут модела вештачке интелигенције који садрже потенцијално дискриминаторне „људске вредности“ у свом креирању и коришћењу, и чак и ако LLM више не фабрикује садржај и елиминише очигледно штетне излазне резултате, „вредности LLM-а“ и даље могу одступати од људских вредности.

 

Безброј примера илуструје како подаци који се користе за тренирање вештачке интелигенције (ВИ) кодирају индивидуалне и друштвене вредности, које се могу учврстити унутар модела. Ови примери укључују низ примена, укључујући аутоматско тумачење рендгенских снимака грудног коша, класификацију кожних болести и алгоритамско доношење одлука у вези са расподелом медицинских ресурса. Као што је наведено у недавном чланку у нашем часопису, пристрасни подаци за тренирање могу појачати и открити вредности и предрасуде присутне у друштву. Напротив, истраживања су такође показала да се ВИ може користити за смањење пристрасности. На пример, истраживачи су применили моделе дубоког учења на рендгенске снимке колена и открили факторе које стандардни индикатори тежине (оцењене од стране радиолога) нису приметили унутар коленског зглоба, чиме су смањене необјашњиве разлике у болу између црних и белих пацијената.

Иако све више људи схвата пристрасност у моделима вештачке интелигенције, посебно у погледу података за обуку, многим другим улазним тачкама људских вредности се не поклања довољно пажње у процесу развоја и примене модела вештачке интелигенције. Медицинска вештачка интелигенција је недавно постигла импресивне резултате, али у великој мери није експлицитно узета у обзир људске вредности и њихову интеракцију са проценом ризика и вероватносним резоновањем, нити је моделирана.

 

Да бисте конкретизовали ове апстрактне концепте, замислите да сте ендокринолог који треба да препише рекомбинантни хумани хормон раста осмогодишњем дечаку који је испод 3. перцентила својих година. Ниво стимулисаног хуманог хормона раста код дечака је испод 2 нг/мл (референтна вредност >10 нг/мл, референтна вредност за многе земље ван Сједињених Држава је >7 нг/мл), а у његовом гену који кодира хумани хормон раста откривене су ретке инактивационе мутације. Верујемо да је примена терапије хуманим хормоном раста очигледна и неспорна у овом клиничком окружењу.

Примена терапије људским хормоном раста у следећим сценаријима може изазвати контроверзе: висина четрнаестогодишњег дечака је увек била у 10. перцентилу његових вршњака, а врхунац људског хормона раста након стимулације је 8 нг/мл. Нема познатих функционалних мутација које могу утицати на висину, нити других познатих узрока ниског раста, а његова коштана старост је 15 година (тј. нема кашњења у развоју). Само део контроверзе је због разлика у граничним вредностима које су одредили стручњаци на основу десетина студија о нивоима људског хормона раста који се користе за дијагностиковање изолованог недостатка хормона раста. Барем исто толико контроверзи произилази из равнотеже ризика и користи од употребе терапије људским хормоном раста из перспективе пацијената, родитеља пацијената, здравствених радника, фармацеутских компанија и осигуравача. Педијатријски ендокринолози могу проценити ретке нежељене ефекте свакодневних ињекција хормона раста током 2 године са вероватноћом да неће доћи до раста или ће доћи само до минималног раста у одраслој доби у поређењу са садашњошћу. Дечаци могу веровати да чак и ако се њихова висина повећа само за 2 цм, вреди убризгавати хормон раста, али осигуравач и фармацеутска компанија могу имати различита мишљења.

 

Узимамо еГФР заснован на креатинину као пример, који је широко коришћени индикатор бубрежне функције за дијагностиковање и стадијум хроничне болести бубрега, постављање услова за трансплантацију или донацију бубрега и одређивање критеријума за редукцију и контраиндикације за многе лекове на рецепт. ЕГФР је једноставна регресиона једначина која се користи за процену измерене брзине гломеруларне филтрације (мГФР), што је референтни стандард, али је метода процене релативно гломазна. Ова регресиона једначина се не може сматрати моделом вештачке интелигенције, али илуструје многе принципе о људским вредностима и вероватносном резоновању.

Прва тачка уласка за људске вредности које улазе у еГФР јесте приликом избора података за уклапање једначина. Оригинални ред који се користи за дизајнирање формуле еГФР углавном се састоји од црно-белих учесника, а њена применљивост на многе друге етничке групе није јасна. Накнадне тачке уласка за људске вредности у ову формулу укључују: избор тачности мГФР као примарног циља за процену функције бубрега, шта је прихватљив ниво тачности, како мерити тачност и коришћење еГФР као прага за покретање клиничког доношења одлука (као што је одређивање услова за трансплантацију бубрега или прописивање лекова). Коначно, приликом избора садржаја улазног модела, људске вредности ће такође ући у ову формулу.

На пример, пре 2021. године, смернице сугеришу прилагођавање нивоа креатинина у формули еГФР на основу старости, пола и расе пацијента (класификовано само као црнци или особе које нису црнци). Прилагођавање на основу расе има за циљ побољшање тачности формуле мГФР, али су 2020. године велике болнице почеле да доводе у питање употребу еГФР засноване на раси, наводећи разлоге као што су одлагање подобности пацијента за трансплантацију и конкретизација расе као биолошког концепта. Истраживања су показала да дизајнирање еГФР модела у смислу расе може имати дубок и различит утицај на тачност и клиничке исходе; Стога, селективно фокусирање на тачност или фокусирање на део исхода одражава вредносне судове и може прикрити транспарентно доношење одлука. Коначно, национална радна група је предложила нову формулу која је преправљена без разматрања расе како би се уравнотежила питања учинка и праведности. Овај пример илуструје да чак и једноставна клиничка формула има много улазних тачака у људске вредности.

Доктор са виртуелном стварношћу у операционој сали у болници. Хирург анализира резултате тестирања срца пацијента и људску анатомију на технолошком дигиталном футуристичком виртуелном интерфејсу, дигиталном холографском, иновативном у науци и концепту медицине.

У поређењу са клиничким формулама са само малим бројем предиктивних индикатора, LLM може да се састоји од милијарди до стотина милијарди параметара (тежина модела) или више, што га чини тешким за разумевање. Разлог зашто кажемо „тешко за разумевање“ је тај што се у већини LLM-ова тачан начин изазивања одговора путем питања не може мапирати. Број параметара за GPT-4 још није објављен; Његов претходник GPT-3 имао је 175 милијарди параметара. Више параметара не значи нужно и јаче могућности, јер ће мањи модели који укључују више рачунарских циклуса (као што је серија модела LLaMA [Large Language Model Meta AI]) или модели који су фино подешени на основу људских повратних информација радити боље од већих модела. На пример, према људским проценитељима, модел InstrumentGPT (модел са 1,3 милијарде параметара) надмашује GPT-3 у оптимизацији резултата модела.

Конкретни детаљи обуке за GPT-4 још увек нису откривени, али су откривени детаљи модела претходне генерације, укључујући GPT-3, InstrumentGPT и многе друге LLM-ове отвореног кода. Данас, многи AI модели долазе са картицама модела; Подаци о евалуацији и безбедности GPT-4 објављени су на сличној системској картици коју је обезбедила компанија за креирање модела OpenAI. Креирање LLM-а може се грубо поделити у две фазе: почетну фазу пре обуке и фазу финог подешавања усмерену на оптимизацију излазних резултата модела. У фази пре обуке, моделу се пружа велики корпус који укључује оригинални интернет текст како би се обучио да предвиди следећу реч. Овај наизглед једноставан процес „аутоматског довршавања“ производи моћан основни модел, али може довести и до штетног понашања. Људске вредности ће ући у фазу пре обуке, укључујући одабир података пре обуке за GPT-4 и одлучивање о уклањању неприкладног садржаја као што је порнографски садржај из података пре обуке. Упркос овим напорима, основни модел можда и даље није ни користан нити способан да садржи штетне излазне резултате. У следећој фази финог подешавања, појавиће се многа корисна и безопасна понашања.

У фази финог подешавања, понашање језичких модела се често дубоко мења кроз надгледано фино подешавање и учење са појачањем засновано на људским повратним информацијама. У фази надгледаног финог подешавања, ангажовано особље извођача радова ће писати примере одговора за речи које захтевају подстицај и директно обучавати модел. У фази учења са појачањем заснованој на људским повратним информацијама, људски евалуатори ће сортирати излазне резултате модела као примере улазног садржаја. Затим ће применити горе наведене резултате поређења да би научили „модел награђивања“ и додатно побољшали модел кроз учење са појачањем. Невероватно ниско ниво људског учешћа може фино подесити ове велике моделе. На пример, InstrumentGPT модел је користио тим од приближно 40 извођача радова регрутованих са веб страница за краудсорсинг и прошао је тест скрининга усмерен на одабир групе анотатора који су осетљиви на преференције различитих популационих група.

Као што показују ова два екстремна примера, наиме једноставна клиничка формула [eGFR] и моћни LLM [GPT-4], људско доношење одлука и људске вредности играју неопходну улогу у обликовању исхода модела. Да ли ови модели вештачке интелигенције могу да обухвате своје различите вредности пацијената и лекара? Како јавно усмерити примену вештачке интелигенције у медицини? Као што је поменуто у наставку, поновно испитивање анализе медицинских одлука може пружити принципијелно решење за ова питања.

 

Анализа медицинских одлука није позната многим клиничарима, али може да направи разлику између вероватносног резоновања (за неизвесне исходе везане за доношење одлука, као што је да ли дати људски хормон раста у контроверзном клиничком сценарију приказаном на слици 1) и фактора разматрања (за субјективне вредности везане за ове исходе, чија је вредност квантификована као „корисност“, као што је вредност повећања мушке висине од 2 цм), пружајући систематска решења за сложене медицинске одлуке. У анализи одлука, клиничари морају прво да утврде све могуће одлуке и вероватноће повезане са сваким исходом, а затим да укључе корисност пацијента (или друге стране) повезану са сваким исходом како би изабрали најприкладнију опцију. Стога, валидност анализе одлука зависи од тога да ли је подешавање исхода свеобухватно, као и од тога да ли су мерење корисности и процена вероватноће тачни. Идеално, овај приступ помаже да се осигура да су одлуке засноване на доказима и усклађене са преференцијама пацијената, чиме се смањује јаз између објективних података и личних вредности. Ова метода је уведена у медицинску област пре неколико деценија и примењена је на доношење одлука појединачних пацијената и процену здравља популације, као што је давање препорука за скрининг колоректалног карцинома општој популацији.

 

У анализи медицинских одлука, развијене су различите методе за добијање корисности. Већина традиционалних метода директно извлачи вредност из појединачних пацијената. Најједноставнија метода је коришћење скале за процену, где пацијенти процењују свој ниво преференције за одређени исход на дигиталној скали (као што је линеарна скала у распону од 1 до 10), са најекстремнијим здравственим исходима (као што су потпуно здравље и смрт) који се налазе на оба краја. Метода размене времена је још једна често коришћена метода. Код ове методе, пацијенти треба да донесу одлуку о томе колико здравог времена су спремни да проведу у замену за период лошег здравља. Стандардна метода коцкања је још једна често коришћена метода за одређивање корисности. Код ове методе, пацијенти се питају коју од две опције преферирају: или живети одређени број година у нормалном здрављу са одређеном вероватноћом (p) (t) и сносити ризик од смрти са вероватноћом од 1-p; или се побринути да живе t година под унакрсним здравственим условима. Питати пацијенте више пута при различитим p-вредностима док не покажу да немају преференцију ни за једну опцију, тако да се корисност може израчунати на основу одговора пацијената.
Поред метода које се користе за откривање индивидуалних преференција пацијената, развијене су и методе за постизање корисности за популацију пацијената. Посебно фокус групне дискусије (окупљање пацијената ради разговора о специфичним искуствима) могу помоћи у разумевању њихових перспектива. Да би се ефикасно агрегирала корисност групе, предложене су разне технике структуриране групне дискусије.
У пракси, директно увођење корисности у процес клиничке дијагнозе и лечења је веома дуготрајно. Као решење, упитници за анкетирање се обично дистрибуирају насумично одабраним популацијама како би се добили резултати корисности на нивоу популације. Неки примери укључују 5-димензионални упитник EuroQol, кратки облик 6-димензионалне тежине корисности, Индекс корисности за здравље и алатку Core 30 Упитник о квалитету живота Европске организације за истраживање и лечење рака специфичан за рак.


Време објаве: 01. јун 2024.