Historik tonoucí ve zdrojových dokumentech se obrací k AI

Stejně jako miliony dalších lidí první věc, kterou Mark Humphries udělal s ChatGPT, když byl koncem roku 2022 vydán, bylo, že ho požádal, aby předvedl salonní triky, jako je psaní poezie ve stylu Boba Dylana – což, i když velmi působivé, nezdálo se nijak zvlášť užitečné. k němu historik studující obchod s kožešinami v 18. století. Humphries, 43letý profesor na Wilfrid Laurier University v kanadském Waterloo, se ale už dlouho zajímal o uplatnění umělé inteligence ve své práci. Už používal specializovaný nástroj pro rozpoznávání textu určený k přepisu zastaralých skriptů a typů písma, i když dělal časté chyby, jejichž oprava vyžadovala čas. Zvědavě vložil zkomolenou interpretaci ručně psaného francouzského dopisu nástroje do ChatGPT. AI opravila text, opravila všechna F, která byla špatně přečtena jako S, a dokonce přidala chybějící akcenty. Pak Humphries požádal ChatGPT, aby to přeložil do angličtiny. To také udělalo. Možná, pomyslel si, by tato věc byla nakonec užitečná.

Pro Humphriese byly nástroje umělé inteligence lákavým příslibem. Během posledního desetiletí byly naskenovány a digitalizovány miliony dokumentů v archivech a knihovnách – Humphries byl sám zapojen do jednoho takového úsilí – ale protože jejich široká škála formátů, písem a slovní zásoby je učinila neprostupnými pro automatizované vyhledávání, práce s nimi vyžadovala obrovské množství ručního výzkumu. V předchozím projektu Humphries poskládal biografie několika stovek vojáků z první světové války z různých lékařských záznamů, válečných deníků, novin, personálních složek a dalších efemér. Trvalo roky a týmu výzkumných asistentů, než přečetli, označili a provedli křížové odkazy na materiál pro každého jednotlivce. Kdyby byly nové jazykové modely tak silné, jak se zdály, mohlo by být možné jednoduše nahrát veškerý tento materiál a požádat model, aby extrahoval všechny dokumenty týkající se každého vojáka, u kterého byl diagnostikován šok z granátu.

“To je práce na celý život, nebo alespoň na deset let,” řekl Humphries. “A dokážete si představit, že to zvětšíte.” Mohli byste získat AI, aby zjistila, zda byl voják zraněn v den X, co se s touto jednotkou dělo v den X, a poté získat přístup k informacím o členech této jednotky, na které byste jako historici nikdy neměli čas. honit na individuálním základě,“ řekl. “Mohlo by to otevřít nové způsoby porozumění minulosti.”

Vylepšená správa databází může být na hony vzdálená superinteligenci, která dobývá svět, jak někteří předpovídají, ale je charakteristická pro způsob, jakým jazykové modely filtrují skutečný svět. Od práva přes programování až po žurnalistiku se profesionálové snaží přijít na to, zda a jak začlenit tuto slibnou, riskantní a velmi podivnou technologii do své práce. Pro historiky je technologie schopná syntetizovat celé archivy, která má také zálibu ve vymýšlení faktů, stejně přitažlivá jako děsivá, a obor, stejně jako mnoho dalších, se právě začíná potýkat s důsledky takového potenciálně mocného, ​​ale kluzkého nástroj.

Podle Cindy Ermusové, docentky historie na Texaské univerzitě v San Antoniu, se zdálo, že AI byla na 137. výročním zasedání Americké historické asociace minulý měsíc všude. Předsedala jednomu z několika panelů na toto téma. Ermus popsal její vztah a vztah mnoha jejích kolegů k AI jako vztah „zvědavých dětí“, přičemž vzrušeně i opatrně přemýšlel, jaké aspekty jejich práce to změní a jak. “Změní každou část historického výzkumu, od sběru přes kurátorství až po psaní a samozřejmě výuku,” řekla. Obzvláště na ni zapůsobila přednáška lektorky Lancasterské univerzity Katherine McDonough o programu strojového učení schopného prohledávat historické mapy, původně vyškolená na průzkumy zbrojního materiálu v Británii 19. století.

“Promění každou část historického výzkumu, od sběru přes kurátorství až po psaní a samozřejmě výuku.”

“Hledala slovo ‘restaurace’ a během let našlo slovo ‘restaurace’ v tunách historických map,” řekl Ermus. “Pro nehistorika to nemusí znít jako velký problém, ale nikdy předtím jsme to nedokázali a teď to máme na dosah ruky.”

Další účastník, Lauren Tilton, profesorka svobodných umění a digitálních humanitních věd na Univerzitě v Richmondu, pracovala se strojovým učením více než deset let a nedávno spolupracovala s Library of Congress na aplikaci počítačového vidění na obrovské zásoby minimálně označených fotografií této instituce. a filmy. Všechny archivy jsou zaujaté – v tom, jaký materiál je pro začátek uložen a jak je organizován. Příslibem umělé inteligence je podle ní to, že dokáže otevřít archivy ve velkém a umožnit v nich prohledávat věci, kterých si archiváři v minulosti dostatečně nevážili, aby je označili.

“Nejvíce popisované materiály v archivu jsou obvykle hlasy, které jsme již slyšeli – slavní politici, slavní autoři,” řekla. “Ale víme, že existuje mnoho příběhů lidí z menšinových komunit, komunit barev, komunit LGBTQ, které bylo těžké vyprávět, ne proto, že by to lidé nechtěli, ale kvůli problémům, jak hledat v archivu.”

Systémy AI však mají své vlastní předsudky. Mají dobře zdokumentovanou tendenci odrážet genderové, rasové a jiné předsudky svých tréninkových údajů – skutečnost, že, jak Ermus zdůraznil, když požádala GPT-4, aby vytvořila obraz profesora historie, vykreslila staršího člověka. bílý muž s loketními záplatami na saku – ale také vykazují zaujatost, kterou Tilton nazývá „prezentismus“. Vzhledem k tomu, že obrovská převaha tréninkových dat je stažena ze současného internetu, modely odrážejí současný světonázor. Tilton se s tímto jevem setkala, když zjistila, že systémy rozpoznávání obrazu mají problémy s pochopením starších fotografií, například označují psací stroje jako počítače a jejich těžítka jako myši. Jednalo se o systémy rozpoznávání obrázků, ale jazykové modely mají podobný problém.

Zaujatý ChatGPT, Humphries se zaregistroval do OpenAI API a rozhodl se vytvořit asistenta pro výzkum AI. Pokoušel se vystopovat obchodníky s kožešinami z 18. století prostřednictvím bahna dopisů, deníků, oddacích listů, právních dokumentů, farních záznamů a smluv, ve kterých se objevují jen letmo. Jeho cílem bylo navrhnout systém, který by dokázal automatizovat proces.

Jednou z prvních výzev, s nimiž se setkal, bylo to, že obchodníci s kožešinami z 18. století nezní nic jako jazykový model, který předpokládá

Jednou z prvních výzev, s nimiž se setkal, bylo, že obchodníci s kožešinami v 18. století nezněli tak, jak předpokládá jazykový model. Požádejte GPT-4, aby napsal ukázkový záznam, jako jsem to udělal já, a vyvolá to dlouhé úvahy o vznešené osamělosti divočiny, například: „Dnes ráno se nebe otevřelo s vytrvalým mrholením a zahalilo les do závoj mlhy a melancholie“ a „Bruno, který čelil všem útrapám se stoicismem ostříleného zálesáka, nyní stále ležel pod přístřeškem našeho provizorního stanu, tichý svědectví o křehkosti života v těchto nezkrocených zemích.“

Zatímco skutečný obchodník s kožešinami by byl mnohem výstižnější. Například „Pěkné počasí. Dnes ráno byl mladý muž, který včera zemřel, pohřben a jeho hrob byl obklíčen Pikety. 9 mužů šlo sbírat žvýkačku, kterou přinesli do kánoí žvýkačky 3, ostatní byli zaměstnáni jako včera,“ jak psal jeden z roku 1806, odkazující na sbírání mízy ze stromů k utěsnění švů jejich kůrových kánoí.

“Problém je v tom, že jazykový model by se na takové desce nechytil, protože neobsahuje typ reflexního písma, který je natrénován, aby viděl reprezentující událost jako je tato,” řekl Humphries. Trénovaný na současných příspěvcích na blogu a esejích by očekával, že po smrti společníka budou následovat dlouhé emocionální vzpomínky, nikoli inventář zásob mízy.

Doladěním modelu na stovkách příkladů prózy obchodníků s kožešinami ho Humphries přiměl k vytahování záznamů v deníku jako odpovědi na otázky, ale ne vždy relevantní. Zastaralá slovní zásoba stále představovala problém – slova jako varanguefrancouzský výraz pro žebro kánoe, který by se v tréninkových datech modelu objevil jen zřídka, pokud vůbec.

Po mnoha pokusech a omylech skončil s montážní linkou AI, která používala několik modelů k třídění dokumentů, hledání klíčových slov a významu a syntéze odpovědí na dotazy. Zabralo to spoustu času a spoustu šťouchání, ale GPT mu pomohla naučit Python, který potřeboval. Systém pojmenoval HistoryPearl podle své nejchytřejší kočky.

Svůj systém otestoval na okrajových případech, jako norský obchodník Ferdinand Wentzel, který o sobě psal ve třetí osobě a nasadil zvláštní smysl pro humor, například psal o narození svého syna spekulacemi o jeho otcovství a sebevědomím. odsuzující vtipy o jeho vlastní výšce — „FW’s Girl byla bezpečně porozena jako chlapec. – Skoro věřím, že je to jeho Syn, protože se zdá, že se mu jeho rysy do jisté míry podobají a zdá se, že jeho krátké nohy tento názor nepochybně určují.” Tento druh psaní mařil dřívější modely, ale HistoryPearl to dokázal vytáhnout jako odpověď na vágně formulovanou otázku o Wentzelově humoru spolu s dalšími příklady Wentzelova vtipu, které Humphries nehledal.

Nástroj stále postrádal některé věci, ale fungoval lépe než průměrný postgraduální student, kterého by si Humphries normálně najal na tento druh práce. A rychleji. A mnohem, mnohem levněji. Loni v listopadu, poté, co OpenAI snížila ceny za volání API, provedl hrubou matematiku. To, co by zaplatil postgraduálnímu studentovi kolem 16 000 dolarů, aby udělal během celého léta, dokázal GPT-4 za zhruba 70 dolarů za zhruba hodinu.

“Stále mluví o technologii, jako by to byla teoretická věc, aniž by plně chápali, že představuje velmi reálnou existenciální hrozbu pro celý náš raison d’être jakožto vyšších pedagogů.”

“To byl okamžik, kdy jsem si uvědomil, ‘Dobře, tohle začíná všechno měnit’,” řekl. Jako výzkumník to bylo vzrušující. Jako učitel to bylo děsivé. Organizování záznamů o obchodování s kožešinami může být specializovanou aplikací, ale velké množství úloh bílých límečků se skládá z podobných úkolů správy informací. Jeho studenti se měli učit takovým druhům výzkumných a myšlenkových dovedností, které jim umožní být úspěšní právě v těchto druzích zaměstnání. V listopadu vydal informační bulletin, v němž žádal své kolegy z akademické sféry, aby brali rychlý rozvoj umělé inteligence vážně. “AI prostě začíná předbíhat představy mnoha lidí,” napsal. “Stále mluví o technologii, jako by to byla teoretická věc, aniž by plně chápali, že představuje velmi reálnou existenciální hrozbu pro celý náš raison d’être jakožto vyšších pedagogů.”

Mezitím ho však potěšilo, že jeho kutilství vyústilo v to, co nazývá „důkazem konceptu“: dostatečně spolehlivý na to, aby byl potenciálně užitečný, i když ještě ne natolik, aby mu plně důvěřoval. Humphries a jeho výzkumná partnerka, historička Lianne Leddyová, předložili grant na rozšíření svého výzkumu až na všech 30 000 cestovatelů v jejich databázi. Svým způsobem považoval práci potřebnou k vývoji tohoto systému šetřícího práci za uklidňující. Největší zlepšení v modelu pocházelo z toho, že do něj vložil správná data, což byl něco, co byl schopen udělat pouze díky své odbornosti v materiálu. V poslední době si myslí, že ve skutečnosti může být větší poptávka po expertech z oboru s takovými dovednostmi v oblasti výzkumu a kritického hodnocení, jaké učí humanitní obory. Letos bude vyučovat jím navržený aplikovaný generativní program umělé inteligence, který vyšel z Filozofické fakulty.

“V některých ohledech je to staré víno v nových lahvích, že?” řekl. Zdůraznil, že v polovině 20. století měly společnosti rozsáhlé podnikové archivy obsazené výzkumníky, kteří byli odborníky nejen na ukládání a organizaci dokumentů, ale i na materiál samotný. „Aby bylo mnoho těchto dat užitečných, potřebujeme lidi, kteří mají schopnost přijít na to, jak trénovat modely, ale co je důležitější, kteří rozumí tomu, co je dobrý obsah a co ne. Myslím, že je to uklidňující,“ řekl. “Jestli si jen klamu, to je jiná otázka.”

Leave a Reply

Your email address will not be published. Required fields are marked *