Jednou z největších výhod umělé inteligence (především té generativní), je práce s textem. Nahrajete soubor a můžete se umělé inteligence ptát, co v něm je, nechat vše shrnout, upravit apod. Jenže ono to tak dobře nejde.
Generativní umělá inteligence ve veřejně přístupných verzích, jako je ChatGPT, Anthropic nebo Gemini nedokáže pracovat s dlouhými texty. Sice se dozvídáte ohromující čísla, která říkají, že dokáže pracovat se statisíci či dokonce miliony tokenů (zjednodušeně řečeno znaků), ale nakonec to tak není. Proč? Má to hned několik důvodů.
Zadarmo ani kuře nehrabe
První je ten, že velké množství, které v základní verzi nabízí třeba Gemini (32 000 tokenů), není zas tak velké. Jde jen o vstupní data. A zatímco v angličtině je jeden tokem přibližně jedno písmeno, v češtině je tenhle poměr poněkud méně příznivý. Naše háčky a čárky tak o 30 – 40 % tohle číslo zhorší. A pak je tu kontextové okno, které ale počítá jak vstup, tak výstup. Co to znamená? Představte si, že nahrajete 20 000 českých znaků a to kontextové okno je něco jako záběr fotoaparátu. Do toho záběru se vejde právě přesně těch 20 000 českých znaků. Jenže v tom záběru se začnou objevovat i výstupy. Takže Gemini odpoví a záběr se musí posouvat, jak přibývají odpovědi, doplňující dotazy apod. A v téhle chvíli už se informace z původního souboru ztrácejí, protože jsou mimo záběr.
Druhá věc je ta, že sice můžete vložit velké množství informací, ale AI s nimi musí umět pracovat. Musí umět indexovat, tagovat správná místa a pak s nimi pracovat. Opět příklad. Nahrajeme pdf soubor s článkem o egyptských hieroglyfech. Následně hledáme nějakou konkrétní věc – třeba co znamenají tři překřížené klasy. AI v textu objeví zmínku o těchto klasech na straně 1 a straně 2 a začne z tohoto sepisovat odpověď. Jenže o klasech je třeba psáno i na straně 10 a 15. A odpověď je už ale venku, protože AI byla nedostatečně napromptovaná. Správně by měl prompt být takový, aby nejdřív prozkoumal celý dokument, vypsal si všechna místa s výskytem třech zkřížených klasů, tato místa prozkoumal, vypsal si je a teprve z tohoto vytvořil závěr, který exportuje na vaši obrazovku. Kdo z vás by takový prompt dokázal udělat?
A pak je tu samozřejmě další věc – práce s velkým kontextem je výpočtově velmi náročná, takže mít ji v neplacené verzi, je finanční bláznovství. Takže placené verze mají větší kontextové okno (např. Gemini Advanced má milion tokenů), ale už stojí nějaké ty peníze navíc.
Jak na to?
Těch možností, jak ovládat větší soubory, je několik. Bohužel velmi často ale narazíte na to, že tyto služby jsou placené. My si probereme hned několik zajímavých řešení – ať zdarma nebo placených.
- Placené verze generativních AI modelů. Tady překvapivě prohrává OpenAI. I když slibuje velké kontextové okno, zkušenosti říkají, že konkurence v Gemimi Advanced nebo Claude Anthropic Sonnet 3.5 jsou o kus dál.
- Když už máte placený ChatGPT, zkuste si připojit GPTs s názvem AI PDF Drive: Chat, Create, Organize. Tu práci s velkým promptováním si dal někdo za vás a práce s velkými vstupními daty tu jde docela dobře.
- Vyzkoušejte https://notebooklm.google.com/ . Je to asistent pro výzkum a psaní s podporou umělé inteligence, který nejlépe funguje s nahranými zdroji. Takže nahrajete, chatujete, necháte psát. Je to zadarmo.
- Použijte nějaký další produkt. Nabídek je na světě spousta. Ne všechny se ale vám můžou líbit, ne všechny mají i zadarmo verze apod. Pojďme se podívat na jen některé z nich.
PDF.ai – Lze sem v neplacené verzi nahrát 10 Mb soubor a položit měsíčně maximálně 100 otázek. Odpovídá ale pouze ChatGPT 3.5
Humata.ai – Základní verze zdarma je na maximálně 60 stran. Jenže mají studentskou verzi a zde za dva dolary měsíčně získáte možnost nahrát 200 stran.
Typeset.io – Na bázi Scispace najdete omezené možnosti ve verzi zdarma. Ovšem školy mají verzi za 8 dolarů měsíčně za uživatele a tam je těch možností už ohromné množství. Umí pracovat s citacemi, parafrázovat, vyhledávat na internetu…
Autor: Jan Čech
Foto: Midjourney / Jan Čech
O autorovi..
Dvacet let dělal redaktora, editora a šéfredaktora v mnohých časopisech i internetových portálech. Když vypukla velká revoluce umělé inteligence vypuštěním modelu ChatGPT do světa, stal se ve vydavatelství Vltava Labe Media jedním z těch, kteří se do tohoto fenoménu snažili proniknout co nejvíc. Nakonec mu vedení nabídlo možnost přejít na novou pozici, která ani nebyla definována. Neměla jméno. A tak se stal tím, kdo se snaží implementovat umělou inteligenci do struktur vydavatelství. A aby ta pozice nebyla bezejmenná, ChatGPT vygeneroval i její název: AI technologický specialista.