Hjálp:Ljóslestur

Úr Wikiheimild
Jump to navigation Jump to search
Skönnun / Nýir textar Arrright.svg Ljóslestur Arrright.svg Villulestur Arrright.svg Nýjar myndir Arrright.svg Ítenging

Ljóslestur er tækni sem er notuð til að færa ritað mál af pappír yfir á stafrænt form. Hann er notaður á wikiheimild til að minnka vinnuna við hverja bók. Það eru fjórar aðferðir við að ljóslesa bók.

Internet Archive[breyta]

  1. Farðu á Internet Archive
  2. Stofnaðu aðgang með því að smella á tengilinn "join us" til hægri og fylla út eyðublaðið.
  3. Smelltu á "Upload" í hægra horni
  4. Fylltu út eyðublaðið. Ekki gleyma því að tilgreina tungumálið!
  5. Smelltu á "Upload and create your item"
  6. Þegar Internet Archive hefur upphalað skránni þá byrjar hún að ljóslesa skránna og umbreyta skránni í PDF skrá. Þú þarft ekki að gera neitt þangað til skráin er tilbúin.

Aðrar vefþjónustur[breyta]

Auk Internet Archive er hægt að ljóslesa skrá með því að hlaða henni upp á www.ocr-extract.com eða newocr.com. Báðar þessar þjónustur gefa upp ljóslesinn texta.

Tesseract[breyta]

Tesseract er hugbúnaðarvél sem ljósles skrár, er frjáls hugbúnaður og hefur íslenskustuðning.

Uppsetning[breyta]

Fyrst þurfum við að setja inn Tesseract.

Linux:

Í flestum Linux stýrikerfum fylgir Tesseract með en til þess að forritið geti sem best skilið íslensku og íslenska stafi þarf að setja Tesseract-ocr-isl og íslenska orðabók. Leitaðu að tesseract eða tesseract-ocr til að finna möppuna sem tesseract er sett upp í.

Fyrir þá sem vilja grafískt notendaviðmót má mæla með gImageReader sem notar Tesseract ljóslestrarvélina og getur skilað af sér PDF skjali með ósýnilegu textalagi. Þessu skjali er síðan hægt að hlaða upp á Wikiheimild.

Mac OS X:

Settu upp homebrew. Þegar þú ert búinn að því opnaðu Terminal og sláðu inn skipunina brew install tesseract

Windows:

Sæktu Tesseract og Leptonica. Notaðu 7-zip eða eitthvað annað þjöppunarforrit til að afþjappa skránum og settu síðan þau upp. Í uppsetningarferlinu, þegar þú ert spurður um hvaða hluta (components) þú vilt, veldu þá "language data" og "Icelandic". Við það sækir uppsetningarskráin íslenskan stuðning og setur hana upp fyrir þig.

Vinnsla[breyta]

Athugaðu hvar skráin er sem þú vilt ljóslesa. Í Mac OS X eða Linux með því að opnaðu Terminal. Í Windows opnaðu Command prompt. Ef við segjum sem svo að myndin heiti myscan.jpg, að hún sé staðsett beint undir C drifinu og að við viljum fá ljóslesna skrá beint undir C drifið með skráarnafnið text þá er skipunin svona:

tesseract c:\myscan.jpg -l isl c:\text

Eftirfarandi skipun virkar líka:

tesseract \myscan.jpg -l isl \text

Lagaðu skráarslóðirnar eftir þörfum og sláðu skipunina inn. Tesseract vinnur þá í skránni og gefur þér textaskrá með ljóslesna textanum.

Hlaða skránni upp á Wikiheimild[breyta]

Eftir að skráin er tilbúin á eftir að bæta skránni við sem er gert í eftirfarandi skrefum.

Hlaða skránni inn[breyta]

Skrám er hlaðið inn á sameiginlegan myndagrunn, Wikimedia commons, sem wikiheimild og systurverkefni hennar nota.

Það fyrsta sem við ætlum að athuga er stærðin á skránni. Ef skráin er stærri en 100 MB, þurfum við að virkja upphlöðun sem skiptir henni upp í 1MB búta. Þetta er gert í stillingunum þínum og við það getur þú halið inn 500 MB skrá. Ef það er ekki nóg og þú ert með PDF skrá, notaðu þá ljóslestur Internet Archive sem ég nefndi hér fyrir ofan. Við það umbreytist PDF skráin í DjVu skrá sem er mun minni.

Skránni er hlaðið inn með því að nota Upphölunar álfinn.

Búa til síður[breyta]

Næsta skref er að búa til síður á wikiheimild. Athugaðu hvað skráarheitið er og afritaðu það. Límdu skráarheitið í fyrsta boxið hér fyrir neðan, smelltu á búa til blaðsíðu og vistaðu hana án þess að skrifa neitt. Næst, komdu aftur hingað, límdu skráarheitið í næsta reit og fylltu út eyðublaðið sem birtist. Skráarheitið ætti að vera eitthvað á borð við "Alice in Wonderland.djvu".