Text Encoding Initiative

Από τη Βικιπαίδεια, την ελεύθερη εγκυκλοπαίδεια

Text Encoding Initiative ( TEI ) ονομάζεται μια κοινότητα κειμενοκεντρικής πρακτικής στον ακαδημαϊκό τομέα των ψηφιακών ανθρωπιστικών επιστημών, που λειτουργεί αδιάκοπα από τη δεκαετία του 1980. Η κοινότητα διατηρεί επί του παρόντος μια λίστα αλληλογραφίας, διοργανώνει συναντήσεις και συνέδρια και συντηρεί τις τεχνικές προδιαγραφές ΤΕΙ, ένα περιοδικό, ένα wiki, ένα αποθετήριο GitHub και μια αλυσίδα εργαλείων .

Οδηγίες ΤΕΙ[Επεξεργασία | επεξεργασία κώδικα]

Οι Οδηγίες ΤΕΙ ορίζουν συλλογικά έναν τύπο μορφής XML και αποτελούν το καθοριστικό προϊόν της κοινότητας πρακτικής. Η μορφή διαφέρει από άλλες γνωστές μορφές κειμένου ανοιχτού κώδικα (όπως το HTML και το OpenDocument ) στο ότι είναι κυρίως σημασιολογική παρά απεικονιστική. καθορίζονται η σημειολογία και η ερμηνεία κάθε τιμής και ιδιότητας . Υπάρχουν περίπου 500 διαφορετικά κειμενικά στοιχεία και έννοιες ( word, [1]sentence ,[2]character , [3]glyph , [4]person , [5] κ.λπ.), καθένα απ' τα οποία βασίζεται σε ένα ή περισσότερα ακαδημαϊκά πεδία και για τα οποία δίνονται παραδείγματα.

Τεχνικές λεπτομέρειες[Επεξεργασία | επεξεργασία κώδικα]

Το πρότυπο χωρίζεται σε δύο μέρη, μια περιληπτική κειμενική περιγραφή με εκτεταμένα παραδείγματα και συζήτηση και ένα σύνολο ορισμών ανά τιμή. Τα σχήματα στις περισσότερες σύγχρονες μορφές ( DTD, RELAX NG και W3C Schema ) δημιουργούνται αυτόματα από τους ορισμούς ανά τιμή. Ένας αριθμός εργαλείων υποστηρίζει την ανάπτυξη των οδηγιών και την εφαρμογή τους σε συγκεκριμένα έργα.

Ένας αριθμός ειδικών τιμών χρησιμοποιείται για την παράκαμψη των περιορισμών που επιβάλλονται από το υφιστάμενο Unicode: η τιμή glyph για να επιτρέπεται η αναπαράσταση χαρακτήρων που δεν πληρούν τις προϋποθέσεις ενσωμάτωσης για συμπερίληψη Unicode [1] και η τιμή choice για να επιτραπεί η προσπέλαση της απαιτούμενης αυστηρής ιεραρχίας. [6]

Οι περισσότεροι χρήστες του προτύπου δεν αξιοποιούν το πλήρες φάσμα των τιμών, αλλά παράγουν μια παραμετροποίησή τους χρησιμοποιώντας ένα υποσύνολο ειδικών ανά έργο τιμών και ιδιοτήτων, όπως ορίζονται από τις Οδηγίες. Για το σκοπό αυτό το ΤΕΙ παρέχει έναν εξελιγμένο μηχανισμό προσαρμογής, γνωστό ως ODD. Εκτός από την τεκμηρίωση και την περιγραφή κάθε τιμής TEI, μια προδιαγραφή ODD καθορίζει το μοντέλο περιεχομένου και άλλους περιορισμούς χρήσης, οι οποίοι μπορούν να αποδοθούν χρησιμοποιώντας πρότυπο σχηματοποίησης (schematron) .

Το TEI Lite είναι ένα παράδειγμα τέτοιας παραμετροποίησης. Ορίζει έναν μορφότυπο αρχείου, βασισμένο σε XML με σκοπό την ανταλλαγή κειμένων. Είναι μια διαχειρίσιμη επιλογή από το εκτενές σύνολο στοιχείων που διατίθενται στις πλήρεις Οδηγίες του ΤΕΙ.

Ως μορφότυπος βασισμένος σε XML, το ΤΕΙ δεν μπορεί να ασχοληθεί άμεσα με επικαλυπτόμενες σημάνσεις και μη ιεραρχικές δομές. Οι οδηγίες προτείνουν ποικίλες επιλογές για την αναπαράσταση αυτού του είδους δεδομένων προτείνεται από τις οδηγίες. [7]

Παραδείγματα[Επεξεργασία | επεξεργασία κώδικα]

Το κείμενο των οδηγιών του ΤΕΙ βρίθει παραδειγμάτων. Υπάρχει επίσης μια σελίδα προτύπων αναφοράς στο wiki του ΤΕΙ, [8] που δίνει παραδείγματα πραγματικών έργων που υποδεικνύουν τη δομή ΤΕΙ που χρησιμοποίησαν.

Τιμές πεζού κειμένου[Επεξεργασία | επεξεργασία κώδικα]

Το TEI επιτρέπει την επισημείωση του κειμένου ως προς τη συντακτική σχέση των όρων της πρότασης με όσο βαθμό λεπτομέρειας επιθυμούμε. Για παράδειγμα, αυτή η παράγραφος (p) έχει επισημειωθεί σε επίπεδο περιόδων (s) και σε επίπεδο προτάσεων (cl). [9]

 <s>
  <cl>It was about the beginning of September, 1664,
  <cl>that I, among the rest of my neighbours,
       heard in ordinary discourse
   <cl>that the plague was returned again to Holland; </cl>
   </cl>
  </cl>
  <cl>for it had been very violent there, and particularly at
     Amsterdam and Rotterdam, in the year 1663, </cl>
  <cl>whither, <cl>they say,</cl> it was brought,
  <cl>some said</cl> from Italy, others from the Levant, among some goods
  <cl>which were brought home by their Turkey fleet;</cl>
  </cl>
  <cl>others said it was brought from Candia;
     others from Cyprus. </cl>
 </s>
 <s>
  <cl>It mattered not <cl>from whence it came;</cl>
  </cl>
  <cl>but all agreed <cl>it was come into Holland again.</cl>
  </cl>
 </s>

Στίχοι[Επεξεργασία | επεξεργασία κώδικα]

Το ΤΕΙ έχει τιμές για σήμανση στίχων. Το ακόλουθο παράδειγμα (παρμένο από τη γαλλική απόδοση των Οδηγιών ΤΕΙ) παρουσιάζει τη δομή ενός σονέτου σε TEI. [10]

<div type="sonnet">
 <lg type="quatrain">
  <l>Les amoureux fervents et les savants austères</l>
  <l> Aiment également, dans leur mûre saison,</l>
  <l> Les chats puissants et doux, orgueil de la maison,</l>
  <l> Qui comme eux sont frileux et comme eux sédentaires.</l>
 </lg>
 <lg type="quatrain">
  <l>Amis de la science et de la volupté</l>
  <l> Ils cherchent le silence et l'horreur des ténèbres ;</l>
  <l> L'Érèbe les eût pris pour ses coursiers funèbres,</l>
  <l> S'ils pouvaient au servage incliner leur fierté.</l>
 </lg>
 <lg type="tercet">
  <l>Ils prennent en songeant les nobles attitudes</l>
  <l>Des grands sphinx allongés au fond des solitudes,</l>
  <l>Qui semblent s'endormir dans un rêve sans fin ;</l>
 </lg>
 <lg type="tercet">
  <l>Leurs reins féconds sont pleins d'étincelles magiques,</l>
  <l> Et des parcelles d'or, ainsi qu'un sable fin,</l>
  <l>Étoilent vaguement leurs prunelles mystiques.</l>
 </lg>
</div>

Τιμή choice[Επεξεργασία | επεξεργασία κώδικα]

Η τιμή choice χρησιμοποιείται για την αναπαράσταση ενοτήτων κειμένου που ενδέχεται να κωδικοποιηθούν ή να επισημανθούν με περισσότερους από έναν πιθανούς τρόπους. Στο ακόλουθο παράδειγμα, με βάση ενός παραδείγματος του προτύπου, η τιμή choice χρησιμοποιείται δύο φορές, μία για να υποδείξει έναν πρωτότυπο και έναν διορθωμένο αριθμό και μία για να υποδείξει μια πρωτότυπη και κανονικοποιημένη ορθογραφία. [11]

<p xml:id="p23">Lastly, That, upon his solemn oath to observe all the above
articles, the said man-mountain shall have a daily allowance of
meat and drink sufficient for the support of <choice>
  <sic>1724</sic>
  <corr>1728</corr>
 </choice> of our subjects,
with free access to our royal person, and other marks of our
<choice>
  <orig>favour</orig>
  <reg>favor</reg>
 </choice>.

ODD[Επεξεργασία | επεξεργασία κώδικα]

Το One Document Does it all ("ODD") είναι μια γλώσσα κωδικοποίησης (literate programming) για σχήματα XML . [12] [13] [14] [15]

Στο είδος του εγγράμματου προγραμματισμού, τα έγγραφα ODD συνδυάζουν τεκμηρίωση αναγνώσιμη από τον άνθρωπο και μηχαναγνώσιμα μοντέλα χρησιμοποιώντας τη λειτουργική μονάδα των Στοιχείων Τεκμηρίωσης (Documentation Elements) του Text Encoding Initiative (Πρωτοβουλίας Κωδικοποίησης Κειμένου). Τα εργαλεία δημιουργούν τοπικά και διεθνοποιημένα HTML, ePub ή PDF αποτελέσματα αναγνώσιμα από τον άνθρωπο και DTD, σχήμα W3C XML, Relax NG Compact Syntax ή Relax NG XML Syntax μηχαναγνώσιμα αποτελέσματα.

Η διαδικτυακή εφαρμογή Roma [16] είναι βασισμένη στη μορφή ODD και μπορείτε να τη χρησιμοποιήσετε για τη δημιουργία σχημάτων σε μορφές DTD, W3C XML Schema, Relax NG Compact Syntax ή Relax NG XML Syntax, όπως χρησιμοποιείται από πολλά εργαλεία και υπηρεσίες επικύρωσης XML.

Το ODD είναι ο μορφότυπος που χρησιμοποιείται εσωτερικά από το Text Encoding Initiative για το τεχνικό πρότυπο ΤΕΙ. [17] Αν και τα αρχεία ODD γενικά περιγράφουν τη διαφορά μεταξύ μιας προσαρμοσμένης μορφής XML και του πλήρους μοντέλου TEI, το ODD μπορεί επίσης να χρησιμοποιηθεί για να περιγράψει μορφές XML που είναι εντελώς ξεχωριστές από το TEI. Ένα παράδειγμα αυτού είναι το Internationalization Tag Set του W3C που χρησιμοποιεί τη μορφή ODD για τη δημιουργία σχημάτων και την τεκμηρίωση του λεξιλογίου του. [18] [19]

Παραμετροποιήσεις ΤΕΙ[Επεξεργασία | επεξεργασία κώδικα]

Οι παραμετροποιήσεις του TEI είναι εξειδικεύσεις του προτύπου TEI XML για αξιοποίηση σε συγκεκριμένους τομείς ή από συγκεκριμένες κοινότητες

  • EpiDoc (Αρχεία Επιγραφικής)
  • Charters Encoding Initiative (κωδικοποίηση χαρτών)[20]
  • Medieval Nordic Text Archive (Menota)[21]

Η παραμετροποίηση του ΤΕΙ γίνεται μέσω του μηχανισμού ODD που προαναφέρθηκε. Στην πραγματικότητα, από την έκδοσή του P5, όλες οι λεγόμενες «TEI Conformant» χρήσεις των Οδηγιών ΤΕΙ βασίζονται σε μια παραμετροποίηση ΤΕΙ,όπως τεκμηριώνεται σε ένα αρχείο TEI ODD. Ακόμη και αν προτιμηθούν από τους χρήστες τα προ-δημιουργημένα και τυποποιημένα σχήματα επικύρωσης, αυτά έχουν δημιουργηθεί από ελεύθερα διαθέσιμα αρχεία προσαρμογής.

Έργα[Επεξεργασία | επεξεργασία κώδικα]

Το μορφότυπο χρησιμοποιείται από πολλά έργα παγκοσμίως. Πρακτικά όλα τα έργα είναι συνδεδεμένα με ένα ή περισσότερα πανεπιστήμια. Μερικά γνωστά έργα που κωδικοποιούν κείμενα χρησιμοποιώντας ΤΕΙ περιλαμβάνουν:

Έργα ΤΕΙ
Εργο URL Δυνατά σημεία
British National Corpus http://www.natcorp.ox.ac.uk Στιγμιότυπο 100 εκατομμυρίων λέξεων της τρέχουσας αγγλικής γλώσσας
Oxford Text Archive https://ota.bodleian.ox.ac.uk/repository/xmlui/ >1 GB γλωσσικών δεδομένων και ηλεκτρονικών κειμένων σε 25 γλώσσες
Perseus Project https://www.perseus.tufts.edu/ Ελληνικά και Λατινικά κείμενα
EpiDoc https://sourceforge.net/p/epidoc/wiki/Home/ Επιγραφική και Παπυρολογία
Women Writers Project https://wwp.northeastern.edu/ Πρώιμες μοντερνιστές γυναίκες συγγραφείς ( Margaret Cavendish, Eliza Haywood, κ.λπ. )
New Zealand Electronic Text Centre http://www.nzetc.org/ Κείμενα της Νέας Ζηλανδίας και των Νήσων Ειρηνικού
The SWORD Project https://www.crosswire.org/sword/ Λογισμικό της Βίβλου, λεξικά, χριστιανική λογοτεχνία
FreeDict https://freedict.org/ Δίγλωσσα λεξικά
Text Creation Partnership https://textcreationpartnership.org/ Πρώιμα αγγλικά και αμερικανικά βιβλία
CELT https://celt.ucc.ie/publishd.html Αρχαία και μεσαιωνικά ιρλανδικά χειρόγραφα
ISTEX https://www.istex.fr/ Αρχείο επιστημονικών δημοσιεύσεων
CAB https://cab.geschkult.fu-berlin.de/ Έκδοση των Ζωροαστρικών Τελετουργικών στην Αβεστική Γλώσσα

Ιστορία[Επεξεργασία | επεξεργασία κώδικα]

Πριν από τη δημιουργία του ΤΕΙ, οι μελετητές των ανθρωπιστικών επιστημών δεν είχαν κοινά πρότυπα για την κωδικοποίηση ηλεκτρονικών κειμένων με τρόπο που να εξυπηρετεί τους ακαδημαϊκούς τους στόχους (Hockey 1993, σελ. 41). Το 1987, μια ομάδα μελετητών που αντιπροσώπευαν τομείς στις ανθρωπιστικές επιστήμες, τη γλωσσολογία και την πληροφορική συγκεντρώθηκε στο Vassar College για να παρουσιάσει ένα σύνολο κατευθυντήριων γραμμών γνωστών ως «Αρχές Poughkeepsie». Αυτές οι οδηγίες κατεύθυναν την ανάπτυξη του πρώτου προτύπου ΤΕΙ, «P1». [22] [23]

  • 1987 – Ξεκίνησαν εργασίες από την Ένωση Πληροφορικής και Ανθρωπιστικών Επιστημών, [24] την Ένωση Υπολογιστικής Γλωσσολογίας και την Ένωση Πληροφορικής για τη Λογοτεχνία και τη Γλωσσολογία για την ανάπτυξη του ΤΕΙ. [25] Οι εργασίες επιστέφθηκαν με τον Τελικό απολογισμό του Συνεδρίου Vassar Planning. [26]
  • 1994 – Κυκλοφόρησε το TEI P3, [27] με συν-επιμέλεια του Lou Burnard (στο Πανεπιστήμιο της Οξφόρδης ) και του Michael Sperberg-McQueen (τότε στο Πανεπιστήμιο του Illinois στο Σικάγο, αργότερα στο W3C ).
  • 1999 – Ενημερώθηκε το ΤΕΙ P3.
  • 2002 – Κυκλοφόρησε το ΤΕΙ P4, μεταβαίνοντας από το SGML στο XML: υιοθέτηση του Unicode, το οποίο απαιτείται να υποστηρίζουν οι αναλυτές XML. [28]
  • 2007 – Κυκλοφόρησε το TEI P5, συμπεριλαμβανομένης της ενσωμάτωσης με τις ιδιότητες xml:lang και xml:id από το W3C [29] (αυτά ήταν προηγουμένως ιδιότητες στην ονοματοδοσία του TEI), κανονικοποίηση των τοπικών ιδιοτήτων κατάδειξης για χρήση του κατακερματισμού (όπως χρησιμοποιείται στην HTML ) και ενοποίηση των τιμών ptr και xptr. Μαζί αυτές οι αλλαγές με πολλές ακόμη νέες προσθήκες κανονικοποιούν το P5 και το φέρνουν πιο κοντά στην τρέχουσα πρακτική xml όπως προωθείται από το W3C και όπως χρησιμοποιείται από άλλες παραλλαγές XML. Οι εκδόσεις συντήρησης και ενημέρωσης δυνατοτήτων του TEI P5 κυκλοφορούν τουλάχιστον δύο φορές τον χρόνο από το 2007.
  • 2011 – Κυκλοφόρησε το TEI P5 v2.0.1 με υποστήριξη για τη λεγόμενη τεχνική του genetic editing[30] (ανάμεσα σε πολλές άλλες προσθήκες, οι λειτουργίες του genetic editing επιτρέπουν την κωδικοποίηση κειμένων χωρίς ερμηνεία ως προς τη συγκεκριμένη σημασιολογία τους, επιτρέποντας τον προσδιορισμό της καταγωγής των γραφών και της χειρόγραφης παράδοσης).
  • 2017 – Το ΤΕΙ τιμήθηκε με το Βραβείο Antonio Zampolli από την Ένωση Οργανισμών για τις Ψηφιακές Ανθρωπιστικές Επιστήμες. [31]

Βιβλιογραφία[Επεξεργασία | επεξεργασία κώδικα]

  1. 1,0 1,1 «TEI element w (word)». tei-c.org. 
  2. «TEI element s (s-unit)». tei-c.org. 
  3. «TEI element c (character)». tei-c.org. 
  4. «TEI element g (character or glyph)». tei-c.org. 
  5. «TEI element person (person)». tei-c.org. 
  6. «Element choice». www.tei-c.org. 
  7. «20 Non-hierarchical Structures - TEI P5: — Guidelines for Electronic Text Encoding and Interchange». tei-c.org. 2019. Ανακτήθηκε στις 19 Μαρτίου 2019. 
  8. «Samples of TEI texts». wiki.tei-c.org. 2011. Ανακτήθηκε στις 17 Απριλίου 2012. 
  9. «17 Simple Analytic Mechanisms - TEI P5: — Guidelines for Electronic Text Encoding and Interchange». tei-c.org. 2012. Ανακτήθηκε στις 15 Απριλίου 2012. 
  10. «TEI element lg (groupe de vers)». tei-c.org. 2012. Αρχειοθετήθηκε από το πρωτότυπο στις 6 Ιουνίου 2012. Ανακτήθηκε στις 15 Απριλίου 2012. 
  11. «TEI element choice». tei-c.org. 2012. Ανακτήθηκε στις 15 Απριλίου 2012. 
  12. Bauman, Syd; Flanders, Julia (2004), «ODD customizations», Extreme Markup Languages 2004, http://conferences.idealliance.org/extreme/html/2004/Bauman01/EML2004Bauman01.html, ανακτήθηκε στις 2022-05-11 .
  13. Burnard, Lou; Rahtz, Sebastian (2004), «RelaxNG with Son of ODD», Extreme Markup Languages 2004, http://conferences.idealliance.org/extreme/html/2004/Burnard01/EML2004Burnard01.html, ανακτήθηκε στις 2022-05-11 .
  14. Reiss, Kevin M. (2007), Literate Documentation for XML, Urbana-Champaign, Illinois: Digital Humanities 2007, http://dhcommons.tamu.edu/sites/default/files/poster_208_reiss.pdf, ανακτήθηκε στις 2022-05-11 .
  15. Burnard, Lou; Rahtz, Sebastian (June 2013). «A complete schema definition language for the Text Encoding Initiative». XML London 2013: 152–161. doi:10.14337/XMLLondon13.Rahtz01. ISBN 978-0-9926471-0-0. Αρχειοθετήθηκε από το πρωτότυπο στις 2022-03-29. https://web.archive.org/web/20220329015207/https://xmllondon.com/2013/presentations/rahtz/. Ανακτήθηκε στις 2022-05-11. 
  16. Roma web application
  17. Burnard, Lou; Bauman, Syd, επιμ.. (2007), TEI P5: Guidelines for Electronic Text Encoding and Interchange, Charlottesville, Virginia, USA: TEI Consortium, http://www.tei-c.org/Guidelines/P5/ .
  18. W3C ITS and TEI ODD file Αρχειοθετήθηκε 2017-07-15 στο Wayback Machine.
  19. Savourel, Yves; Kosek, Jirka; Ishida, Richard, επιμ.. (2008), «5.2 ITS and TEI», Best Practices for XML Internationalization, W3C Working Group, http://www.w3.org/TR/xml-i18n-bp/ .
  20. «Charters Encoding Initiative - Ludwig-Maximilians-Universität München». www.cei.lmu.de. 
  21. «Medieval Nordic Text Archive (Menota)». www.menota.org. 
  22. Ahronheim, J.R. (1998). «Descriptive metadata: Emerging standards.». Journal of Academic Librarianship 24 (5): 395–403. doi:10.1016/S0099-1333(98)90079-9. https://archive.org/details/sim_journal-of-academic-librarianship_1998-09_24_5/page/395. 
  23. Cantara, L. (2005). «The text-encoding initiative: Part 1». OCLC Systems & Services 21 (1): 36–39. doi:10.1108/10650750510578136. 
  24. «The Association for Computers and the Humanities |». ach.org. 
  25. "Historical background", section iv.2 of TEI P5: Guidelines for Electronic Text Encoding and Interchange.
  26. «Closing statement of the Vassar Planning Conference». tei-c.org. 2009. Ανακτήθηκε στις 15 Απριλίου 2012. 
  27. «TEI Guidelines». Ανακτήθηκε στις 18 Ιουνίου 2010. 
  28. «2», XML Basics, http://www.xmlnews.org/docs/xml-basics.html, ανακτήθηκε στις 2011-07-09 
  29. «Extensible Markup Language (XML) 1.0 (Fifth Edition)». w3.org. 
  30. «P5 version 2.0.1 release notes». tei-c.org. 2012. Ανακτήθηκε στις 15 Απριλίου 2012. 
  31. «TEI: Text Encoding Initiative». 

Εξωτερικοί σύνδεσμοι[Επεξεργασία | επεξεργασία κώδικα]