|
語料庫的分類 | |||
作者:admin 文章來源:本站原創 點擊數: 更新時間:2011-11-16 |
|
||
說明:引用此文請注明出處,并務請保留后面的有效鏈接地址,謝謝!
語料庫的分類 語料庫根據收錄語料的內容和屬性不同,通常可分為以下四種類型: ■異質型語料庫 異質型語料庫(Heterogeneous corpus)指沒有特定的語料收集原則,廣泛收集并原樣存儲各種語料。如英國牛津大學計算中心的OTA文本檔案庫。 ■同質型語料庫 同質型語料庫(Homogeneous)指只收集同一類內容的語料。例如收集與軍事的文本的美國TIPSTER語料庫。另外,還有國內的新華社“新聞語料庫”、北京大學計算語言學所與富士通公司合作開發的“日報語料庫”、香港城市大學語言資訊中心的中文五地區共時語料庫(Linguistic Variety in Chinese Communities)等。 ■系統型語料庫 系統型語料庫(Systematic)指根據預先確定的原則和比例收集語料,使語料具有平衡性和系統性,能夠代表某一范圍內的語言事實。如:北京語言大學的“現代漢語語料庫系統”、北京語言大學與香港理工大學合作的“現代漢語語料庫”、北京語言大學與清華大學合作的“現代漢語語料庫”、清華大學中文系的“清華TH語料庫”、語言文字工作委員會語用所的“現代漢語語料庫”等。 ■專用型語料庫 專用型語料庫(Specialized)指只收集用于某一特定用途的語料。如:美國卡耐基-梅隆大學為兒童心理語言學而的CHILDES語料庫、為珍藏人文科學著作和資料而的美國北美人文科學語料庫等。 |
|||
文章錄入:admin 責任編輯:admin | |||
【發表評論】【加入收藏】【告訴好友】【打印此文】【關閉窗口】 |
|
||||||
| 網站地圖 | 版權申明 | 設為首頁 | 加入收藏 | 會員中心 | 取回密碼 | 友情鏈接 | 用戶留言 | 管理登錄 | ||||
|