甘肅省研究團(tuán)隊(duì)填補(bǔ)空白 首個(gè)簡(jiǎn)牘字符檢測(cè)與識(shí)別大規(guī)模數(shù)據(jù)集正式發(fā)布
中國(guó)甘肅網(wǎng)3月27日訊 據(jù)蘭州晚報(bào)報(bào)道 3月26日,記者從西北師范大學(xué)獲悉,由該校聯(lián)合甘肅簡(jiǎn)牘博物館推出的簡(jiǎn)牘字符檢測(cè)與識(shí)別數(shù)據(jù)集——DeepJiandu數(shù)據(jù)集正式對(duì)外發(fā)布。該數(shù)據(jù)集的發(fā)布填補(bǔ)了歷史文獻(xiàn)數(shù)字化與人工智能結(jié)合的空白,標(biāo)志著簡(jiǎn)牘智能化研究的重要進(jìn)展,不僅為簡(jiǎn)牘整理與自動(dòng)識(shí)別提供了重要支持,也將進(jìn)一步推動(dòng)數(shù)字人文領(lǐng)域的持續(xù)創(chuàng)新與發(fā)展。
據(jù)介紹,該數(shù)據(jù)集共包含7416張圖像,標(biāo)注了99852個(gè)字符,涵蓋2242個(gè)類(lèi)別,能夠提供極具挑戰(zhàn)性的簡(jiǎn)牘字符識(shí)別任務(wù)場(chǎng)景。數(shù)據(jù)集基于紅外圖像資料構(gòu)建,顯著增強(qiáng)了墨跡清晰度,為簡(jiǎn)牘的數(shù)字化保護(hù)與學(xué)術(shù)研究提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。
簡(jiǎn)牘(Jiandu)是中國(guó)古代記錄歷史信息的重要媒介,其歷史可追溯至戰(zhàn)國(guó)、秦、漢、魏晉等時(shí)期。然而,由于簡(jiǎn)牘材料的脆弱性,長(zhǎng)期埋藏環(huán)境導(dǎo)致字符模糊、字跡缺損、布局復(fù)雜等問(wèn)題,使得人工識(shí)別與整理極為困難。現(xiàn)有的文獻(xiàn)數(shù)字化技術(shù)雖在甲骨文、蒙文手寫(xiě)體、巴厘島棕櫚葉手稿等領(lǐng)域取得突破,但在簡(jiǎn)牘字符識(shí)別方面仍缺乏高質(zhì)量的數(shù)據(jù)集,制約了深度學(xué)習(xí)在該領(lǐng)域的應(yīng)用。DeepJiandu數(shù)據(jù)集的構(gòu)建正是為了解決這一問(wèn)題。
該數(shù)據(jù)集由簡(jiǎn)牘學(xué)專(zhuān)家與計(jì)算機(jī)團(tuán)隊(duì)聯(lián)合標(biāo)注,涵蓋2242種常用字符類(lèi)別,確保專(zhuān)業(yè)性與準(zhǔn)確性。其設(shè)計(jì)充分考慮了字符殘損、異形字、多種排布等復(fù)雜場(chǎng)景,有效提升了模型對(duì)歷史文獻(xiàn)的適應(yīng)能力。
據(jù)了解,研究團(tuán)隊(duì)依托已有紅外圖像資料,從1萬(wàn)余件簡(jiǎn)牘文物中篩選出7416張高質(zhì)量圖像,覆蓋不同材料、書(shū)寫(xiě)風(fēng)格與字體特征,確保數(shù)據(jù)的代表性與多樣性。所有圖像使用目標(biāo)檢測(cè)標(biāo)注工具(LabelImg)對(duì)99852個(gè)字符進(jìn)行了精細(xì)標(biāo)注,包括字符位置與類(lèi)別信息。整個(gè)過(guò)程在專(zhuān)家釋讀指導(dǎo)下完成,兼顧學(xué)術(shù)價(jià)值與機(jī)器可讀性。
為確保科學(xué)性,研究團(tuán)隊(duì)將數(shù)據(jù)集按比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,提升模型的泛化能力。數(shù)據(jù)集的字符類(lèi)別統(tǒng)計(jì)顯示,盡管字符尺寸差異較大,但該數(shù)據(jù)集仍可為多尺度目標(biāo)檢測(cè)任務(wù)提供良好的支持。此外,結(jié)合計(jì)算機(jī)視覺(jué)與歷史語(yǔ)言學(xué),該數(shù)據(jù)集還將推動(dòng)文博機(jī)構(gòu)的數(shù)字化轉(zhuǎn)型,為多模態(tài)文化遺產(chǎn)保護(hù)提供新的技術(shù)路徑。
據(jù)悉,隨著該數(shù)據(jù)集的推廣,研究團(tuán)隊(duì)預(yù)計(jì)將有更多深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)領(lǐng)域的研究者加入簡(jiǎn)牘OCR研究,并推動(dòng)人工智能在歷史文獻(xiàn)解析、文化遺產(chǎn)保護(hù)等多學(xué)科交叉領(lǐng)域的應(yīng)用。未來(lái),團(tuán)隊(duì)將繼續(xù)優(yōu)化數(shù)據(jù)集,并探索圖像融合、文獻(xiàn)綴合、書(shū)寫(xiě)風(fēng)格分析、端到端識(shí)別等前沿技術(shù),為數(shù)字人文研究提供更加全面的技術(shù)支持。
據(jù)了解,該工作由西北師范大學(xué)簡(jiǎn)牘研究院、甘肅省簡(jiǎn)牘智能計(jì)算與數(shù)字人文工程研究中心張強(qiáng)教授團(tuán)隊(duì)具體開(kāi)展,上海中西書(shū)局、甘肅文化出版社提供相關(guān)數(shù)據(jù)資源,西南大學(xué)參與數(shù)據(jù)驗(yàn)證實(shí)驗(yàn)工作,相關(guān)研究論文發(fā)表于國(guó)際期刊《Scientific Data》。
蘭州日?qǐng)?bào)社全媒體記者 馬文艷
- 2025-03-27甘肅省2025年上半年高等學(xué)校英語(yǔ)應(yīng)用能力考試今起開(kāi)始報(bào)名
- 2025-03-26隴拍客|平?jīng)觯悍e分兌換養(yǎng)成學(xué)生良好習(xí)慣
- 2025-03-26英烈精神 薪火相傳 蘭州市烈士陵園迎來(lái)清明祭掃高峰
- 2025-03-20甘肅研學(xué)旅行資源對(duì)接大會(huì)(蘭州站)推介會(huì)舉辦






