2025共商推進(jìn)教育科技人才一體化發(fā)展論壇
首頁 > 科研動態(tài)
關(guān)注我們
學(xué)術(shù)橋-訂閱號
學(xué)術(shù)橋-小程序
基于大規(guī)模自發(fā)言語的漢語學(xué)前兒童詞匯數(shù)據(jù)庫發(fā)布

  詞匯數(shù)據(jù)庫是心理語言學(xué)和認(rèn)知神經(jīng)科學(xué)研究的重要基礎(chǔ)工具。然而,現(xiàn)有的漢語詞匯數(shù)據(jù)庫主要來源于成人文本、兒童讀物及動畫等輸入性材料,難以客觀反映學(xué)前兒童在自然交流場景中能產(chǎn)出的詞匯類型及表達(dá)特征。學(xué)前階段是兒童詞匯量快速增長的關(guān)鍵時期,但兒童的表達(dá)性詞匯與理解性詞匯在規(guī)模與分布上存在明顯差異。因此,構(gòu)建基于兒童真實(shí)口語表達(dá)產(chǎn)出的專門數(shù)據(jù)庫,對于深入探討兒童語言發(fā)展規(guī)律與認(rèn)知機(jī)制具有重要價值。

  近日,中國科學(xué)院心理研究所研究團(tuán)隊(duì),發(fā)布了漢語學(xué)前兒童口語詞匯數(shù)據(jù)庫(CPCSLD)。該數(shù)據(jù)庫基于北京地區(qū)648名3至6歲兒童,在同伴對話情境中的自發(fā)言語構(gòu)建,語料涵蓋旅行、玩具、圖書、動畫、機(jī)器人、游樂園等貼近兒童日常生活的主題。該語料庫共包含約120萬詞次、21372個不同詞條、1147個帶聲調(diào)音節(jié)及400個不帶聲調(diào)音節(jié),并按幼兒園小班(K1)、中班(K2)及大班(K3)三個年齡段分別構(gòu)建了對應(yīng)的子數(shù)據(jù)庫。

  該數(shù)據(jù)庫系統(tǒng)性提供了詞匯和音節(jié)兩個層面的多維信息,涵蓋詞頻、詞長、詞類、音節(jié)頻率(帶聲調(diào)/不帶聲調(diào))等多種指標(biāo),可支撐對學(xué)前兒童口語詞匯結(jié)構(gòu)特征和發(fā)展變化規(guī)律的精細(xì)刻畫。分析結(jié)果顯示,隨著兒童年齡增長,其自發(fā)言語中多音節(jié)詞占比呈逐步上升趨勢,詞匯結(jié)構(gòu)日趨復(fù)雜,且不同詞類在兒童表達(dá)性語言中的分布也呈現(xiàn)出年齡相關(guān)性發(fā)展規(guī)律。

  為檢驗(yàn)該數(shù)據(jù)庫的心理語言學(xué)效度,研究團(tuán)隊(duì)進(jìn)一步將CPCSLD與多個已有的漢語詞匯數(shù)據(jù)庫開展對比分析,并將其應(yīng)用于學(xué)前兒童在語義判斷任務(wù)與圖片命名任務(wù)表現(xiàn)的預(yù)測。結(jié)果表明,CPCSLD在預(yù)測兒童圖片命名反應(yīng)和正確率方面具有明顯優(yōu)勢,其預(yù)測效果優(yōu)于基于成人語料或輸入性兒童語料構(gòu)建的數(shù)據(jù)庫;而在以詞匯理解為主的語義判斷任務(wù)中,其預(yù)測優(yōu)勢相對有限。上述結(jié)果表明,基于兒童自發(fā)言語構(gòu)建的詞匯數(shù)據(jù)庫,更能捕捉學(xué)前兒童言語產(chǎn)生過程中的關(guān)鍵統(tǒng)計特征。

  CPCSLD是首個專門面向漢語學(xué)前兒童表達(dá)性詞匯、基于自然口語產(chǎn)出構(gòu)建的漢語詞匯數(shù)據(jù)庫,為兒童語言發(fā)展與言語產(chǎn)生研究提供了新的工具。同時,該數(shù)據(jù)庫可用于探討學(xué)前兒童詞匯與言語產(chǎn)生的發(fā)展機(jī)制,并可服務(wù)于兒童語言評估、語言障礙早期篩查及教育干預(yù)等研究,為探索兒童心理詞匯表組織結(jié)構(gòu)、發(fā)展軌跡以及其神經(jīng)基礎(chǔ),提供了重要的數(shù)據(jù)支撐。

  相關(guān)研究成果發(fā)表在《行為研究方法》(Behavior Research Methods)上。研究工作得到國家自然科學(xué)基金委員會、中國科學(xué)院的支持。

詞匯數(shù)據(jù)庫的構(gòu)建流程

詞頻和音節(jié)頻率的分布

延伸閱讀
特別聲明:本文轉(zhuǎn)載僅僅是出于傳播信息的需要,并不意味著代表本網(wǎng)站觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性。
如果作者不希望被轉(zhuǎn)載,請與我們聯(lián)系。
掃碼關(guān)注學(xué)術(shù)橋
關(guān)注人才和科研