亚洲日本成本线在观看,最新国自产拍在线,免费性爱视频日本,久久精品国产亚洲精品国产精品

            現(xiàn)在位置:范文先生網(wǎng)>理工論文>計算機信息技術(shù)>一種基于人機結(jié)合思想的書本式地方文獻索引編制方法

            一種基于人機結(jié)合思想的書本式地方文獻索引編制方法

            時間:2023-02-22 15:52:28 計算機信息技術(shù) 我要投稿
            • 相關(guān)推薦

            一種基于人機結(jié)合思想的書本式地方文獻索引編制方法


              地方文獻以其地名、人名、機構(gòu)名等專有名詞術(shù)語眾多而一直是索引編制的難點。對于文字數(shù)量數(shù)百萬乃至上千萬的地方文獻而言,若要達到滿足讀者檢索要求的標引深度,則索引制作的工作量就會急劇增加。如果純用手工制作,不僅在信息的處理過程中容易產(chǎn)生差錯,且費時費力。為了解決這一矛盾,降低索引編制成本,需要引入計算機信息處理技術(shù)。以下我們以在《杭州市志·索引》編制過程中開發(fā)的計算機輔助索引軟件(CAIC1.0Beta)為例,就詳細說明這一基于人機結(jié)合思想的地方文獻索引編制方法。

            一種基于人機結(jié)合思想的書本式地方文獻索引編制方法

            1 現(xiàn) 狀

            目前,運用計算機信息處理技術(shù)來進行漢語文獻索引編制的方法一般分為兩大類:一種為基本以自動標引、索引為主的方法,其中漢語自動標引法常見的有詞典標引法、切分標引法、語法分析標引法、漢語自動標引專家系統(tǒng)、單漢字標引法等;在漢語索引法上則多采用題名關(guān)鍵詞抽詞索引法、主題詞表選詞索引法、職能符號標引索引法等。這些方法都在一定程度上解決了漢語文獻標引和索引的問題,但由于漢語語言現(xiàn)象的復雜性,此工作基本都在文獻題名這一層次上展開,至于針對文獻全文的智能標引和索引尚處于探索階段。而且,這些方法需要具備相當專業(yè)的計算機、語言學、文獻學知識,并且相關(guān)的專用軟件獲取成本極高。另一個常用方法是人機結(jié)合、以人為主的方法,主要為采用諸如Foxpro MicrosoftAccess據(jù)庫軟件來編制。這種方法具有技術(shù)要求低、使用方便的特性。但這僅是一個以人工為主、輔以計算機技術(shù)的方案,并且參照系統(tǒng)即關(guān)鍵詞之間的相互關(guān)系(見、參見)不能直接在上述數(shù)據(jù)庫軟件中得到表達和轉(zhuǎn)移,因此索引庫的生成無法直接應用參照系統(tǒng),編制者將不得不依靠手工來進行,這是一個非常繁瑣而且極易導致差錯的工作。

            2 解決方案的系統(tǒng)設(shè)計

            方志作為地方文獻的一個重要門類,其數(shù)量龐大,包含了一個區(qū)域的自然、政治、經(jīng)濟、文化、社會、軍事等信息,有地方百科全書之稱,具有極高的使用價值。為此,我們在實踐中以《杭州市志·索引》作為地方文獻的樣本,對此進行索引的編制。其編制目標是一部分析內(nèi)容的書本式關(guān)鍵詞索引,其標引范圍為全志中的正文、附錄、圖、表格、照片,標引對象為人物、機構(gòu)、地名以及其他一切具有檢索價值的各類事物、事件和活動。

            對于一個優(yōu)秀的索引而言,確定適合的標引、索引方案和參照系統(tǒng)是至關(guān)重要的,也是本索引編制解決方案首先要解決的問題。因此,在系統(tǒng)設(shè)計過程中,我們考慮了地方文獻的特點和客觀實際,分析上述方法的利弊,制訂了以下的編制思路!

            2.1 標引方案 以實現(xiàn)的手段劃分,可分為人工標引和自動標引。自動標引又可分為自動 抽詞標引和賦詞標引。自動抽詞標引是指直接從原文中抽取詞或短語作為標引詞來描述文獻的主題內(nèi)容。如果在自動標引過程中,使用的標引詞來自于預先編制好的詞表,則稱之為自動賦詞標引。對于計算機而言,針對漢語的自動抽詞主要困難在于自動分詞以及選取標引詞的標準,而自動抽詞標引的標準很大程度上是建立在詞頻統(tǒng)計的基礎(chǔ)上的。就方志這一類地方文獻而言,如果一些人名、地名在文獻中只出現(xiàn)數(shù)次乃至一次的話,就很有可能不被標引,這會導致大量有價值的信息不能被檢索到。而如果放低詞頻標準,則相關(guān)的標引詞數(shù)量會急劇增多,書本式索引的篇幅會相當龐大。而自動賦詞標引又依賴于詞表,由于方志的地域性,這樣一個包含有大量地方獨特的人名、機構(gòu)名和地方特色事物的詞表一般都沒有建立,因此無從根據(jù)詞表來進行自動標引。

            由于地方文獻的編纂者或研究者對于文獻內(nèi)容比較熟悉,可以準確地分析主題內(nèi)容,并抽取相應的關(guān)鍵詞予以標引。因此,采用由他們來進行人工標引的方法,應該是方便和切合實際操作情況的策略。 

            2.2 索引方案 索引款目的自動生成目前已經(jīng)有很多實際應用的方案,如鏈式索引法(ChainIndexing)、選擇組合排列索引法SLIC)、掛接主題索引法(ASI)、保留上下文索引法(PRECIS)等,這些基于計算機的索引法無一例外地運用了輪排或循環(huán)技術(shù),對于計算機來說只要設(shè)定好索引法的原則后,工作是相當簡單的。但是這種方法會導致索引款目急劇增多的后果,因此這種對于專業(yè)性文獻檢索工具而言是十分適合的方法,運用到地方文獻上時,特別是如方志一類篇量較大的文獻上時,就要承擔索引篇幅大幅增加印刷成本提高所帶來的危險;谶@個因素,我們認為在方志索引上應該采取對于絕大部分的索引詞不進行輪排,只對極個別的主標目和副標目進行輪排的索引方案,以最小的代價來實現(xiàn)相對高的查全率。 

            2.3 參照系統(tǒng)生成 是否設(shè)置參照系統(tǒng)是衡量索引系統(tǒng)質(zhì)量的重要指標之一。而為了提高查全率,也需要我們設(shè)置參照系統(tǒng)。參照系統(tǒng)由主標目詞和見參照(seereference)、參見參照(seeaisoreference)組成,從而保證了索引的整體性和系統(tǒng)性。因此,我們認為在沒有現(xiàn)成詞表的前提下,運用計算機技術(shù)結(jié)合人工干預來生成參照系統(tǒng)應該是軟件追求的目標。

              2.4 編程語言的選擇 由于直接運用Foxpro數(shù)據(jù)庫技術(shù)在款目地址碼歸并和參照系統(tǒng)生成上的困難,因此采用通用編程語言是理想的選擇。Delphi為一種面向?qū)ο蟮目梢晳贸绦蜷_發(fā)工具,與其他語言相比,它提供了一種快速的編譯器,優(yōu)化編譯模式在很大程度上提高了代碼質(zhì)量和運行穩(wěn)定性,所以這種語言一直受到專業(yè)人士的青睞。同時,Delphi特別對于數(shù)據(jù)庫的體系結(jié)構(gòu)提供了強大的支撐,Delphi還允許開發(fā)者將應用程序作為單一的.exe文件提供給終端用戶,這樣就減少了可執(zhí)行文件在運行時對于其他文件或DLL(動態(tài)鏈接文件)的依賴。因此我們以Delphi為系統(tǒng)前臺,以MicrosoftAccess為后臺數(shù)據(jù)庫存儲原始信息,來編制索引計算機輔助編制系統(tǒng)。

            3 本方案的技術(shù)實現(xiàn) 

            3.1 數(shù)據(jù)結(jié)構(gòu) 本軟件數(shù)據(jù)庫包含三個主要的數(shù)據(jù)表:a 主表(標引詞庫)。該表用來儲存從方志文獻中抽取的關(guān)鍵詞和諸如卷號、頁碼、體裁、參照關(guān)系等屬性,以及一些用于操作管理的信息。其中的記錄需要索引編制者人工輸入。為了方便數(shù)據(jù)的錄入工作,一般可按照文獻的頁碼順序依次輸入。b 關(guān)鍵詞表。該表依據(jù)主表表達的各標引詞之間的參照關(guān)系,由程序自動生成。此表是軟件下一步進行索引合成的依據(jù)。c 索引正文數(shù)據(jù)表。該表用來儲存關(guān)鍵詞及其地址碼(卷號、頁碼),可用來最后輸出索引正文格式的文本文件。

              3.2 程序功能(主控界面見圖1)

            本軟件具備信息采集;信息處理;信息輸出三大功能。

            3.2.1 信息采集功能。主要是由索引編制者將標引詞(關(guān)鍵詞)及其屬性輸入主表。標引詞屬性包括關(guān)鍵詞所在卷號、頁碼、關(guān)鍵詞代表內(nèi)容的體裁(文、圖、照片、表格)以及參照系統(tǒng)。

            3.2.2 信息處理功能。包括人工干預(預處理)功能、關(guān)鍵詞表生成功能、索引正文生成功能。

            人工干預功能。由于標引者對索引編制規(guī)范和對志書原文的理解可能不一致,不同作者在處理相同事物所用的術(shù)語亦有不同,以及數(shù)據(jù)錄入過程中都會導致相同內(nèi)涵的關(guān)鍵詞往往以不同的形式出現(xiàn)。具體表現(xiàn)形式有:a.一見多———如A見B,A見C,A見D,……;b.連續(xù)見———如A見B,B見C,C見D,……;c.循環(huán)見———如A見B,B見C,C見A(A、B、C均指不同的關(guān)鍵詞,下同);d.同頁重復。

            如果產(chǎn)生如上a、b、c三種情況,對于形式a而言,將在索引輸出中丟失信息A見C和A見D(假設(shè)B的音序先于C、D,下同);對于情況b而言,將在索引輸出中丟失信息A見B和B見C;對于情況c而言,將出現(xiàn)關(guān)鍵詞A、B、C及其地址碼等信息的丟失;對于情況d而言,則會在索引中出現(xiàn)某一關(guān)鍵詞后跟有完全相同的地址碼。

            上述情況出現(xiàn)的數(shù)量并不少,這就可能導致生成信息的大量缺失而導致索引資料的不完整。由于人工檢查極為煩瑣且不完全甚至可能會引入新的錯誤,為此本軟件特設(shè)預處理功能(見圖2),將上述的“循環(huán)見處理”、“連續(xù)見處理”、“一見多處理”、“同頁重復處理”,通過人工干預子功能,能夠自動查找在索引主數(shù)據(jù)庫中由于在標引、數(shù)據(jù)錄入過程中產(chǎn)生的差錯,生成錯誤提示(寫入.TXT文件,格式見信息輸出功能部分),以便編制者根據(jù)提示信息檢查主數(shù)據(jù)庫,對錯誤進行修改。同時本軟件還可在一定程度上對上述錯誤在人工確認正確的關(guān)系后自動予以修復,保證了在后續(xù)處理過程中信息的正確。

            此外,由于方志具有地域性,因此記述到的機構(gòu)往往都為本地機構(gòu)。這樣就會存在大量具有同一地名或行政區(qū)劃名開始的機構(gòu)名。例如,《杭州市志》中就存在大量的以“浙江省”、“杭州市”等為首的機構(gòu)名,如果一律以機構(gòu)名首字音序排列的話,即,如將“浙江省人民政府”和“杭州市人民政府”分別排列在“浙”字和“杭”字中,如此就會出現(xiàn)大量以“浙江省”、“杭州市”開頭的機構(gòu)聚集在一起的情況,從而極大地增加檢索難度,同時還會造成相關(guān)信息的離散。為此,在預處理時設(shè)置了前置詞處理功能,程序自動將這些詞作為前置詞,進行倒置處理,關(guān)鍵詞則按截去前置詞后剩余部分為音序排列。在輸出時,則自動將后置的前置詞還原至頭部(詳見輸出功能部分)。

            關(guān)鍵詞表生成功能。程序自動從主表(標引詞庫)中根據(jù)標引者設(shè)置的參照系統(tǒng)生成關(guān)鍵詞表。此關(guān)鍵詞表是索引正文生成階段的依據(jù),它與主數(shù)據(jù)庫、索引正文保持相對獨立性,以后索引編制者只要對關(guān)鍵詞表中的關(guān)鍵詞及其相互關(guān)系(參照系統(tǒng))進行維護,即可獲得正確結(jié)果,而無需對主表數(shù)據(jù)進行大量的修改工作,大大減少了工作量。

            索引正文生成功能。軟件自動根據(jù)關(guān)鍵詞表中的關(guān)鍵詞及其相互關(guān)系,對主表中的數(shù)據(jù)進行處理,按照索引要求,將相同關(guān)鍵詞的卷號、頁碼、體裁代碼按照卷數(shù)、頁碼先后排列,并根據(jù)關(guān)鍵詞表中的參照系統(tǒng),作出相應處理,將“所見”關(guān)鍵詞的頁碼自動歸并到“被見”關(guān)鍵詞后,并作出“參見”說明。

            3.2.3 信息輸出功能。該功能可分兩種情況:一種是以數(shù)據(jù)庫的形式輸出階段性的查詢操作結(jié)果,一種是文本文件形式輸出結(jié)果。第一種情況的查詢功能包括主表查詢、關(guān)鍵詞表查詢,它支持精確和模糊查詢。第二種情況的信息輸出可分為三種輸出格式,分別對應于索引編制的不同階段。其中格式1是在對主表輸入標引詞及其屬性等原始信息后輸出的格式,它主要是用來和標引原始記錄進行校對。格式1以頁碼為順序排列關(guān)鍵詞,其格式如下:

            格式1:頁碼1———關(guān)鍵詞1(Keyword 1)[說明語(Description)][見關(guān)鍵詞2][參見關(guān)鍵詞3]……

            格式2為利用本文中設(shè)計的人工干預算法所生成的計算機提示信息。格式如下:

            情況“一見多(連續(xù)見、循環(huán)見)”———請查看:

            關(guān)鍵詞n(Keyword n)—[地址碼m(addressm)]m,n=1,2,……這里,地址碼包含卷數(shù)和頁碼,均為出現(xiàn)錯誤的卷數(shù)、頁碼數(shù)。

            這里,地址碼包含卷數(shù)和頁碼,均為出現(xiàn)錯誤的卷數(shù)、頁碼數(shù)。

            格式3 為索引正文輸出格式,又分為A、B、C三種子格式:格式3A:關(guān)鍵詞(Keyword)[說明語(Description)]地址碼n(address n);

            格式3B:關(guān)鍵詞(Keyword)[說明語(Description)]見(See)關(guān)鍵詞;

            格式3C:關(guān)鍵詞(Keyword)[說明語(Description)]地址碼n(addressn)

            [參見(Seealso)關(guān)鍵詞];n=1,2,……這三種格式分別對應索引正文中的三種情況,見圖3。


            格式3為索引正文形式(見圖4),款目標題按關(guān)鍵詞的拼音順序排列,將數(shù)據(jù)處理部分中索引正文生成的結(jié)果輸出到文本文件,以便索引編制者在Microsoftword或方正等專業(yè)排版系統(tǒng)中再進行版式處理。

            此外,CAIC1.0Beta在程序中間處理過程中將被倒置處理的前置詞還原至關(guān)鍵詞前面,并在這些前置詞前后分別添加“(”、“)”。同時還可在頁碼和標目詞之間添加一定的分隔符,以方便排版工作的進行。


            4 實際應用效果

            為了保證CAIC1.0Beta有良好的運行效果,建議電腦硬件配置為CPU586以上,內(nèi)存32兆;軟件環(huán)境為Windows95/98/2000,并有MicrosoftAccess數(shù)據(jù)庫。以《杭州市志》索引為例,《杭州市志》正文共11卷780萬字,經(jīng)過標引處理共提取了105077條(次)關(guān)鍵詞,經(jīng)處理生成關(guān)鍵詞表,共有關(guān)鍵詞55692條。實際操作中,我們使用方正商祺6100電腦(CPU為PⅢ733,內(nèi)存64M)進行處理,除去標引、校對階段工作時間與投入的人力相關(guān)外,其中數(shù)據(jù)處理階段,關(guān)鍵詞表生成約15分鐘,索引正文生成約60分鐘,索引正文輸出約15秒。如果改進算法,還可以進一步提高速度。

            本軟件系統(tǒng)具有索引生成準確、速度快、少用人工、使用簡單、人機界面良好、運行穩(wěn)定可靠等特點。其中數(shù)據(jù)處理階段的效率比手工操作提高了數(shù)百倍,因此與整個索引制作所用時間相比,程序處理的時間幾乎可以忽略不計。

            5 結(jié)論及展望

            通過此次《杭州市志》索引的計算機輔助編制實踐證明,采用本文介紹的方法可以比較圓滿地解決本文開始提出的問題,即由于地方文獻的獨特性及標引深度提高而導致的關(guān)鍵詞急劇增多和人工編制速度慢、準確率低的矛盾,因此該方案具有一定的實用和推廣價值。同時,由于方志索引內(nèi)容的相似性,本次索引編制中生成的關(guān)鍵詞表還為今后構(gòu)造方志關(guān)鍵詞表打下了良好的基礎(chǔ)。

            展望地方文獻索引,特別是方志索引今后的發(fā)展趨勢,可以預見,如果我們運用關(guān)鍵詞索引法、鏈式索引法、選擇組合排列索引法等現(xiàn)代索引法,引入包括語用學、語義學、語法學等語言學研究成果和計算機人工智能、專家系統(tǒng)等技術(shù),研究適合地方文獻特點的自動索引策略,就可逐步達到對于地方文獻正文的內(nèi)容自動分析,實現(xiàn)計算機自動抽詞和標引,使地方文獻索引的編制基本實現(xiàn)自動化,從而使地方文獻索引的編制從現(xiàn)在的人機分量均等的結(jié)合模式逐步過渡到電腦占更多分量的階段。

            〔出處〕 情報雜志2003(2)



            【一種基于人機結(jié)合思想的書本式地方文獻索引編制方法】相關(guān)文章:

            編制地方文獻索引數(shù)據(jù)庫的體會08-09

            收集地方文獻資料 編制地方文獻綜目08-09

            編制地方文獻分類表點滴08-09

            北京地方文獻報刊索引分類表研究與分析08-09

            首都圖書館北京地方文獻報刊索引08-09

            地方文獻書目的編制及它的社會價值08-09

            地方文獻分類思想研究08-09

            關(guān)于建立地方文獻報刊索引系統(tǒng)的實踐與思考08-09

            文獻 地方文獻 地方文獻學論考08-09