基于反向校對方法的糾錯技術研究
基于反向校對方法的糾錯技術研究
張從輝 于 波 鄂 毅
(人民日報社技術部)
【摘 要】隨著智能媒體審校系統(tǒng)的發(fā)展和報紙行業(yè)從業(yè)人員水平的提高,報紙上的別字已經(jīng)很少見了,但仍存在一定的糾正空間J。為了加強報紙的國際傳播能力,進一步提升報紙質量,本文基于反向校對思想,對糾錯技術進行了研究,提出一種支持詞庫共享的反向校對方法,對解決編輯校對因人工因素造成的版面錯誤問題有較好的效果,從技術上為報業(yè)生產(chǎn)提供了一種降低文字差錯率的手段,是傳統(tǒng)人工校對的有益補充。該方法可以用于報業(yè)系統(tǒng)付印前的Pdf版面校對,也可以用于歷史版面庫、單篇文章等的查校,對提高報業(yè)整體質量有著重要意義。
【關鍵詞】反向校對 差錯率 別詞庫 自動糾錯
1 引言
校對工作是報紙出版過程中非常重要的一環(huán)。尤其是一些政治性強的報紙,在文字表達上更不能有絲毫閃失。為了規(guī)范報紙出版行業(yè),國家出臺了《報紙出版管理規(guī)定》《報紙期刊質量管理規(guī)定》等法律法規(guī),明確了報紙編校差錯率不超過萬分之三為合格,對差錯率計算方法也作了嚴格規(guī)定。報紙行業(yè)為了保證低差錯率,既需要一流的校對人才,也離不開智能校對系統(tǒng)的輔助。但由于人的因素,即使一流的校對人才借助專業(yè)的校對軟件,依然不能保證沒有錯誤。為了進一步減少差錯,提高校對效果,需要更多的糾錯手段。
2 反向校對思想的提出
2.1 傳統(tǒng)人工校對方法的不足
傳統(tǒng)人工校對方法是建立在閱讀基礎之上的,即編輯或者專業(yè)校對通過通讀文章來對語句進行拆分,分成一個個詞語,然后和自己大腦里對這個詞的記憶進行比對,如果一致則為正確,不一致,則錯誤。這看似簡單的一個腦力勞動過程,實則蘊含著很強專業(yè)性、嚴謹科學的態(tài)度以及頑強的耐心毅力等。然而,即便是最專業(yè)的校對也不能保證沒有疏漏,即使是借助專業(yè)的校對軟件、文字編輯器的別字提示功能,依然不能百分百保證報刊出版的零差錯,這是傳統(tǒng)人工校對方法的不足。2021年8月,中國報業(yè)協(xié)會組織開展了“全國主流報紙出版質量評測”活動叫,評測結果見表1。可見即使有專業(yè)校對軟件的輔助,依然不能避免錯誤的發(fā)生。另外,商品化的智能校對系統(tǒng)陸續(xù)出現(xiàn),但別字庫更新補充較麻煩,無法實現(xiàn)共享,且不能自動糾錯,這也使得這些軟件輔助人工校對時總是處于滯后的狀態(tài),是錯誤的另一個成因。
表1 2021年中央級報紙出版質量評測排名(部分)
2.2 反向校對思想的提出
素有“語言界啄木鳥”之稱的《咬文嚼字》雜志,曾在2005年創(chuàng)刊10周年之際,整理出了《當代漢語出版物中最常見的100個別字》(見圖1,括號內為正確的字)。這個圖是《咬文嚼字》編輯部自創(chuàng)刊以來,組織社會上方方面面的力量審讀了約3000本圖書、1000種期刊、100種報紙,并請100家新聞出版單位,提供每年差錯率最高的詞,這批長期出現(xiàn)、廣泛出現(xiàn)、反復出現(xiàn)的別字,便是在10年調查的基礎上產(chǎn)生的。這100個別字都是之前10年來出錯頻率最高的,據(jù)專家統(tǒng)計,若將這100個常見的別字糾正過來,當時出版物上的別字總量將減少一
半以上2?;谶@一論斷,本文提出了反向校對思想,即建立常見別詞庫,用別字去校對文章。具體來說,就是通過分詞工具將文章分解成詞,這一環(huán)節(jié)相當于人工校對的閱讀環(huán)節(jié)。然后與別詞庫中的詞比對,如果一致,則表明這個詞是錯誤的,標記出來。這樣就可以是通過技術手段把文章中這些常見的別字過濾掉。之所以稱為反向校對,是相對于傳統(tǒng)的人工校對而言,人工校對可以說是正向校對,即從文章中校對錯別詞匯,而反向校對是用錯別詞匯校對文章,即從一篇文章中找出別詞,從一批文章中找出有別詞的文章。
這100個常見別字雖然已經(jīng)公布了多年,但依然時常出現(xiàn)報紙刊、雜志上。比如,在百度中搜索“一幅對聯(lián)”,馬上就會出現(xiàn)若干條結果:“一副”對聯(lián)還是“一幅”對聯(lián)?可見要消除這些常見別字任重而道遠。
2.3 反向校對與反向查錯的區(qū)別
專業(yè)校對軟件提供反向查錯的功能,即將已知的錯誤詞匯加入錯詞庫,文中如果有錯詞庫中的詞會自動標識出來,類似于查找功能。而反向校對方法是用計算機算法模擬傳統(tǒng)人工校對的過程,在這個過程中把人工校對容易弄混的別詞找出來,并且可以用正確詞語直接替換。解決了自動校對系統(tǒng)詞庫無法共享問題和不能糾錯的問題。校對自動化可以減少人為差錯;歸納權威別詞庫,使校對更精準;詞庫共享和反向查錯并糾錯,提高文稿質量,強化工作效率。
圖1 《當代漢語出版物中最常見的100個別字》局部
3 反向校對糾錯方法的實現(xiàn)
3.1 分詞
校對是建立在閱讀基礎之上的,要讓計算機校對文章,就要實現(xiàn)計算機閱讀文章的功能。對比人工校對過程,閱讀就是將文章分成一個一個詞語,來分別判斷每個詞語的對錯。因此計
算機閱讀文章的第一步就是要分詞。
當前流行的中文分詞工具很多,比較而言,Jieba分詞工具是一個優(yōu)秀的中文分詞工具。
它以第三方庫形式提供給Python語言調用,是Python語言中目前最受歡迎的中文分詞庫。英文文本可以通過空格來分詞,而中文文本詞與詞之間是沒有空格的。Jieba分詞的原理就是利用一個中文詞庫,確定漢字之間的關聯(lián)概率,然后組成詞組,形成分詞結果。
Jieba分詞支持三種分詞模式:
(1)精確模式
就是將句子精確地分開成若干中文單詞,這些詞合起來就是之前的語句,其中不存在冗余單詞,這種模式適合文本分析。
(2)全模式
就是將一段文本中所有可能的詞語都掃描出來,可能有一段文本它可以切分成不同的模式,或者從不同的角度來切分變成不同的詞語,分詞后的信息再組合起來不再是原來的文本。
(3)搜索引輦模式
就是在精確模式基礎上,對發(fā)現(xiàn)的那些長的詞語再次切分,進而適合搜索引擎對短詞語的索引和搜索,也有冗余。
例如:對文本“我來自人民日報社技術部”采用三種分詞模式分詞,源代碼和結果如圖2所示。
圖2 對文本“我來自人民日報社技術部”進行Jieba三種模式分詞結果
顯然,三種分詞模式都可以采用,全模式和搜素引擎模式更符合人們的校對習慣。但是這兩種模式對文本如“據(jù)公開消息”“掃描模式”這樣的詞語會分解出“開消”“描?!?這與庫中“開銷”“描摹”的錯誤寫法“開消”“描?!蔽呛希瑥亩鴪箦e。中文文本中這種情形還比較常見,是不能簡單地通過像Word、WPS這樣的字處理軟件的查找替換功能解決的。分詞的意義就在于準確地分解出中文語句中詞語的組合,反向校對是建立在分詞基礎之上的。因此,精確模式可以作為反向校對方法分詞的主要模式,全模式和搜索引擎模式作為參考模式。
3.2別詞庫
別詞庫是反向校對方法的另一個關鍵因素,收錄的別詞越多、越權威,就越能發(fā)揮反向校對的優(yōu)勢。然而,別詞庫是語言學領域一個十分專業(yè)的問題。事實上,除了《咬文嚼字》雜志公布的常見的100個別字外,其他權威機構也曾發(fā)布過常見錯別字庫。如:上海教育出版社2020年6月出版的《高頻別字300例》 ,四川辭書出版社2020年7月出版的《消滅別字與病句》(全新版)列出了1600多個易錯字15,上海文化出版社和上海咬文嚼字文化傳播有限公司聯(lián)合出版的《常見別字辨析手冊》同,等等。結合權威機構的出版物和專業(yè)校對人員的反饋,例如:“采訪”是“采訪”的別詞,“志和者”是“志合者”的別詞等等。本文歸納出了1100多個別詞的別詞庫,并且別詞庫可以結合實踐予以靈活增減。
在Python語言中可以用一個集合建立常見別詞庫。以圖1為例,建立別詞庫,如圖3中紅色方框所示。
圖3創(chuàng)建別詞庫和添加別詞庫到Jieba中文庫中
前面提到,Jieba分詞是利用一個中文詞庫來確定漢字之間的關聯(lián)概率組成詞組,形成分詞結果。而圖3別詞庫中的詞是基于統(tǒng)計學知識從書籍、報刊中挑選出來的“別詞”,這些詞未必都在Jieba的中文詞庫中,因而需要使用Jieba提供的Jieba.add_word()函數(shù)把這些詞加入庫中,如圖3中藍色框所示。Jicba中文字庫中有了這些詞就可以準確地從文本中分析出這些詞,如圖4所示。
圖4添加別詞庫到Jieba中文庫前后的分詞結果
圖4上、下半部分別是添加別詞庫到Jieba中文庫前后的分詞結果??梢?,添加別詞庫到Jieba中文庫前,Jieba的全模式對別詞“按裝”沒有分析出來,三種模式對別詞“一愁莫展”都沒分詞正確,添加后,三種模式都能正確分析出來。
3.3 自動糾錯技術
為了實現(xiàn)自動糾錯功能,對應于別詞庫,還應建立正確詞庫。因此,本系統(tǒng)不僅有查錯功能,也有糾錯能力。當用戶將文稿提交到后臺后,進行Jieba分詞,再與別詞庫比對,將錯別字放入內存中,當確認確實是別詞后,使用對應的正確詞語替換,并將操作寫入日志。
3.4別詞庫共享技術
本系統(tǒng)采用了Flask框架對Web進行設計,每個用戶均可以將自己的別詞庫提交到服務器端。服務器端會對校對過的文本進行掃描統(tǒng)計,達到設定值后,經(jīng)人工審核就可以進入別詞庫。凡進入別詞庫的詞可以被所有用戶共享,不用每個用戶再自己添加,間接提高了工作效率。
3.5 算法實現(xiàn)及結果
Python作為一門超級語言以其簡單、易學、開源和豐富的第三方庫而深受廣大編程愛好者青睞。2021年10月,語言流行指數(shù)的編譯器Tiobe將Python加冕為最受歡迎的編程語言,20年來首次將其置于Java、C和JavaScript之上四。借助Python豐富的第三方庫,研究人員可以將主要精力放在自己關注的問題上,從而高效地完成任務。這里使用的Jicba庫就是一個例子。反向校對方法在算法實現(xiàn)上就是將要校對的文件讀入到文本中,然后用Jieba分詞工具進行分詞并存入列表,然后對列表中元素與別詞表中元素一一比對,找出相同元素,即別詞。顯而易見,反向校對方法有一個優(yōu)勢,那就是對重復詞語只需查校一遍。詞語重復在文章中是常見的事,例如,在十九大報告中,“人民”二字出現(xiàn)了200多次。人工校對無疑要對200多處“人民”都要校對,而在反向校對方法中,通過采用對分詞產(chǎn)生的重復元素只記錄一次方式實現(xiàn)對文章重復詞語只校對一次的功能,從而可以提高查校效率。
圖5 程序運行結果
圖5的上半部分是用反向校對方法對某報5天48個版面,約44.5萬字的內容做的測試結果。從測試結果看,查到兩個“別詞”。“明查暗訪”和“明察暗訪”已經(jīng)通用,可以不算錯。但“松馳”是別詞,正確應該是“松弛”。圖5的下半部分是對另一報紙5天76個版面,約
39.3萬字的內容做了測試。從運行結果看,“座落”應為坐落,沒有問題?!安荒茏约骸贝_是“不能”“自己”兩個詞的組合,例如:我不能自己一個人去那里。因為向Jicba中文字庫中添加不能自己的別詞“不能自己”,因而算法把兩個詞當成了一個詞。這也讓我們認識到了漢語的復雜性,提醒我們找到“別詞”的同時,還要看看“別詞”所在的句子。相應的“別詞”也都在其報紙官方網(wǎng)站上進行了核實。程序運行用時間分別是0.791秒和0.869秒,完全不用擔心效率問題。
總的來說,報紙上的別字錯誤確實很少了,但反向校對方法確實還是能查出個別別詞來,這證實了反向校對方法的有效性。只要別詞數(shù)據(jù)庫足夠豐富、權威,就能查找出報紙上更多的別詞。同時我們也認識到漢語言的復雜性,反向校對方法的研究也只是處于起步階段,還需要進一步深入研究完善。
4反向校對的意義和應用場景
反向校對的實質是用計算機算法模擬傳統(tǒng)人工校對的過程,以解決人工校對中由于人的視覺、記憶上的偏差造成對常見別字的混淆而發(fā)生的人為錯誤。雖然一些專業(yè)的校對軟件也有錯詞庫和反向查錯功能,但在實際使用中這些功能也只是作為人工校對的輔助手段。反向校對的意義在于排除“人工因素”導致的錯誤,這也決定了反向校對方法只能作為人工校對方法的補充。即人工校對的輸出是反向校對方法的輸入。
總的說來,只要能轉化為文本格式的文件、資料都可以使用反向校對方法來查校。典型的例子如下:
(1)壓版前的Pdf版面
對于報業(yè)來說,反向校對方法只有對最終的Pdf格式的版面進行校對才最有意義,相當于校對的最后一道防線。這就需要將Pdf版面轉換成Txt文件的中間過程。Pdfplumber是Python中Pdf轉Txt的第三方工具,可以實現(xiàn)完美轉換。
(2)復印前的書刊
當編輯編完一本書或刊物后,如果想檢查書中有沒有常見的別字,可以使用反向校對方法。本方法對一本30萬字的電子書進行查校,運行時間0.9秒。當然,反向校對方法對單篇文章也是適用的。
(3)歷史資料庫
各種出版物都有自己的歷史資料庫,這些資料庫對于今天的學術研究或編纂書籍有重要的參考價值。但如果有錯誤,被引用就有可能造成對錯誤的二次傳播??梢杂梅聪蛐Ψ椒▽φ麄€歷史資料庫進行查校,從而減少錯誤的二次傳播。
(4)對于聲音轉成的文字
媒體進入四全媒體時代,節(jié)奏快是一個鮮明的特點,從而大大壓縮了留給校對工作者的時間。語音轉文字是編輯們常用的方法,但語音轉文字不能百分百轉換正確,反向校對方法可以輔助編輯快速過濾掉那些轉換中出現(xiàn)的常見別字,從而提高工作效率。
(5)OCR識別的文字
神經(jīng)網(wǎng)絡算法在圖片領域的深入應用,推動了圖片中文字識別技術的發(fā)展,越來越多的人使用手機截屏,然后OCR識別后,獲取可編輯文本,但識別準確率和召回率不可能達到100%,所以也存在錯誤。使用反向校對方法不僅能提高文本質量,也能提高文本處理效率。
(6)校對力量較弱的自煤體
這幾年自媒體飛速發(fā)展,但也良莠不齊。經(jīng)常在自媒體文章上或視頻字幕上看見錯別字??梢允褂梅聪蛐Ψ椒焖偃コR姷膭e字。
5 結語及展望
反向校對方法是基于語言專家在對書籍、報刊中常見的100個別字的統(tǒng)計學基礎上給出的科學論斷提出的,并通過Python語言基于第三方庫予以實現(xiàn),是在實踐中經(jīng)過檢驗行之有效的方法。該方法能直接用于報業(yè)系統(tǒng)付印前的Pdf版面的最后查校,也可以用于歷史版面庫、單篇文章的校對,是從技術上降低報業(yè)生產(chǎn)文字差錯率的有力手段,是人工校對方法的有益補充,對提高報紙行業(yè)的整體文字質量有重要意義。
根據(jù)反向校對思想,類似于別詞庫,可以添加常用規(guī)范表述庫圖、古典詩文名句庫、邏輯表達詞語庫等,從而全方位、多角度對文章進行核校,將現(xiàn)代科技最大限度地應用于傳統(tǒng)報業(yè)的出版發(fā)行,提高報業(yè)質量。同時,在實踐中我們也深刻了解到了漢語言的復雜性,反向校對方法還有很大的改進空間。
參考文獻:
[1]中國報業(yè)協(xié)會開展2021年全國主流報紙出版質量評測活動.中國報協(xié)網(wǎng)
[2]《咬文咽字》整理出百個最常見別字,《人民日報》,2005年4月25日:第11版文化
[3] https://github.com/fxsiy/Jicba
[4]許霞,《高頻別字300例》,上海:上海教育出版社;2020年6月
[5]彭倫健,彭皓宇.《消滅錯別字與病句》,成都;四川辭書出版社:2020年7月第1版
[6]楚山孤.《常見別字辨析手冊》.上海:上海文化出版社、上海咬文嚼字文化傳播有限公司;2019年2月
[7] https://baike.baidu.com/item/Python/407313?fr=aladdin
[8]呂飛.《宜傳工作常用規(guī)范表述300例》,北京:人民日報出版社;2021年:001-002頁
新聞技聯(lián)動態(tài)
- BIRTV2023 媒體大模型創(chuàng)新和應用技術交流會 邀請函 2023-07-26
- 【邀請函】中國新聞技聯(lián)2023 年學術年會 2023-07-20
- 新融合與智安全高峰論壇隆重召開! 2023-04-20
- 首個全國性媒體AIGC研究機構在廣西成立 2023-04-14
- 【邀請函】“數(shù)字中國”下的媒體新機遇 “王選獎”獲獎案例分享會暨媒體融合創(chuàng)新發(fā)展研討會 2023-03-23
- [邀請函]"中國新聞技聯(lián)"市縣融媒體分會2023年學術年會 2023-03-15
- 推動知識資源平臺合規(guī)健康發(fā)展 共促數(shù)字版權規(guī)范化合理化 2023-03-06
- 成功舉辦中國新聞技術工作者聯(lián)合會市縣融媒體分會年會暨換屆大會 2022-12-23
- 中國新聞技聯(lián)新聞信息標準化分會 2022年年會成功召開 2022-12-01
- 《機器生產(chǎn)內容自動化分級》團體標準 正式發(fā)布實施 2022-12-01