粵語審音配詞字庫
使用凡例
- 收字範圍:本字庫以大五碼漢字為主要收錄對象。其中包括大五碼第一字面5401個漢字和第二字面7652個漢字。此外,另收錄7個倚天漢字。總收字數為13060個。
- 工作目標:本字庫的主要目標在於為漢字教學提供一件實用的網上工具。從漢字結構及其教學而言,要學懂某個漢字,必須全面地從「形」、「音」、「義」三方面掌握其內容。在漢語中,「形」、「音」、「義」三者構成一種「三角關係」而非「直線關係」,而且上述「三角關係」往往非常複雜。因此,要全面掌握某漢字的「形」、「音」、「義」,便成為學習漢語的一大挑戰。本字庫為了協助使用者面對有關挑戰,採取了下列對策:字庫中每個漢字都有屬於自己的專頁。專頁中除清楚顯示該漢字的字形外,同時又按韻書體例臚列該漢字的一切可能讀音,繼而在每一種讀法下配以若干詞例。配詞中如有特別費解者,則附簡單解釋;如遇冷僻字無法配詞者,則作簡單備注或解釋,以便理解。有了這兩項設施,使用者便可以在學習字形字音之餘,同時兼顧有關的字義資訊。
- 字庫命名:本字庫其中一項主要特色,在於當中每個漢字皆經過「審音配詞」處理。我們參考了多位音韻學家的意見,然後為資料庫中所有漢字審訂讀音,並按每一種讀法配以若干詞例,讓使用者能有效地判別某個漢字於某一讀音下應如何理解和如何使用,這就是本網頁所以稱為「粵語審音配詞字庫」的原因。
- 查閱模式:本字庫提供「特定檢索」以及「分類瀏覽」兩種模式。
- 甲:特定檢索
- 特定檢索包括「漢字檢索」和「拼音檢索」。利用「漢字檢索」,使用者可以直接輸入漢字來查詢有關該字的各項資料。當採用「拼音檢索」時,使用者則需要選擇構成某一粵語讀音的聲母、韻母和聲調,以查詢所需的漢字。本字庫的「拼音檢索」共支援香港語言學學會、耶魯、正統耶魯及劉錫祥等四種粵語拼音系統。
- 乙:分類瀏覽
- 本字庫目前為使用者提供五種便捷的分類瀏覽方法,分別稱為粵語韻母表、粵語音節表、漢字部首索引、漢字筆劃索引和分類字表。
- 注音系統:現在一般流通的粵語注音系統有七種,分別是香港語言學學會、耶魯、耶魯(正統)、黃錫凌、萬國音標、廣州、劉錫祥。本網頁預設的注音系統採用香港語言學學會的系統,但用者可以在主頁左面「注音系統設定」的欄目中,根據自己所熟習者選取適合的注音系統。一經選定,往後就會以選定的系統來顯示注音。(#需要支援cookies的瀏覽器)
- 版面設計:本字庫所收錄的13060個漢字,各有所屬的專頁。每頁版面分為兩部分:主體部分提供該字的粵語拼音、讀音示範、注音根據、同音字、相關音節、詞例或簡短備註;輔助部分則提供該字的部首、筆畫數目、大五碼編號、倉頡碼、字音分類、頻序/頻次資料、配搭點、英文翻譯、普通話讀音、該字在《漢語大字典》和《康熙字典》中的頁碼,及其在 Mathews' Chinese English Dictionary 中的編號。除此之外,還備有通向《中文字譜》、《國語辭典》、《林語堂當代漢英詞典》、CEDICT 和 Unicode 等網頁的超連結,使用者可從中找到更多與該字有關的資料。
- 字音分類:從語音概念看,本字庫所收的漢字可大分為兩組,分別稱為「單讀音字」和「多讀音字」。
- 單讀音字:在本字庫中,漢字 C 被稱為「單讀音字」,若且唯若它只有一個公認的粵語讀音;否則漢字 C 屬「多讀音字」。
- 多讀音字:所謂「多讀音字」,按照其字音與字義之關係,可以再細分為三類,在本字庫中分別稱為「破音字」、「異讀字」和「異讀破音字」。
- 任何「多讀音字」,若(a)其讀音當中至少有兩個表示不同的意義;而且(b)其讀音之間並未構成下文所述之異讀關係者,皆屬「破音字」。例如「覺」字,當讀如[gaau3]時,意指「睡眠」;若讀如[gok3],則意指「對刺激的感受和辨別」、「醒悟」等等。
- 任何「多讀音字」,若其讀音之變化並沒有構成字義之別,皆屬「異讀字」。例如「曙」字,分別被注上[cyu5]、[syu5]和[syu6]三個不同的讀音,但基本意義不變。
- 任何「多讀音字」,若(a)其讀音當中至少有兩個表示不同的意義;而且(b)其讀音中至少有兩個構成上述異讀關係者,皆屬「異讀破音字」。例如「藉」字,在粵語中有[zik6]、[ze3]和[ze6]三種讀法。當用以表達「依靠」之意時,分別被注上[ze3]和[ze6]兩個不同的讀音,兩者構成了異讀關係。當用以表達「踐踏」之意時,「藉」字讀[zik6]。換句話說,在「藉」字三個粵語讀音當中,至少有[zik6]和[ze3]兩者表示不同的意義。
- 配詞原則:我們力求為本字庫收錄的所有漢字配詞。根據以上的區分,我們配詞的時候會遇上四種情況,分別是「單讀音字」、「破音字」、「異讀字」和「異讀破音字」。以下分別舉例,並說明我們配詞的原則:
- 甲:「單讀音字」-- 由於其讀音無爭議,是以我們只略為配上常用的詞。當某讀音構成單音節詞時,我們將以備註方式加上簡略的解釋。
- 乙:「破音字」-- 我們會為各個不同讀音配上相應的詞,配詞時以常用者為主。
- 丙:「異讀字」-- 我們會挑選有最充份根據的讀音配詞。所謂「有最充份根據的讀音」,是指直至目前,在我們使用的資料中,最多音韻學家認同的讀音。以「曙」字為例,在[cyu5]、[syu5]和[syu6]三個注音中,有三個音韻學家注上[cyu5],兩個注[syu5],一個注[syu6],因此詞例只配在[cyu5]一欄,而在其餘兩欄的備註中註明是「曙cyu5的異讀字」。
- 丁:「異讀破音字」--我們先根據字義劃分不同的讀音,假如該漢字用以表達某一意義時,讀音沒有爭議,我們即配上相應的詞;假如讀音出現爭議,我們則會按處理「異讀字」的原則來配詞。例如「藉」字,當用以表達「踐踏」之意時,讀[zik6],此讀音廣為音韻學家採納,故即配以「狼藉」、「慰藉」等詞;當用以表達「依靠」之意時,則有[ze3]和[ze6]兩個不同的注音,我們根據處理「異讀字」的原則,選出「有最充份根據的讀音」來配詞。在這情況下,我們在[ze6]一欄中配上「藉口」、「藉故」等詞,而在[ze3]一欄的備註中註明是「藉ze6的異讀字」。
[註:我們必須提醒使用者,所謂「有最充份根據的讀音」,是一個統計概念,而非價值評判。我們無意抹煞任何音韻學家的研究成果和意見,相反,我們為每一個讀音提出根據,希望使用者能夠明白自己所讀之音是否廣為音韻學家認同。]
- 配搭點:若漢字 X 能夠與某給定的漢字 C 慣常地連用,並且組成詞語,則 X 就稱為後者的配搭點。按此定義,每個漢字專頁提供的詞例,便已包含不少該字的配搭點了。然而,為免過於分散使用者的注意力,詞例一欄往往只能列舉最常見的配搭詞。而使用者未必能夠藉以全面地審察各漢字之構詞力。舉例來說,使用者在查閱「中」字的時侯,馬上可從「中心」、「中肯」、「適中」等詞例,知道「心」、「肯」、和「適」皆是「中」字的配搭點。可是未必每位使用者都能聯想起「郎中」和「膻中」等較少應用的詞例〔而這兩詞例從「郎」和「膻」兩字的角度看皆為頗重要的構詞〕,和從而了解「郎」和「膻」二字也都是「中」字的配搭點。為了彌補配詞一欄詞例信息無以避免的不足,本字庫特別在每個漢字的專頁中,於主要詞例以外,同時列出該字於本字庫其他漢字專頁中有記錄的所有其他配搭點,以備使用者作進一步的參考。
- 頻序/頻次:
在本字庫中,每個漢字皆有其「頻序/頻次」資料。「頻次」高低決定某漢字在「頻序」上的先後。以「的」字為例,其「頻序/頻次」數值為「1/489803」。也就是說,「的」字是使用「頻次」最高的大五碼漢字,在本字庫所依據的字頻調查中,它一共出現了四十八萬多次。把字庫中所有漢字按「頻序」由小至大排列,便成為「常用字頻序表」。此表主要根據中國國家標准局、國家語言文字工作委員會合編的《現代漢語字頻統計表》(北京:語文出版社,1992)改編而成。是項統計工程浩大,所涉語料多達一億三千八百萬字,其公信力自不待言。美中不足的是:該研究以簡體字為統計對象。由於簡繁轉換的過程往往並非一一對應,因此,在譜製適用於大五碼漢字的統計表時,我們不得不因應實際需要,按合理的程序修改有關數據。本中心去年發表的「香港、大陸、台灣 - 跨地區、跨年代現代漢語常用字頻率統計」語料庫,正好可以作簡繁轉換過程的依據。以下略述「常用字頻序表」中「頻序/頻次」的計算方法,以及排序時所牽涉之若干問題:
- 凡列於《現代漢語字頻統計表》(以下簡稱《表》書)中之簡體字,皆按中國社會科學院語言研究所詞典編輯室編纂的《現代漢語詞典》(修訂本)對換為繁體字。其中不屬大五碼漢字者,一概刪除。
- 凡《表》書中頻次為零而沒有列出之簡體字,本字庫一律不加排序,只在相應的繁體字「頻序/頻次」一欄註上「- /0」這個數值。「骾」、「斶」等字皆屬此例。
- 漢語中的多音字,在《表》書中有可能以不同的頻序分別出現。經過簡繁轉換的程序後,這些讀音相異的同形字,將被合而為一。它們的頻次數目總和,才是我們為該漢字重新排序時最終採用的「頻次」數值。
- 經過簡繁轉換的程序後,某些簡體字可能一變為二,甚至更多。最顯注的例子,莫過於「后」、「于」等字。以前者為例,在不同的脈絡中,「后」這個簡體字有時對應繁體中「皇后」的「后」,有時卻必須轉換成「前後」的「後」。遇上這種情況,我們將按照各個繁體字在「香港、大陸、台灣 - 跨地區、跨年代現代漢語常用字頻率統計」語料庫中的頻率比例,攤分與其相應的簡體字在《表》書中所載的頻次。計算方法如下:
{fk / (f1 + f2 +…fk+…+ fn)}*F, n≧2
在上列算式中,F 代表相關之簡體字在《表》書中刊載的頻次;小寫字母 f1, f2, …, fn 等等代表該字經簡繁轉換而獲得的各繁體字在「香港、大陸、台灣 - 跨地區、跨年代現代漢語常用字頻率統計」語料庫中大陸地區出現的總頻次。以「后」字為例,我們先從《表》書中獲得簡體字「后」的總頻次 (33425),然後,我們參考字頻統計語料庫中的數據,得悉繁體字「后」和「後」在中國大陸的總頻次(即 f1和 f2)為30與3074之比。換句話說,在這個例子中,F=33425, n=2, f1=30, f2=3074; 藉著這些資料,我們可按比例攤分簡體字「后」在《表》書中所載的頻次:
繁體字「后」的頻次為 { 30/(30+3074)}*33425 = 323
繁體字「後」的頻次為 {3074/(30+3074)}*33425 = 33102
- 在按頻次排序時,如遇頻次相同,則按各字於康熙字典的部首表中的先後排列;如部首亦相同,則按各字筆畫的多寡排列;如筆畫亦相同,則按各字Big5內碼碼位先後排列。
- 參考書目:本字庫收錄字音和選取配詞的工作,廣集眾家之長。依據的工具書有下列各種:
- 甲部:主要參考資料:
- 黃錫凌:《粵音韻彙》(重排本)(香港:中華書局,1991)
- 李卓敏編纂:《李氏中文字典》(第二版)(香港:中文大學出版社,1989)
- 周無忌、饒秉才編:《廣州話標準音字彙》(香港:商務印書館,1988)
- 何文匯、朱國藩編著:《粵音正讀字彙》(第二版)(香港:香港教育圖書公司,2001)
- 乙部:輔助工具書:
- 余迺永校註:《新校互註宋本廣韻》(香港:香港中文大學,1993)
- 丁度等編:《集韻》(上海:上海古籍出版社據述古堂影宋鈔本影印,1985)
- 張玉書等編纂:《康熙字典》(同文書局影印版)
- 諸橋轍次著:《大漢和辭典》(東京:大修館書店,1955-60)
- 廣東、廣西、湖南、河南辭源修訂組及商務印書館編輯部編:《辭源》(香港:商務印書館,1987)
- 漢語大字典編輯委員會:《漢語大字典》三卷本(成都:四川辭書出版社及湖北辭書出版社,1995)
- 香港語言學學會:《粵語拼音字表》(香港:香港語言學學會,1997)
- 藍德康編著:《國際標準漢字大字典》(北京:電子工業出版社,1998)
- 中華民國教育部編:《重編國語辭典修訂本》網上版。
- 本資料庫蒙香港優質教育基金資助,被吸納成為「兩文三語教育網上支援計劃」的構成單元。製作小組謹此對優質教育基金深表謝意!