粵語審音配詞字庫

使用凡例

  1. 收字範圍:本字庫以大五碼漢字為主要收錄對象。其中包括大五碼第一字面5401個漢字和第二字面7652個漢字。此外,另收錄7個倚天漢字。總收字數為13060個。

  2. 工作目標:本字庫的主要目標在於為漢字教學提供一件實用的網上工具。從漢字結構及其教學而言,要學懂某個漢字,必須全面地從「形」、「音」、「義」三方面掌握其內容。在漢語中,「形」、「音」、「義」三者構成一種「三角關係」而非「直線關係」,而且上述「三角關係」往往非常複雜。因此,要全面掌握某漢字的「形」、「音」、「義」,便成為學習漢語的一大挑戰。本字庫為了協助使用者面對有關挑戰,採取了下列對策:字庫中每個漢字都有屬於自己的專頁。專頁中除清楚顯示該漢字的字形外,同時又按韻書體例臚列該漢字的一切可能讀音,繼而在每一種讀法下配以若干詞例。配詞中如有特別費解者,則附簡單解釋;如遇冷僻字無法配詞者,則作簡單備注或解釋,以便理解。有了這兩項設施,使用者便可以在學習字形字音之餘,同時兼顧有關的字義資訊。

  3. 字庫命名:本字庫其中一項主要特色,在於當中每個漢字皆經過「審音配詞」處理。我們參考了多位音韻學家的意見,然後為資料庫中所有漢字審訂讀音,並按每一種讀法配以若干詞例,讓使用者能有效地判別某個漢字於某一讀音下應如何理解和如何使用,這就是本網頁所以稱為「粵語審音配詞字庫」的原因。

  4. 查閱模式:本字庫提供「特定檢索」以及「分類瀏覽」兩種模式。

  5. 注音系統:現在一般流通的粵語注音系統有七種,分別是香港語言學學會、耶魯、耶魯(正統)、黃錫凌、萬國音標、廣州、劉錫祥。本網頁預設的注音系統採用香港語言學學會的系統,但用者可以在主頁左面「注音系統設定」的欄目中,根據自己所熟習者選取適合的注音系統。一經選定,往後就會以選定的系統來顯示注音。(#需要支援cookies的瀏覽器)

  6. 版面設計:本字庫所收錄的13060個漢字,各有所屬的專頁。每頁版面分為兩部分:主體部分提供該字的粵語拼音、讀音示範、注音根據、同音字、相關音節、詞例或簡短備註;輔助部分則提供該字的部首、筆畫數目、大五碼編號、倉頡碼、字音分類、頻序/頻次資料、配搭點、英文翻譯、普通話讀音、該字在《漢語大字典》和《康熙字典》中的頁碼,及其在 Mathews' Chinese English Dictionary 中的編號。除此之外,還備有通向《中文字譜》、《國語辭典》、《林語堂當代漢英詞典》、CEDICT 和 Unicode 等網頁的超連結,使用者可從中找到更多與該字有關的資料。

  7. 字音分類:從語音概念看,本字庫所收的漢字可大分為兩組,分別稱為「單讀音字」和「多讀音字」。

  8. 配詞原則:我們力求為本字庫收錄的所有漢字配詞。根據以上的區分,我們配詞的時候會遇上四種情況,分別是「單讀音字」、「破音字」、「異讀字」和「異讀破音字」。以下分別舉例,並說明我們配詞的原則: [註:我們必須提醒使用者,所謂「有最充份根據的讀音」,是一個統計概念,而非價值評判。我們無意抹煞任何音韻學家的研究成果和意見,相反,我們為每一個讀音提出根據,希望使用者能夠明白自己所讀之音是否廣為音韻學家認同。]

  9. 配搭點:若漢字 X 能夠與某給定的漢字 C 慣常地連用,並且組成詞語,則 X 就稱為後者的配搭點。按此定義,每個漢字專頁提供的詞例,便已包含不少該字的配搭點了。然而,為免過於分散使用者的注意力,詞例一欄往往只能列舉最常見的配搭詞。而使用者未必能夠藉以全面地審察各漢字之構詞力。舉例來說,使用者在查閱「」字的時侯,馬上可從「中心」、「中肯」、「適中」等詞例,知道「」、「」、和「」皆是「」字的配搭點。可是未必每位使用者都能聯想起「郎中」和「膻中」等較少應用的詞例〔而這兩詞例從「」和「」兩字的角度看皆為頗重要的構詞〕,和從而了解「」和「」二字也都是「」字的配搭點。為了彌補配詞一欄詞例信息無以避免的不足,本字庫特別在每個漢字的專頁中,於主要詞例以外,同時列出該字於本字庫其他漢字專頁中有記錄的所有其他配搭點,以備使用者作進一步的參考。

  10. 頻序/頻次: 在本字庫中,每個漢字皆有其「頻序/頻次」資料。「頻次」高低決定某漢字在「頻序」上的先後。以「」字為例,其「頻序/頻次」數值為「1/489803」。也就是說,「」字是使用「頻次」最高的大五碼漢字,在本字庫所依據的字頻調查中,它一共出現了四十八萬多次。把字庫中所有漢字按「頻序」由小至大排列,便成為「常用字頻序表」。此表主要根據中國國家標准局、國家語言文字工作委員會合編的《現代漢語字頻統計表》(北京:語文出版社,1992)改編而成。是項統計工程浩大,所涉語料多達一億三千八百萬字,其公信力自不待言。美中不足的是:該研究以簡體字為統計對象。由於簡繁轉換的過程往往並非一一對應,因此,在譜製適用於大五碼漢字的統計表時,我們不得不因應實際需要,按合理的程序修改有關數據。本中心去年發表的「香港、大陸、台灣 - 跨地區、跨年代現代漢語常用字頻率統計」語料庫,正好可以作簡繁轉換過程的依據。以下略述「常用字頻序表」中「頻序/頻次」的計算方法,以及排序時所牽涉之若干問題:

  11. 參考書目:本字庫收錄字音和選取配詞的工作,廣集眾家之長。依據的工具書有下列各種:

  12. 本資料庫蒙香港優質教育基金資助,被吸納成為「兩文三語教育網上支援計劃」的構成單元。製作小組謹此對優質教育基金深表謝意!