跳到主要內容

學外語不可錯過的好夥伴-語料庫 (corpus)

學習外語學到後來,最害怕什麼?文法不對、發音不好、單字量不夠?
工欲善其事,必先利其器-今天再介紹一個語言學家的祕密武器給大家,而且我們素人也都可以自在使用,那就是「語料庫」。

我們在學習外語的時候,常常會被許多外在條件限制。的確,我們擔心單字不夠、擔心格位不對、擔心文法寫錯、擔心發音腔調重。恰巧,語言學就是一門在研究世界各個語言的學問,所以我們可以用以前介紹過的 IPA 來學習到位的發音,下次我們再一起探討。但是,如果你到過國外、實際用過外語,你可能也會發現一件很重要的事:

我講的話文法正確但人家聽不懂

是的,這有時比文法錯更可怕,因為有時會讓我們無法順利溝通。所以,開始有很多老師,強調講出「母語者覺得自然的句子」遠遠比「每個環節都合文法的句子」重要。那我們又該如何知道自己的句子「自不自然」呢?語料庫就是一個好幫手。

所謂的「語料庫」,是指語言學家為了研究語言,所創造出來的語言資料庫,目的就是把各種語言使用的情形都收錄進來。因應各種不同目的,還可以分成很多種,例如「口語語料庫」、「失語症患者語料庫」、「外語學習者語料庫」等等。而我們就可以利用它來查查自己的所講的話「母語人士說不說」。

首先我們先來看看這個美式英語的語料庫,COCA!他是美國的一個語料庫,裡頭的語料(語言資料)來自各大美國雜誌、小說等。



例如今天麻瓜先生寫英語作業,想要寫「被大象踩過」(心中小劇場好悲慘),我可能本來想寫:「stepped by an elephant」

但我到了COCA網頁左邊的搜尋列,一搜尋 stepped by an elephant,卻發現一個結果也沒有,這可能就是代表母語者一般不這麼說,更可憐的是,當我一找 stepped by,出來的句子也都不太像是我要的。於是我想了各種表達方式,最後想出 stepped on by an elephant,終於在COCA上找到一筆資料,我再搜尋 stepped on by,發現就是我要的「踩過」的意思,原來被大象踩過是可以這麼說的!


通常各個語言都會有自己的語料庫,再來,還有一招偷吃步,那就是google。谷歌大神其好用程度也不是一天兩天的事,上頭有各種文體,特別是會話和日常生活語料,不過在此還是要提醒大家,搜尋時一定要利用英文引號,也就是 「""」包住你要查的句子,這代表「只找跟引號內一模一樣的句子」的意思,否則會得到東一塊西一塊的結果,就失去我們要的功用了。

像剛剛的例子,我在Google裡搜尋 "stepped on by an elephant" 就會發現有1萬多筆結果,且來源不一樣、很多是來自英語母語者所使用的論壇。而我去掉 on 後,發現只有一千筆結果,而且還有些是重複資料。因此可以推測 stepped on by an elephant 可能比較多人說、比較符合母語者語感。



幾乎所有外語,都可以用google精確搜尋來充當語料庫,不過還是要提醒大家,像是英語這種國際上非常多人使用-特別是非常多非母語使用者-的語言,google上的資料就得小心判斷。以英語為例,若單靠google,有時候也會發現不小心使用到某地的混合語言, 或者可能在當地自然、在其他地方卻不太說的表現。這時候我們就可以透過剛剛那個專門的語料的來確認。不過,「民主」也有死角-通常你找到的結果愈多,代表那種說法比較「大眾」,但比較少不見得是錯,只是你講出來的那刻,母語使用者可能會花個幾秒反應消化。而在口語表達時,能減少大家對你所說的話反應的時間是最好,畢竟當他們花時間在思考我們的語言結構,很可能有時就會忽略了我們要講的重點,最後他們理解的不達自己的意,也會有些可惜。

這裡也提供一個很大的日語語料庫-少納言

語料庫也好、google也罷,充其量是讓我們知道「母語者怎麼使用這些詞」,等我們掌握了語言社會裡的共識之後,也許也可以反客為主開始「玩語言」。期待大家的外語都能進步,天天玩得開心!

留言

這個網誌中的熱門文章

為什麼中文叫 "Mandarin" -滿大人?

讀者發問:「現代英語稱中文為 Mandarin,其實就是「滿大人」,當時的滿族官員威風凜凜,前來大清王朝的外國人聽到這詞,就把它直譯為英語-Man-da-rin。這是真的嗎?」

「龜茲」怎麼念?

談到「正確」的讀音,那麼有許多人一定會想起歷史課本上面的一些國名,從小到大也遇到幾個字音魔人老師,舉凡:「龜茲要念丘慈;月氏要念肉汁。」好像沒這樣念就少了點文化氣息。

台語是不是「方言」?

台灣閩南語或客家話是一個語言嗎?