專利名稱:標(biāo)記輔助設(shè)備、方法和程序的制作方法
技術(shù)領(lǐng)域:
本文中描述的實(shí)施例一般而言涉及標(biāo)記(markup)輔助設(shè)備、方法和程序。
背景技術(shù):
手動(dòng)標(biāo)記整個(gè)大規(guī)模的、非結(jié)構(gòu)化的文本數(shù)據(jù)項(xiàng)(例如電子書)是很困難的。使用機(jī)器學(xué)習(xí)技術(shù),標(biāo)記處理可被自動(dòng)化。然而,很難無(wú)任何錯(cuò)誤地執(zhí)行自動(dòng)標(biāo)記處理。特別地,在文本轉(zhuǎn)語(yǔ)音(text-to-speech)控制中使用的標(biāo)簽(tag)(韻律、感情、講話者等)對(duì)于各個(gè)用戶來(lái)說(shuō)通常是不同的,且沒有唯一正確的答案。因此,由于依賴于用戶的主觀觀點(diǎn)和偏好而使判斷會(huì)有波動(dòng),標(biāo)記處理的負(fù)載變重。
發(fā)明內(nèi)容
在一個(gè)方面中,提供一種標(biāo)記輔助設(shè)備,其特征在于包括獲取單元,其被配置為獲取各個(gè)標(biāo)簽的特征量,每個(gè)標(biāo)簽被用于控制標(biāo)記文本的文本轉(zhuǎn)語(yǔ)音處理,所述標(biāo)記文本包括被分配有至少一個(gè)標(biāo)簽的字符串,所述特征量是用于定義指示標(biāo)簽間的相似程度的第一相似度的值;第一計(jì)算單元,其被配置為針對(duì)各個(gè)字符串,計(jì)算在標(biāo)記文本中被分配給所述字符串的所述標(biāo)簽的特征量的方差;檢測(cè)單元,其被配置為檢測(cè)被分配有第一標(biāo)簽的第一字符串作為包括要被修正的標(biāo)簽的第一候選項(xiàng),所述第一標(biāo)簽具有不小于第一閾值的方差;以及展示單元,其被配置為展示所述第一候選項(xiàng)。在另一個(gè)方面中,提供一種標(biāo)記輔助方法,其特征在于包括獲取各個(gè)標(biāo)簽的特征量,每個(gè)標(biāo)簽被用于控制標(biāo)記文本的文本轉(zhuǎn)語(yǔ)音處理,所述標(biāo)記文本包括被分配有至少一個(gè)標(biāo)簽的字符串,所述特征量是用于定義指示標(biāo)簽間的相似程度的第一相似度的值;針對(duì)各個(gè)字符串,計(jì)算在標(biāo)記文本中被分配給所述字符串的所述標(biāo)簽的特征量的方差;檢測(cè)被分配有第一標(biāo)簽的第一字符串作為包括要被修正的標(biāo)簽的第一候選項(xiàng),所述第一標(biāo)簽具有不小于第一閾值的方差;以及展示所述第一候選項(xiàng)。在又一個(gè)方面中,提供一種非臨時(shí)性(non-transitory)計(jì)算機(jī)可讀介質(zhì),其包括計(jì)算機(jī)可執(zhí)行指令,其特征在于,當(dāng)由處理器執(zhí)行時(shí),所述指令使得所述處理器執(zhí)行包括以下的方法獲取各個(gè)標(biāo)簽的特征量,每個(gè)標(biāo)簽被用于控制標(biāo)記文本的文本轉(zhuǎn)語(yǔ)音處理,所述標(biāo)記文本包括被分配有至少一個(gè)標(biāo)簽的字符串,所述特征量是用于定義指示標(biāo)簽間的相似程度的第一相似度的值;針對(duì)各個(gè)字符串,計(jì)算在標(biāo)記文本中被分配給所述字符串的所述標(biāo)簽的特征量的方差;檢測(cè)被分配有第一標(biāo)簽的第一字符串作為包括要被修正的標(biāo)簽的第一候選項(xiàng),所述第一標(biāo)簽具有不小于第一閾值的方差;以及展示所述第一候選項(xiàng)。
圖1是示例出電子書朗讀(read)服務(wù)系統(tǒng)的示意圖;圖2是示例出根據(jù)實(shí)施例的標(biāo)記輔助設(shè)備的框圖;圖3是示例出在共享標(biāo)記文本存儲(chǔ)部中存儲(chǔ)的共享標(biāo)記文本數(shù)據(jù)項(xiàng)的實(shí)例的表;圖4是示例出標(biāo)記輔助系統(tǒng)的操作的流程圖;圖5是示例出修正候選項(xiàng)(correction candidate)和標(biāo)簽候選項(xiàng)(tagcandidate)的展示(presentation)處理的流程圖;圖6A示例出標(biāo)簽間距離的概念圖;圖6B示例出標(biāo)簽和對(duì)應(yīng)的特征量的表;圖7是示例出在方差(variation)計(jì)算之后共享標(biāo)記文本數(shù)據(jù)項(xiàng)的實(shí)例的表;圖8是示例出用于各個(gè)句子ID的方差的實(shí)例的圖;圖9是示例出修正信息展示單元的第一顯示實(shí)例的圖;圖10是示例出標(biāo)簽候選項(xiàng)展示處理的流程圖;圖11是示例出當(dāng)新用戶分配(assign)標(biāo)簽時(shí)共享標(biāo)記文本數(shù)據(jù)項(xiàng)的實(shí)例的表;圖12是示例出通過(guò)標(biāo)簽候選項(xiàng)計(jì)算單元的用戶間距離計(jì)算處理的實(shí)例的表;圖13是示例出修正信息展示單元的第二顯示實(shí)例的圖;以及圖14是示例出管理服務(wù)器和用戶終端的硬件設(shè)置的框圖。
具體實(shí)施例方式在文檔的自動(dòng)文本轉(zhuǎn)語(yǔ)音處理中,可使用語(yǔ)音合成標(biāo)記語(yǔ)言(SSML)通過(guò)標(biāo)記文本數(shù)據(jù)項(xiàng)來(lái)調(diào)整朗讀時(shí)的音高、語(yǔ)速(pitch)、音量等。在這種情況下,標(biāo)記處理意味著通過(guò)被稱作標(biāo)簽的字符串而部分地圍住文本數(shù)據(jù)項(xiàng)。標(biāo)簽是包括字符串的符號(hào),被用于獲得對(duì)由SSML代表的標(biāo)記語(yǔ)言定義的句子的音高、語(yǔ)速、音量、說(shuō)話風(fēng)格、感情、講話者等等的文本轉(zhuǎn)語(yǔ)音控制。例如,在標(biāo)記結(jié)果[因?yàn)槟恪粗刈x > 很聰明〈/重讀 >,你會(huì)一次通過(guò)入學(xué)考試。]([You,11 pass the entrance exam on your first try becauseyou’ re<emphasis>smart</emphasis>.])中,被〈重讀 > (〈emphasis〉)標(biāo)簽圍住的部分[很聰明]([smart])被重讀。注意被標(biāo)簽圍住的字符串不限于單詞,而可以是諸如短語(yǔ)和句子的字符串。該實(shí)施例的以下描述將在如下假設(shè)下給出標(biāo)簽被分配給[句子],[句子]作為標(biāo)簽將被分配的基本單位。此外,SSML具有朗讀標(biāo)記部分并同時(shí)改變其諸如對(duì)話風(fēng)格、警告風(fēng)格等的說(shuō)話風(fēng)格的功能,有感情(喜怒哀樂)地朗讀標(biāo)記部分的功能,以及在改變說(shuō)話者(聲音)的同時(shí)閱讀標(biāo)記部分的功能。利用這些功能,由于句子可被讀得更生動(dòng),嘗試應(yīng)用于合成語(yǔ)音的自動(dòng)朗讀。作為標(biāo)記輔助方法,公知例如一種通過(guò)來(lái)自由手動(dòng)地且部分地標(biāo)記文本數(shù)據(jù)項(xiàng)以及自動(dòng)地標(biāo)記未知文本數(shù)據(jù)項(xiàng)而準(zhǔn)備的學(xué)習(xí)語(yǔ)料庫(kù)(corpus)的機(jī)器學(xué)習(xí)方法來(lái)學(xué)習(xí)模型的技術(shù)。更具體地,已知一種用于從文本數(shù)據(jù)項(xiàng)推定感情并自動(dòng)分配感情標(biāo)簽的感情推定技術(shù)。除了文本轉(zhuǎn)語(yǔ)音的標(biāo)記處理,還已知用于標(biāo)記每個(gè)單詞的詞性(part-of-speech)的詞性標(biāo)記處理、用于標(biāo)記諸如標(biāo)題、正文文本、廣告等的文本結(jié)構(gòu)的結(jié)構(gòu)標(biāo)記處理等等。而且,已知一種基于文本內(nèi)容和布局相似性的輔助結(jié)構(gòu)標(biāo)記處理的技術(shù)。然而,利用上述現(xiàn)有技術(shù),需要努力手動(dòng)標(biāo)記文本數(shù)據(jù)項(xiàng)。相反地,自動(dòng)標(biāo)記處理不能根據(jù)用戶的主觀觀點(diǎn)和偏好來(lái)標(biāo)記文本數(shù)據(jù)項(xiàng)。
一般而言,根據(jù)一個(gè)實(shí)施例,一種標(biāo)記輔助設(shè)備包括獲取單元、第一計(jì)算單元、檢測(cè)單元和展示單元。所述獲取單元被配置為獲取各個(gè)標(biāo)簽的特征量,每個(gè)標(biāo)簽被用于控制標(biāo)記文本的文本轉(zhuǎn)語(yǔ)音處理,所述標(biāo)記文本包括被分配有至少一個(gè)標(biāo)簽的字符串,所述特征量是用于定義指示標(biāo)簽間的相似程度的第一相似度的值。所述第一計(jì)算單元被配置為針對(duì)各個(gè)字符串,計(jì)算在標(biāo)記文本中被分配給所述字符串的所述標(biāo)簽的特征量的方差。所述檢測(cè)單元被配置為檢測(cè)被分配有第一標(biāo)簽的第一字符串作為包括要被修正的標(biāo)簽的第一候選項(xiàng),所述第一標(biāo)簽具有不小于第一閾值的方差。所述展示單元被配置為展示所述第一候選項(xiàng)。
下文中將參考附圖描述根據(jù)本實(shí)施例的標(biāo)記輔助設(shè)備、方法和程序。注意由相同的參考標(biāo)號(hào)指示的部件執(zhí)行相同的操作,且根據(jù)需要,將省略對(duì)其的重復(fù)描述。
以下將參考圖1描述根據(jù)本實(shí)施例的使用標(biāo)記輔助設(shè)備的標(biāo)記輔助系統(tǒng)的使用實(shí)例。
圖1示例出作為標(biāo)記輔助系統(tǒng)的實(shí)例而提供的電子書(e-book)朗讀服務(wù)系統(tǒng)。
標(biāo)記輔助系統(tǒng)100包括管理服務(wù)器101以及用戶終端Α102-1、Β102-2和C102-3。
管理服務(wù)器101將標(biāo)簽分配給電子書151的句子以產(chǎn)生標(biāo)記文檔152 (以下稱為標(biāo)記文本數(shù)據(jù)項(xiàng)152)。作為標(biāo)簽,在圖1的實(shí)例中使用〈憤怒> (〈angry〉)和〈害怕> (〈fear〉)標(biāo)簽,其意味著被標(biāo)簽圍住的句子用“憤怒”和“害怕”的感情來(lái)讀出。注意下文中,有標(biāo)簽的文本數(shù)據(jù)項(xiàng)被稱為標(biāo)記文本數(shù)據(jù)項(xiàng)。
用戶終端A102-1到C102-3中的每一個(gè)將請(qǐng)求信號(hào)發(fā)送到管理服務(wù)器101以下載標(biāo)記文本數(shù)據(jù)項(xiàng)152。管理 服務(wù)器101接收該請(qǐng)求信號(hào),并將標(biāo)記文本數(shù)據(jù)項(xiàng)傳遞 (deliver)到已發(fā)送了請(qǐng)求信號(hào)的用戶終端102。
用戶可基于通過(guò)自動(dòng)推定分配的標(biāo)簽而進(jìn)行控制以讀出接收到的標(biāo)記文本數(shù)據(jù)項(xiàng)。然而,通過(guò)自動(dòng)推定分配的標(biāo)簽包括許多錯(cuò)誤,且一個(gè)用戶可能對(duì)由另一個(gè)用戶分配的標(biāo)簽不滿意,因?yàn)樗鰳?biāo)簽不滿足他/她的偏好。因此,該用戶可根據(jù)他/她的主觀觀點(diǎn)和偏好而修正不合意的標(biāo)簽,以產(chǎn)生修正后的標(biāo)記文本數(shù)據(jù)項(xiàng)153。更具體地,用戶終端 A102-1將由管理服務(wù)器101分配的〈害怕 > 標(biāo)簽改為〈激動(dòng)> (〈excited〉)標(biāo)簽,且用戶終端C102-3將〈憤怒 > 改為〈羞愧> (〈shame〉)標(biāo)簽。
修正后的標(biāo)記文本數(shù)據(jù)項(xiàng)153從用戶終端102被發(fā)送到管理服務(wù)器101,并被其他用戶共享。在這種情況下,“共享”表示允許用戶瀏覽并下載由另一個(gè)用戶標(biāo)記的標(biāo)記文本數(shù)據(jù)項(xiàng),還表示在分配標(biāo)簽時(shí)和在展示標(biāo)記處理的修正候選項(xiàng)時(shí),該標(biāo)記文本數(shù)據(jù)項(xiàng)被用作基礎(chǔ)數(shù)據(jù)。
以下將參考圖2示出的框圖描述根據(jù)本實(shí)施例的標(biāo)記輔助設(shè)備。
根據(jù)本實(shí)施例的標(biāo)記輔助設(shè)備200包括共享標(biāo)記文本存儲(chǔ)部201、標(biāo)記文本共享單元202、標(biāo)簽存儲(chǔ)部203、標(biāo)簽分配單元204、特征量獲取單元205、標(biāo)記文本轉(zhuǎn)換單元206、 修正候選項(xiàng)檢測(cè)單元207、標(biāo)簽方差計(jì)算單元208、標(biāo)簽候選項(xiàng)計(jì)算單元209和修正信息顯示器210。
共享標(biāo)記文本存儲(chǔ)部201存儲(chǔ)通過(guò)將默認(rèn)標(biāo)簽分配給文本數(shù)據(jù)項(xiàng)而產(chǎn)生的標(biāo)記文本數(shù)據(jù)項(xiàng)以及其標(biāo)簽由用戶結(jié)合書ID分配并修正的那些文本數(shù)據(jù)項(xiàng)。默認(rèn)標(biāo)簽是首先 由標(biāo)記輔助設(shè)備200自動(dòng)分配給文本數(shù)據(jù)項(xiàng)的那些標(biāo)簽。書ID是例如唯一地賦給書名的 數(shù)值。存儲(chǔ)在共享標(biāo)記文本存儲(chǔ)部201中的標(biāo)記文本數(shù)據(jù)項(xiàng)在下文中也被稱為共享標(biāo)記文 本數(shù)據(jù)項(xiàng)。稍后將參考圖3描述共享標(biāo)記文本數(shù)據(jù)項(xiàng)。
標(biāo)記文本共享單元202管理標(biāo)記文本數(shù)據(jù)項(xiàng)。例如,標(biāo)記文本共享單元202提取 存儲(chǔ)在共享標(biāo)記文本存儲(chǔ)部201中的標(biāo)記文本數(shù)據(jù)項(xiàng)以分配新標(biāo)簽,并將新的標(biāo)記文本數(shù) 據(jù)項(xiàng)存儲(chǔ)在共享標(biāo)記文本存儲(chǔ)部201中。
標(biāo)簽存儲(chǔ)部203存儲(chǔ)將被分配給文本數(shù)據(jù)項(xiàng)的多種標(biāo)簽。例如,存儲(chǔ)由SSML定義 的標(biāo)簽,即,控制音高、語(yǔ)速和音量的標(biāo)簽以及指定感情、說(shuō)話風(fēng)格和講話者的標(biāo)簽。注意, 在該實(shí)施例中,只要滿足可定義標(biāo)簽間距離(也被稱為標(biāo)簽間相似度或第一相似度)的條 件,就不特別地限制標(biāo)簽的種類。下面,該實(shí)施例將以感情標(biāo)簽為例。
標(biāo)簽分配單元204經(jīng)由標(biāo)記文本共享單元202而接收共享標(biāo)記文本數(shù)據(jù)項(xiàng),并從 標(biāo)簽存儲(chǔ)部203接收標(biāo)簽。標(biāo)簽分配單元204參考共享標(biāo)記文本數(shù)據(jù)項(xiàng)而將標(biāo)簽分配給文 本數(shù)據(jù)項(xiàng)。
特征量獲取單元205接收來(lái)自標(biāo)簽存儲(chǔ)部203的標(biāo)簽,且為各個(gè)標(biāo)簽獲取與標(biāo)簽 對(duì)應(yīng)的用于定義標(biāo)簽間距離(標(biāo)簽間相似度)的特征量。特征量是例如多維向量。多維向量 間的距離可由歐幾里得距離(Euclidian distance)或余弦距離定義。注意,作為用于各個(gè) 標(biāo)簽的特征量,特征量獲取單元205可具有預(yù)先定義標(biāo)簽與特征量之間的關(guān)系的表,且可 根據(jù)需要參考該表。或者,特征量獲取單元205可根據(jù)需要參考外部表。并且,特征量獲取 單元205可使用特定函數(shù)計(jì)算特征量。
標(biāo)記文本轉(zhuǎn)換單元206分別從標(biāo)簽分配單元204接收標(biāo)記文本數(shù)據(jù)項(xiàng)和從特征量 獲取單元205接收特征量,并通過(guò)用特征量代替標(biāo)記文本數(shù)據(jù)項(xiàng)中的各個(gè)標(biāo)簽而將標(biāo)記文 本數(shù)據(jù)項(xiàng)轉(zhuǎn)換為特征量時(shí)間序列數(shù)據(jù)項(xiàng)。由于標(biāo)記文本轉(zhuǎn)換單元206將標(biāo)記文本數(shù)據(jù)項(xiàng)轉(zhuǎn) 換為時(shí)間序列數(shù)據(jù)項(xiàng),也可考慮標(biāo)簽間距離而定義標(biāo)簽的方差和用戶間距離(也被稱為第 二相似度)。
修正候選項(xiàng)檢測(cè)單元207分別從標(biāo)記文本轉(zhuǎn)換單元206接收特征量時(shí)間序列數(shù)據(jù) 項(xiàng)、從標(biāo)記文本共享單元202接收標(biāo)記文本數(shù)據(jù)項(xiàng)、以及從(稍后將描述的)標(biāo)簽方差計(jì)算單 元208接收標(biāo)簽的方差。修正候選項(xiàng)檢測(cè)單元207提取這樣的部分其中用戶更可能基于 特征量時(shí)間序列數(shù)據(jù)項(xiàng)而修正作為修正候選項(xiàng)的標(biāo)簽。
標(biāo)簽方差計(jì)算單元208從修正候選項(xiàng)檢測(cè)單元207接收特征量時(shí)間序列數(shù)據(jù)項(xiàng), 并計(jì)算標(biāo)簽的方差。
標(biāo)簽候選項(xiàng)計(jì)算單元209從修正候選項(xiàng)檢測(cè)單元207接收標(biāo)記文本數(shù)據(jù)項(xiàng)、特征 量時(shí)間序列數(shù)據(jù)項(xiàng)以及修正候選項(xiàng),計(jì)算將在修正候選項(xiàng)中被代替的標(biāo)簽,并選擇指示新 標(biāo)簽候選項(xiàng)的標(biāo)簽候選項(xiàng)。
修正信息顯示器210從標(biāo)簽候選項(xiàng)計(jì)算單元209接收候選項(xiàng)標(biāo)簽和標(biāo)記文本數(shù)據(jù) 項(xiàng),并展示文本數(shù)據(jù)項(xiàng)的哪部分的標(biāo)簽將被修正以及哪個(gè)標(biāo)簽將被分配給用戶。
以下將參考圖3描述存儲(chǔ)在共享標(biāo)記文本存儲(chǔ)部201中的共享標(biāo)記文本數(shù)據(jù)項(xiàng)的 實(shí)例。
如圖3所示,文本數(shù)據(jù)項(xiàng)被分為句子,且句子ID 301、默認(rèn)標(biāo)簽302、用戶標(biāo)簽303以及句子304作為彼此關(guān)聯(lián)的共享標(biāo)記文本數(shù)據(jù)項(xiàng)而被存儲(chǔ)在表中。在這種情況下,作為通過(guò)機(jī)器學(xué)習(xí)而自動(dòng)推定的結(jié)果分配的默認(rèn)標(biāo)簽302以及當(dāng)用戶A到C將其喜好的標(biāo)簽分配給各個(gè)句子ID 301時(shí)而獲得的用戶標(biāo)簽303與句子304關(guān)聯(lián)。默認(rèn)標(biāo)簽302可被處理為一個(gè)用戶。更具體地,對(duì)于句子ID 301 “7”的句子304[你在開玩笑吧? ] ([Are you kidding ]), “憤怒(anger)”作為默認(rèn)標(biāo)簽302被分配,“高興(happy)”、“羞愧(shame)”和 “憤怒”作為用戶標(biāo)簽303而分別由用戶A、B和C分配。在朗讀時(shí),用所分配的標(biāo)簽的感情來(lái)讀出每個(gè)句子。
注意,可獨(dú)立地管理電子書的文本數(shù)據(jù)項(xiàng)和標(biāo)簽。句子被用作標(biāo)記基本單位。然而,可使用諸如字符、單詞、段落等的另一單位作為基準(zhǔn)來(lái)執(zhí)行標(biāo)記處理。
對(duì)于句子ID “7”的句子[你在開玩笑吧?],“憤怒”更有可能(more likely)被感覺為是該句子中的感情。然而,由于該句子是對(duì)之前的句子(句子ID “6” [因?yàn)槟愫苈斆鳎銜?huì)一次通過(guò)入學(xué)考試。])中的贊美的回答,假定有諸如“高興”和“羞愧”的其他解釋, 且一些用戶(用戶A和用戶B)將該句子標(biāo)記為其他解釋。以這種方式,諸如感情標(biāo)簽的標(biāo)簽不能被唯一地確定,而且根據(jù)用戶的主觀觀點(diǎn)和偏好,可獲得各種解釋。而且,在文本轉(zhuǎn)語(yǔ)音處理中使用的其他標(biāo)簽(音高、語(yǔ)速、音量、說(shuō)話風(fēng)格、說(shuō)話者等)具有類似的性質(zhì)。
以下將參考圖4中示例的流程圖描述使用標(biāo)記輔助設(shè)備的標(biāo)記輔助系統(tǒng)的操作。
假設(shè)共享標(biāo)記文本存儲(chǔ)部201、標(biāo)記文本共享單元202、標(biāo)簽存儲(chǔ)部203以及標(biāo)簽分配單元204被包括在圖1示出的管理服務(wù)器101中。而且,假設(shè)特征量獲取單元205、標(biāo)記文本轉(zhuǎn)換單元206、修正候選項(xiàng)檢測(cè)單元207、標(biāo)簽方差計(jì)算單元208、標(biāo)簽候選項(xiàng)計(jì)算單元209以及修正信息顯示器209被包括在圖1示出的每個(gè)用戶終端102中。注意,包括在標(biāo)記輔助設(shè)備200中的各個(gè)單元和存儲(chǔ)部可被包括在管理服務(wù)器101或每個(gè)用戶終端102 中。
在步驟S401,標(biāo)簽分配單元204將默認(rèn)標(biāo)簽分配給文本數(shù)據(jù)項(xiàng)。作為默認(rèn)標(biāo)簽分配技術(shù),可以使用例如通過(guò)利用現(xiàn)有的機(jī)器學(xué)習(xí)而自動(dòng)推定的技術(shù)、分配來(lái)自共享標(biāo)記文本數(shù)據(jù)項(xiàng)的最大數(shù)目的標(biāo)簽的技術(shù)以及分配來(lái)自共享標(biāo)記文本數(shù)據(jù)的被其他用戶最多支持(confirm)的標(biāo)簽的技術(shù)。
在步驟S402,管理服務(wù)器101將被分配有默認(rèn)標(biāo)簽的標(biāo)記文本數(shù)據(jù)項(xiàng)傳遞給用戶終端102。
在步驟S403,在用戶終端102中,修正候選項(xiàng)檢測(cè)單元207檢測(cè)出修正候選項(xiàng),該修正候選項(xiàng)是來(lái)自標(biāo)記文本數(shù)據(jù)項(xiàng)的、其標(biāo)簽將被修正的句子,且標(biāo)簽候選項(xiàng)計(jì)算單元209 在修正標(biāo)簽時(shí)計(jì)算標(biāo)簽候選項(xiàng)。此后,修正信息顯示器210向用戶顯示修正候選項(xiàng)和標(biāo)簽候選項(xiàng)。
在步驟S404,用戶參考修正候選項(xiàng)和標(biāo)簽候選項(xiàng)而編輯標(biāo)簽(例如,他或她將標(biāo)簽添加到修正候選項(xiàng)或在修正候選項(xiàng)中修正標(biāo)簽)。
在步驟S405,用戶終端102將其中標(biāo)簽被添加或修正的標(biāo)記文本數(shù)據(jù)項(xiàng)發(fā)送到管理服務(wù)器101。管理服務(wù)器101收集從用戶終端102發(fā)送來(lái)的修正后的標(biāo)記文本數(shù)據(jù)項(xiàng),并將其存儲(chǔ)在共享標(biāo)記文本存儲(chǔ)部201中。當(dāng)大量的用戶編輯(添加和修正)標(biāo)記文本數(shù)據(jù)項(xiàng)的標(biāo)簽時(shí),可以改善使用 共享標(biāo)記文本數(shù)據(jù)項(xiàng)的默認(rèn)標(biāo)簽的分配精度。當(dāng)默認(rèn)標(biāo)簽的分配精度被改善時(shí),用戶修正標(biāo)簽的部分的數(shù)目減少,由此允許更有效的標(biāo)記處理。
以下將參考圖5中示例的流程圖描述步驟S403中的標(biāo)簽候選項(xiàng)展示處理。
在步驟S501,特征量獲取單元205獲取用于共享標(biāo)記文本數(shù)據(jù)項(xiàng)中的各個(gè)標(biāo)簽的 特征量。
在步驟S502,標(biāo)記文本轉(zhuǎn)換單元206將共享標(biāo)記文本數(shù)據(jù)項(xiàng)的標(biāo)簽轉(zhuǎn)換為在步驟 S501中定義的特征量,由此獲得特征量時(shí)間序列數(shù)據(jù)項(xiàng)。
在步驟S503,標(biāo)簽方差計(jì)算單元208計(jì)算用于各個(gè)標(biāo)簽分配基本單位的方差。注 意,如果不能定義由用戶分配的標(biāo)簽的變異度(variation degree),本實(shí)施例不限于方差。 在這種情況下,“方差”被用作這樣的術(shù)語(yǔ),其意味著方差以及等效于方差的值。
在步驟S504,修正候選項(xiàng)檢測(cè)單元207檢測(cè)出其方差不小于閾值的標(biāo)簽作為更有 可能被修正的修正候選項(xiàng),且修正信息顯不器210顯不修正候選項(xiàng)。
在步驟S505,標(biāo)簽候選項(xiàng)計(jì)算單元209確定用于每個(gè)修正候選項(xiàng)的將被展示的標(biāo) 簽候選項(xiàng),且修正信息顯不器210向用戶展不標(biāo)簽候選項(xiàng)。
以下將參考圖6A和6B描述在步驟S501中特征量獲取單元205中的特征量獲取處理。
圖6A示例出標(biāo)簽間距離的概念圖,圖6B示例出指示標(biāo)簽和對(duì)應(yīng)的坐標(biāo)值的表。
以下將描述更有可能被修正的標(biāo)簽的特征。假設(shè)給出在圖3中示出的共享標(biāo)記文 本組。當(dāng)所有的用戶分配完全相同的標(biāo)簽“輕松(ease)”時(shí),或者當(dāng)默認(rèn)標(biāo)簽保持不變且如 同在句子ID “I”中一樣沒有差異時(shí),該標(biāo)簽具有高可靠性,且不太可能(unlikely)被新用 戶修正。另一方面,當(dāng)用戶像在句子ID “7”中一樣分配各種標(biāo)簽時(shí),考慮根據(jù)用戶的主觀 觀點(diǎn)和偏好而分配不同的標(biāo)簽。具有各種各樣標(biāo)簽的句子的標(biāo)簽更有可能被新用戶修正。 然而,盡管像在句子ID “22”和“23”中一樣分配不同的標(biāo)簽,但當(dāng)它們表達(dá)具有高相似度 的感情(例如,“歡喜(like)”和“輕松”,以及“高興”和“歡喜”)時(shí),帶有感情的朗讀效果彼 此相對(duì)接近,且這些標(biāo)簽不太可能被新用戶修正。
如上所述,由于與很大程度上不同的朗讀效果和大差異對(duì)應(yīng)的標(biāo)簽更有可能被修 正,因此這些標(biāo)簽作為修正候選項(xiàng)被展示給用戶。當(dāng)被分配的標(biāo)簽沒有差異時(shí),或者當(dāng)具有 更接近的朗讀效果的各種標(biāo)簽被分配時(shí),這樣的標(biāo)簽不太可能被修正,且不會(huì)作為修正候 選項(xiàng)被展示給用戶。以這種方式,通過(guò)縮小修正候選項(xiàng),可大大提高用戶的標(biāo)記修正效率。
在圖6A中示例出其中標(biāo)簽被布置在二維坐標(biāo)平面601上的實(shí)例。“歡喜”、“輕松”、 “高興”、“憤怒”、“羞愧”等分別是感情標(biāo)簽。在該布置的情況下,具有相似朗讀效果的標(biāo)簽 被布置在較靠近的位置。例如,圖6A表示出“歡喜”和“輕松”具有小的距離(高相似度),而 “歡喜”和“憤怒”具有大的距離(低相似度)。當(dāng)標(biāo)簽以這種方式被布置時(shí),其被表示為二維 向量的特征量,且標(biāo)簽間距離可被計(jì)算為例如歐幾里得距離。
圖6A和6B示例出僅有感情標(biāo)簽的實(shí)例。然而,可使用諸如音高、語(yǔ)速、音量、說(shuō)話 風(fēng)格、講話者等的任意標(biāo)簽。例如,在講話者的情況下,“男聲”和“女聲”可具有大的距離 (低相似度),且標(biāo)簽間距離可由例如通過(guò)比較語(yǔ)音譜而計(jì)算距離的方法來(lái)定義。在該實(shí)施 例中,這種標(biāo)簽間距離的定義是預(yù)先固定的。或者,可準(zhǔn)備允許用戶自由地改變二維坐標(biāo)平 面601上的標(biāo)簽布置和距離定義的界面。例如,用戶可經(jīng)由該界面向特征量獲取單元205 輸入指令信號(hào),且特征量獲取單元205可根據(jù)指令信號(hào)而改變標(biāo)簽布置和距離定義。此外, 特征量由二維向量表示,但是,只要標(biāo)簽間距離可被定義,對(duì)特征量沒有特別限制。
圖6B示例出表602,其以原點(diǎn)為基準(zhǔn)使第一軸604和第二軸605的坐標(biāo)值與感情 標(biāo)簽603相關(guān)聯(lián)。在這種情況下,第一軸(橫軸)604表示高興程度的量值,而第二軸(縱軸) 605表示覺醒(arousal)程度的量值,但是不需要向各個(gè)軸分配含義(meanings)。
以下將參考圖7描述其中標(biāo)簽被特征量代替的共享標(biāo)記文本數(shù)據(jù)項(xiàng)的實(shí)例。
在圖7示例出的共享標(biāo)記文本數(shù)據(jù)項(xiàng)的表中,圖3中示例的共享標(biāo)記文本數(shù)據(jù)項(xiàng) 的標(biāo)簽被轉(zhuǎn)換為特征量701,且特征量的方差702被分別與其關(guān)聯(lián)而加入。更具體地,句子 ID 301 “7”的默認(rèn)標(biāo)簽302的特征量701 [ (-0. 5,O. 5)]、分別由用戶A、B和C分配的特征 量[(O. 9,O. 2)]、[(-1.0,-0.1)]和[(-O. 5,0. 5)]、方差 702[O. 75]以及句子 304[你在開 玩笑吧?]彼此關(guān)聯(lián)。以這種方式,標(biāo)記文本數(shù)據(jù)項(xiàng)可被表示為特征量時(shí)間序列數(shù)據(jù)項(xiàng)。
以下將描述步驟S503中標(biāo)簽方差計(jì)算單元208的方差計(jì)算方法。
在標(biāo)簽方差計(jì)算中,在該實(shí)施例中,針對(duì)圖7中的特征量的各個(gè)維度計(jì)算方差,然 后將這些方差相加。例如,可像式(I)那樣計(jì)算句子ID “7”的句子的方差
當(dāng)通過(guò)特征量的矩陣表示被分配的標(biāo)簽時(shí),得到
方差=sum(diag (cov (A)))
其中sumO是求和的函數(shù),diag()是取對(duì)角線元素的函數(shù),cov O是計(jì)算方差-協(xié) 方差矩陣的函數(shù)。利用同樣的方法,對(duì)與所有的句子關(guān)聯(lián)的特征量計(jì)算方差。
以下將參考圖8描述在步驟S504中校準(zhǔn)候選項(xiàng)檢測(cè)單元207的檢測(cè)處理。
圖8是示例出與圖7中的句子ID 301的項(xiàng)目和方差702有關(guān)的用于各個(gè)句子ID 的方差的圖,其中橫軸標(biāo)示句子ID 301,縱軸標(biāo)示方差702。從該圖中,可識(shí)別出大的標(biāo)簽 差異和小的標(biāo)簽差異。注意,由于也考慮標(biāo)簽間距離而計(jì)算方差值,因此具有相似朗讀效果 的標(biāo)簽之間的方差很小。修正候選項(xiàng)檢測(cè)單元207選擇其方差不小于閾值的句子作為修正 候選項(xiàng)。
更具體地,當(dāng)像句子ID “7”那樣分配具有諸如“憤怒”、“高興”和“羞愧”那樣的很 大程度上不同的朗讀效果的標(biāo)簽時(shí),即,當(dāng)標(biāo)簽間距離大時(shí)(相似度低)時(shí),方差取大的值。 另一方面,當(dāng)像句子ID “I”中那樣所有的用戶分配相同的標(biāo)簽“輕松”時(shí),以及當(dāng)分配的標(biāo) 簽不同但卻具有相似的朗讀效果(像句子ID “22”和“23”中的“歡喜”、“輕松”和“高興”那 樣)時(shí),即,當(dāng)標(biāo)簽間距離小(相似度高)時(shí),方差取小的值。因此,當(dāng)方差大時(shí),基于用于每 個(gè)句子ID的該方差而將修正候選項(xiàng)選擇為因依賴于用戶的主觀觀點(diǎn)和偏好分配的不同的 標(biāo)簽而促使用戶對(duì)其進(jìn)行修正的位置。
注意,閾值可以取預(yù)定值或可由用戶改變的值。可使用以方差的降序?qū)㈩A(yù)定數(shù)目 的句子選擇為修正候選項(xiàng)的方法。
以下將參考圖9描述在步驟S604中修正信息顯示器210的顯示實(shí)例。
圖9示例出用于顯示修正候選項(xiàng)的用戶界面的一個(gè)實(shí)例。假設(shè)這樣的情況其中 用戶在閱讀文本901的同時(shí)聽取與文本901有關(guān)的朗讀聲音。
當(dāng)在朗讀期間發(fā)現(xiàn)修正候選項(xiàng)時(shí),通過(guò)高亮顯示(highlight)修正候選項(xiàng)而顯示彈出框903,由此向用戶展示另一個(gè)朗讀候選項(xiàng)的存在。更具體地,作為在標(biāo)簽方差計(jì)算單元208中的計(jì)算的結(jié)果,其方差不小于閾值的修正候選項(xiàng)902 (句子ID “7” [你在開玩笑吧?])被高亮顯示,由此通過(guò)作為彈出框903顯示[還有另一種可用的朗讀方式。你想要展不候選項(xiàng)嗎? K [Another reading manner is available. Do you want to present a candidate ])而促使用戶選擇另一個(gè)候選項(xiàng)。作為另一種方法,可以在朗讀前作為列表修正候選項(xiàng),且用戶可預(yù)先一次性修正標(biāo)簽。注意,圖9示例出其中修正候選項(xiàng)作為彈出框而被顯示的顯示實(shí)例。或者,修正候選項(xiàng)可被顯示在獨(dú)立的視窗上,且只要用戶可識(shí)別出修正候選項(xiàng),可采用任何其他方法。
以下將參考圖10更詳細(xì)描述步驟S505中的標(biāo)簽候選項(xiàng)展示處理。以下將假設(shè)這樣的情況其中新用戶創(chuàng)建獨(dú)特的標(biāo)記文本數(shù)據(jù)項(xiàng),同時(shí)如圖7所示,包括默認(rèn)標(biāo)簽的四個(gè)用戶的標(biāo)記文本數(shù)據(jù)項(xiàng)被登記或共享。
在步驟S1001,標(biāo)簽候選項(xiàng)計(jì)算單元209從存儲(chǔ)在共享標(biāo)記文本存儲(chǔ)部201中的共享標(biāo)記文本數(shù)據(jù)項(xiàng)收集至此·(so far)被所有用戶修正的標(biāo)簽和修正候選項(xiàng)的信息項(xiàng)。
在步驟S1002,標(biāo)簽候選項(xiàng)計(jì)算單元209基于與新用戶的相似度,搜索這樣的用戶,該用戶修正了標(biāo)簽而具有與新用戶相似的傾向。在這種情況下,作為與新用戶的相似度計(jì)算的實(shí)例,以與標(biāo)簽間距離相同的方式計(jì)算用戶間距離。首先,為各個(gè)句子計(jì)算標(biāo)簽間的歐幾里得距離,且為所有句子計(jì)算的歐幾里得距離被相加。可選擇其和不大于閾值的用戶作為與新用戶具有高相似度的用戶。以下將參考圖12描述實(shí)際的實(shí)例。
在步驟S1003,基于由與新用戶具有高相似度的用戶分配的標(biāo)簽而向新用戶展示標(biāo)簽候選項(xiàng)。
以下將參考圖11描述當(dāng)新用戶分配標(biāo)簽時(shí)共享標(biāo)記文本數(shù)據(jù)項(xiàng)的實(shí)例。
在圖11示出的表中,新用戶1101的標(biāo)簽列被添加到圖7中示例的表,且該表被存儲(chǔ)在共享標(biāo)記文本存儲(chǔ)部201中。新用戶已向作為已被他或她自己修正的修正候選項(xiàng)1102 的句子ID為“7”、“8”、“10”、“11”和“13”的句子分配了標(biāo)簽,并向作為下一修正候選項(xiàng) 1103的句子ID為“15”的句子分配標(biāo)簽。
標(biāo)簽候選項(xiàng)計(jì)算單元209收集新用戶向其分配了標(biāo)簽的句子ID為“7”、“8”、“ 10”、 “11” 和 “13” 的句子的標(biāo)簽的 5 個(gè)特征量(0. 9,0. 2)、(0. 2,0. 9)、(-0. 9,0.1)、(-0. 9,0.1)和(-0. 9,0. 8),作為至此由新用戶收集了的標(biāo)簽和修正候選項(xiàng)的信息項(xiàng)。
以下將參考圖12描述步驟S1002中的用戶間距離計(jì)算方法。
圖12示例出通過(guò)提取由新用戶修正過(guò)的句子ID的標(biāo)簽的特征量而準(zhǔn)備的表,以及同樣的句子ID的默認(rèn)標(biāo)簽和由用戶A到C分配的標(biāo)簽的特征量。基于前述五個(gè)修正候選項(xiàng)的句子ID,計(jì)算與新用戶的距離。更具體地,新用戶與用戶B之間的歐幾里得距離1201 由下式表示
^(0 . 9 — (—1. 0) )2 + (O . 2 - (-0 .1) )2
+ V(0 . 2 - O . 2)2 + (O . 9 - O . 9)2
■+ O .9 - O · 9>2 +(0,1 - (-O · I) )2 (2)[_8] + ι/(—0.9 —0.3)2 + (0.1—0.8)2
+ 備O . 9 - (-0 . 9) )2 + {O . 8 - O .1)2
= 5,823859833
當(dāng)通過(guò)同樣的方法計(jì)算新用戶1101與其他用戶之間的歐幾里得距離1201時(shí),獲 得與默認(rèn)標(biāo)簽的距離(7. 75),與用戶A的距離(1. 36),與用戶B的距離(5. 82)以及與用戶 C的距離(3. 90),如圖12所示。
因此,就與新用戶1101的距離而言,用戶A、C和B的標(biāo)記以及默認(rèn)標(biāo)簽按降序具 有更高的與新用戶1101的相似度。即,判定用戶A具有與新用戶1101最接近的標(biāo)記傾向, 且具有與新用戶1101相似的主觀觀點(diǎn)和偏好。
注意在前述實(shí)例中,限制于其標(biāo)簽經(jīng)過(guò)新用戶修正的句子而計(jì)算距離。或者,可以 基于標(biāo)記文本數(shù)據(jù)項(xiàng)中的所有句子計(jì)算用戶間距離。通過(guò)這種方法計(jì)算的用戶間距離反映 了標(biāo)簽間距離。
以下將參考圖13描述修正信息顯示器210對(duì)標(biāo)簽候選項(xiàng)的展示實(shí)例。
作為標(biāo)簽候選項(xiàng)展示方法,例如,參考與新用戶的距離最近的用戶的標(biāo)記文本數(shù) 據(jù)項(xiàng),在對(duì)應(yīng)的句子中由該用戶分配的標(biāo)簽被原封不動(dòng)地(intact)展示。更具體地,由于在 圖12中用戶A與新用戶的距離最近,“悲傷(soirow)”(特征量-0.9,-0. 2)被展示為將向 新用戶的句子ID “15”分配的標(biāo)簽候選項(xiàng)。此外,如圖13所示例的,可以使用彈出框1301 顯示所分配的標(biāo)簽的比例。此外,可依次選擇與新用戶距離較近的預(yù)定數(shù)目的用戶,且被最 多分配給文檔的最大數(shù)目的那些的標(biāo)簽可被展示,或可以依次被顯示為排名(ranking)。
當(dāng)有多個(gè)標(biāo)簽候選項(xiàng)時(shí),標(biāo)簽可被合并而產(chǎn)生新的標(biāo)簽。例如,在通過(guò)圖13示出 的彈出框1301而展示標(biāo)簽候選項(xiàng)的情況下,當(dāng)“高興”和“悲傷”分別以50%的比例被展示 時(shí),它們將由用戶捕捉的感情“喜極而泣(wiping for joy)”表達(dá)既“高興”又“悲傷”。在 這種情況下,可通過(guò)使用諸如感情漸變(emotion morphing)的技術(shù)以相應(yīng)的比例(在這種 情況下是50%)合并“高興”和“悲傷”這兩種感情,來(lái)完成朗讀。
當(dāng)用前述方法定義用戶間距離時(shí),可檢測(cè)出不恰當(dāng)?shù)貥?biāo)記文本數(shù)據(jù)項(xiàng)(例如,通過(guò) 隨機(jī)標(biāo)記文本數(shù)據(jù)項(xiàng)而不考慮主題)的用戶。使用在維持距離的同時(shí)在二維平面上映射 (map)用戶的多維標(biāo)度法(scaling method),不恰當(dāng)?shù)貥?biāo)記文本數(shù)據(jù)項(xiàng)的用戶被映射在離 群位置(outlier position)。被映射到離群位置的用戶被排除在修正候選項(xiàng)和標(biāo)簽候選項(xiàng) 計(jì)算對(duì)象之外,由此更加改善了標(biāo)記效率和用戶間距離精度,允許采取合適的措施。
以下將參考圖14中示例的框圖描述根據(jù)本實(shí)施例的管理服務(wù)器和用戶終端的硬 件設(shè)置。
圖14是示例出本實(shí)施例的管理服務(wù)器101和用戶終端102的硬件設(shè)置的框圖。管 理服務(wù)器101和用戶用短102中的每一者包括中央處理單元(CPU)1401、只讀存儲(chǔ)器(ROM) 1402、隨機(jī)存取存儲(chǔ)器(RAM) 1403、硬盤驅(qū)動(dòng)器(HDD) 1404、顯示器1405、收發(fā)器單元1406 和操作單元1407,其經(jīng)由總線1408彼此連接。
CPU 1401是控制標(biāo)記輔助設(shè)備200的整體處理的處理裝置。
ROM 1402存儲(chǔ)實(shí)現(xiàn)由CPU執(zhí)行的各種處理的程序等。例如,圖2中示例出的單元 作為程序存儲(chǔ)在ROM中。
RAM 1403存儲(chǔ)由CPU執(zhí)行的各種處理所需的數(shù)據(jù)。
HDD 1404存儲(chǔ)大尺寸數(shù)據(jù),例如電子書的文本數(shù)據(jù)項(xiàng)、共享標(biāo)記文本數(shù)據(jù)項(xiàng)、標(biāo)簽坐 寸O
顯示器1405顯示文本數(shù)據(jù)項(xiàng)、標(biāo)簽候選項(xiàng)等。
收發(fā)器單元1406發(fā)送和接收電子書和標(biāo)記文本數(shù)據(jù)項(xiàng)。
操作單元1407允許用戶針對(duì)所展示的信息而輸入指令。
注意,由本實(shí)施例的標(biāo)記輔助設(shè)備執(zhí)行的程序具有包括前述單元(標(biāo)記文本共享 單元202、標(biāo)簽分配單元204、特征量獲取單元205、標(biāo)記文本轉(zhuǎn)換單元206、修正候選項(xiàng)檢測(cè) 單元207、標(biāo)簽方差計(jì)算單元208、標(biāo)簽候選項(xiàng)計(jì)算單元209以及修正信息顯示器210)的單 元配置。作為實(shí)際的硬件,當(dāng)CPU 1401從ROM 1402中讀出各種程序并執(zhí)行所讀出的程序 時(shí),前述單元被加載到RAM 1403,由此在RAM上產(chǎn)生前述功能。
本實(shí)施例采用服務(wù)器-客戶端配置。在該配置中,可由服務(wù)器或客戶端執(zhí)行圖2 中示例出的單元。此外,該實(shí)施例將電子書示范為文本數(shù)據(jù)項(xiàng),將感情標(biāo)簽示范為標(biāo)簽。然 而,本實(shí)施例不限于此,且可被施加到一般的文本數(shù)據(jù)項(xiàng)和允許定義距離的任意標(biāo)簽。
根據(jù)本實(shí)施例的標(biāo)記輔助設(shè)備,由于針對(duì)諸如電子書的大尺寸文本數(shù)據(jù)項(xiàng)基于標(biāo) 簽間相似度而展示用戶將修正標(biāo)簽的位置,因此將被修正的候選項(xiàng)可被縮窄,由此大大改 善了標(biāo)記處理效率。而且,即使當(dāng)諸如感情標(biāo)簽的標(biāo)簽根據(jù)用戶的主觀觀點(diǎn)和偏好而波動(dòng) 時(shí),特定的用戶也可參考與他或她自己有相似的標(biāo)記傾向的用戶的標(biāo)簽,由此允許高效的 標(biāo)記處理。
實(shí)施例的流程圖示例了根據(jù)實(shí)施例的方法和系統(tǒng)。將理解,可通過(guò)計(jì)算機(jī)程序指 令實(shí)現(xiàn)流程圖示例的每個(gè)框以及流程圖示例中的框的組合。這些計(jì)算機(jī)程序指令可被加載 到計(jì)算機(jī)或其他可編程設(shè)備以產(chǎn)生機(jī)器,以便在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令產(chǎn) 生用于實(shí)現(xiàn)流程圖框中規(guī)定的功能的裝置。這些計(jì)算機(jī)程序指令也可被存儲(chǔ)在計(jì)算機(jī)可讀 的存儲(chǔ)器上,該存儲(chǔ)器可指示計(jì)算機(jī)或其他可編程設(shè)備以特定方式起作用,以便存儲(chǔ)在計(jì) 算機(jī)可讀的存儲(chǔ)器上的指令產(chǎn)生制品(article of manufacture),其包括實(shí)現(xiàn)流程圖框中 規(guī)定的功能的指令裝置。計(jì)算機(jī)程序指令也可被加載到計(jì)算機(jī)或其他可編程設(shè)備以使得一 系列操作步驟在計(jì)算機(jī)或其他可編程設(shè)備上被執(zhí)行,以產(chǎn)生計(jì)算機(jī)可編程設(shè)備,該計(jì)算機(jī) 可編程設(shè)備提供用于實(shí)現(xiàn)在流程圖框中規(guī)定的功能的步驟。
盡管描述了特定實(shí)施例,但這些實(shí)施例僅通過(guò)舉例的方式給出,且不旨在定義本 發(fā)明的范圍。實(shí)際上,本文中描述的新穎實(shí)施例可以各種其他形式被實(shí)施;此外,可做出對(duì) 本文中描述的實(shí)施例的形式上的各種省略、替換和改變而不脫離本發(fā)明的精神。所附權(quán)利 要求書及其等價(jià)物旨在涵蓋這樣的形式或修改,且落在本發(fā)明的范圍和精神內(nèi)。
權(quán)利要求
1.一種標(biāo)記輔助設(shè)備,其特征在于包括 獲取單元,其被配置為獲取各個(gè)標(biāo)簽的特征量,每個(gè)標(biāo)簽被用于控制標(biāo)記文本的文本轉(zhuǎn)語(yǔ)音處理,所述標(biāo)記文本包括被分配有至少一個(gè)標(biāo)簽的字符串,所述特征量是用于定義指示標(biāo)簽間的相似程度的第一相似度的值; 第一計(jì)算單元,其被配置為針對(duì)各個(gè)字符串,計(jì)算在標(biāo)記文本中被分配給所述字符串的所述標(biāo)簽的特征量的方差; 檢測(cè)單元,其被配置為檢測(cè)被分配有第一標(biāo)簽的第一字符串作為包括要被修正的標(biāo)簽的第一候選項(xiàng),所述第一標(biāo)簽具有不小于第一閾值的方差;以及展示單元,其被配置為展示所述第一候選項(xiàng)。
2.根據(jù)權(quán)利要求1所述的設(shè)備,其特征在于還包括第二計(jì)算單元,所述第二計(jì)算單元被配置為基于由各個(gè)用戶分配給每個(gè)字符串的標(biāo)簽的所述特征量而計(jì)算指示所述用戶間的相似程度的第二相似度,并基于由其第二相似度不小于第二閾值的第一用戶分配的標(biāo)簽而選擇第二候選項(xiàng),所述第二候選項(xiàng)指示將被分配給所述第一候選項(xiàng)的標(biāo)簽的候選項(xiàng), 其中展示單元還展示所述第二候選項(xiàng)。
3.根據(jù)權(quán)利要求1所述的設(shè)備,其特征在于還包括標(biāo)簽分配單元,所述標(biāo)簽分配單元被配置為基于由至少一個(gè)用戶編輯的所述標(biāo)記文本而將所述標(biāo)簽分配給所述字符串。
4.根據(jù)權(quán)利要求1所述的設(shè)備,其特征在于,所述獲取單元根據(jù)指令信號(hào)而改變所述第一相似度。
5.根據(jù)權(quán)利要求2所述的設(shè)備,其特征在于,所述展示單元展示彼此關(guān)聯(lián)的所述第二候選項(xiàng)和所述第一候選項(xiàng)。
6.根據(jù)權(quán)利要求2所述的設(shè)備,其特征在于,所述第二計(jì)算單元通過(guò)合并多個(gè)第二候選項(xiàng)而生成新標(biāo)簽。
7.—種標(biāo)記輔助方法,其特征在于包括 獲取各個(gè)標(biāo)簽的特征量,每個(gè)標(biāo)簽被用于控制標(biāo)記文本的文本轉(zhuǎn)語(yǔ)音處理,所述標(biāo)記文本包括被分配有至少一個(gè)標(biāo)簽的字符串,所述特征量是用于定義指示標(biāo)簽間的相似程度的第一相似度的值; 針對(duì)各個(gè)字符串,計(jì)算在標(biāo)記文本中被分配給所述字符串的所述標(biāo)簽的特征量的方差; 檢測(cè)被分配有第一標(biāo)簽的第一字符串作為包括要被修正的標(biāo)簽的第一候選項(xiàng),所述第一標(biāo)簽具有不小于第一閾值的方差;以及展示所述第一候選項(xiàng)。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于還包括基于由各個(gè)用戶分配給每個(gè)字符串的標(biāo)簽的所述特征量而計(jì)算指示所述用戶間的相似程度的第二相似度,并基于由其第二相似度不小于第二閾值的第一用戶分配的標(biāo)簽而選擇第二候選項(xiàng),所述第二候選項(xiàng)指示將被分配給所述第一候選項(xiàng)的標(biāo)簽的候選項(xiàng), 其中所述展示所述第一候選項(xiàng)還展示所述第二候選項(xiàng)。
9.根據(jù)權(quán)利要求7所述的方法,其特征在于還包括基于由至少一個(gè)用戶編輯的所述標(biāo)記文本而將所述標(biāo)簽分配給所述字符串。
10.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述獲取所述特征量根據(jù)指令信號(hào)而改變所述第一相似度。
11.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述展示所述第一候選項(xiàng)展示彼此關(guān)聯(lián)的所述第二候選項(xiàng)和所述第一候選項(xiàng)。
12.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述計(jì)算所述第二相似度通過(guò)合并多個(gè)第二候選項(xiàng)而生成新標(biāo)簽。
13.一種非臨時(shí)性計(jì)算機(jī)可讀介質(zhì),其包括計(jì)算機(jī)可執(zhí)行指令,其特征在于,當(dāng)由處理器執(zhí)行時(shí),所述指令使得所述處理器執(zhí)行包括以下的方法 獲取各個(gè)標(biāo)簽的特征量,每個(gè)標(biāo)簽被用于控制標(biāo)記文本的文本轉(zhuǎn)語(yǔ)音處理,所述標(biāo)記文本包括被分配有至少一個(gè)標(biāo)簽的字符串,所述特征量是用于定義指示標(biāo)簽間的相似程度的第一相似度的值; 針對(duì)各個(gè)字符串,計(jì)算在標(biāo)記文本中被分配給所述字符串的所述標(biāo)簽的特征量的方差; 檢測(cè)被分配有第一標(biāo)簽的第一字符串作為包括要被修正的標(biāo)簽的第一候選項(xiàng),所述第一標(biāo)簽具有不小于第一閾值的方差;以及 展示所述第一候選項(xiàng)。
14.根據(jù)權(quán)利要求13所述的計(jì)算機(jī)可讀介質(zhì),其特征在于還包括基于由各個(gè)用戶分配給每個(gè)字符串的標(biāo)簽的所述特征量而計(jì)算指示所述用戶間的相似程度的第二相似度,并基于由其第二相似度不小于第二閾值的第一用戶分配的標(biāo)簽而選擇第二候選項(xiàng),所述第二候選項(xiàng)指示將被分配給所述第一候選項(xiàng)的標(biāo)簽的候選項(xiàng), 其中所述展示所述第一候選項(xiàng)還展示所述第二候選項(xiàng)。
15.根據(jù)權(quán)利要求13所述的計(jì)算機(jī)可讀介質(zhì),其特征在于還包括基于由至少一個(gè)用戶編輯的所述標(biāo)記文本而將所述標(biāo)簽分配給所述字符串。
16.根據(jù)權(quán)利要求13所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述獲取所述特征量根據(jù)指令信號(hào)而改變所述第一相似度。
17.根據(jù)權(quán)利要求14所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述展示所述第一候選項(xiàng)展示彼此關(guān)聯(lián)的所述第二候選項(xiàng)和所述第一候選項(xiàng)。
18.根據(jù)權(quán)利要求14所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,所述計(jì)算所述第二相似度通過(guò)合并多個(gè)第二候選項(xiàng)而生成新標(biāo)簽。
全文摘要
本發(fā)明涉及標(biāo)記輔助設(shè)備、方法和程序。根據(jù)一個(gè)實(shí)施例,一種標(biāo)記輔助設(shè)備(200)包括獲取單元(205)、第一計(jì)算單元(208)、檢測(cè)單元(207)和展示單元(210)。所述獲取單元(205)獲取各個(gè)標(biāo)簽的特征量,每個(gè)標(biāo)簽被用于控制標(biāo)記文本的文本轉(zhuǎn)語(yǔ)音處理。所述第一計(jì)算單元(208)針對(duì)各個(gè)字符串計(jì)算在標(biāo)記文本中被分配給所述字符串的所述標(biāo)簽的特征量的方差。所述檢測(cè)單元(207)檢測(cè)被分配有第一標(biāo)簽的第一字符串作為包括要被修正的標(biāo)簽的第一候選項(xiàng),所述第一標(biāo)簽具有不小于第一閾值的方差。所述展示單元(210)展示所述第一候選項(xiàng)。
文檔編號(hào)G06F17/30GK103020019SQ201210364039
公開日2013年4月3日 申請(qǐng)日期2012年9月26日 優(yōu)先權(quán)日2011年9月26日
發(fā)明者森纮一郎, 森田真弘 申請(qǐng)人:株式會(huì)社 東芝