主頁 高登熱話 吃喝玩樂 科技消費 名人專訪 短片
現有會員可[按此]登入。未成為會員可[按此]註冊。
[公司模式 - 關]  [懷舊模式 - 開
[Youtube 預覽 - 關]  [大字型]  [小字型]

您現在聚腳在 軟件台內。

有關帖文題目顯示香港字問題

一直以來,不少會員反映討論區帖文題目未能正常顯示香港字,由於此項更新牽涉整個系統,故一直未能完善。然而我們明白各會員對此有一定需求,決定於星期三早上7時短暫「熄登」更新系統,解決題目顯示問題,預計需時兩小時。不便之處,敬請原諒。

更新完成後題目將支援香港字、大部分日文及韓文字體,字數限制將由現時25個全形字符增加至30個。與此同時,討論區桌面版將增設M版現有的回帶及追蹤功能,發表頁面的題目輸入位置亦會加入字數提示功能,希望能改善大家的使用體驗。

香港高登討論區管理員團隊
精選文章
跳至第

發起人
什麼是資訊熵
12 個回應
IT小狗

原文出處: https://www.tecky.io/blog/_量度資訊

資訊熵

資訊量有方法量度嗎?當然有,一句十個字訊息跟一百字訊息所包含的資訊當然大相逕庭。光看字數準確嗎?同一語言還可,然而不同語言不同字數所表達的 意思不同,本身根本不可比。看檔案大小可以嗎?有時可以有時不可以,因為不同檔案類型大小不同,光看檔案大小並不準確。 因此,電腦科學中有一個數學方式表達資訊量,此概念就是資訊熵(Information Entropy)。

熵 (粵音商) (entropy) 原本是物理學的概念,代表的是事物混亂的程度:熵愈高,事愈亂。資訊理論 (Information Theory) 之父夏農 (Claude Shannon) 於1948 年將熵引入電腦科學,成為代表資訊量的量度,因此又名為 夏農熵 (Shannon)

資訊熵的概念也很簡單,就是熵愈高,資訊愈多。也就是愈混亂,資訊愈多。

驟看之下,如此結論違反直覺,不是愈整齊愈多資訊嗎? 我們可以用以下簡單的例子,想像一下身處一個只有四個字母的世界,在左手邊 Bucket 1 中是清一色的 A,中間 Bucket 2 有一半是A,Bucket 3 則 ABCD 各有二。

[img]https://na.cx/i/b0jzkB1.png[/img]

用資訊熵去量度,Bucket 3 的資訊會最高,Bucket 2 的資訊在中間, Bucket 1 的資訊最低。何解呢?資訊熵量度的是,從Bucket中抽一個字母,平均需要多少條問題才可以判定該字母是A,B,C 還是 D。

  • Bucket 1全部都是A,如何抽都是 A,一條問題也不需要,資訊熵自然是0。

  • Bucket 2 有一半是A,一半不是 A,約需要 1.75 條問題,所以資訊熵是 1.75,詳情可以看 http://bit.ly/2Ch4MDz。

  • Bucket 3 ABCD 各有兩個,兩條問題可以造成四個可能,所以資訊熵是 2。


由簡單角度看,Bucket 1最整齊,Bucket 3最混亂,根據愈混亂,資訊愈多原則,Bucket3最多資訊亦非常合理。

用一個非常生活化的例子去理解,剛買的硬碟就是Bucket 1,非常整齊,裝落資料的硬碟就像Bucket 3,資料塾多塾少就容易理解得多。


#good2#0    #bad#0  
標籤:
數學計算

當然作為一個數學概念,資訊熵不會流於表面,「吹水」而已。要計算資訊熵,須要用到所謂的夏農公式:

[img]https://na.cx/i/t5pb7in.jpg[/img]

無學過數學,無須驚慌。其實很簡單,Pi 其實就是相應字母的概率,假如有一條訊息只有廿六個英文字母,隨機抽取每一 個概率都是1/26. ln 是自然對數,如果大家學過 e,也就是歐拉數的話,就知道ln(e) = 1,跟大家在學校學過的 log10(10) = 1 及 log10(100) = 2 一樣,只是底數不是10而是這個特別的e。

最後那個橫著的 M ,就是 Summation 相加的意思,所以全條數學算式的意思就是如下:

每個字母的概率與其概率之自然對數相乘,再將每個字母的結果相加,相加之和的負數就是夏農熵。

知道理論後,大家可以這個網站 (https://planetcalc.com/2476/) 嘗試計算不同字串的夏農熵, 例如如果你放入一句廿六個英母都有的句子: The quick brown fox jumps over the lazy dog. 計算機計算出來的夏農熵將會是 4.39,也就是起碼需要五個位元才可以為此句編碼。

總結

常言道:電腦科學是資訊的科學,沒有資訊,也就沒了電腦科學。夏農熵作為電腦表達資訊量一個重要數學基礎,亦是由此開始了現代電腦的發展。

________________________________________________________________

文章出處簡介:

Tecky Academy
由本地人創辦的香港微學位 coding bootcamp,參照美國矽谷模式,一心改變 HK NO IT 的行業境況,致力培訓有質素的 developers。有意入行的巴絲們,可於三個月內由零成為專業的開發者,一次過學會 Git/Gitlab, HTML, CSS, JavaScript, TypeScript, Node.js, Express, Jest, Socket.io, PostgreSQL, AWS EC2/S3/Cloudfront/Route 53, Gitlab CI, React, Redux, Tensorflow 等等⋯⋯ 絕對唔係求其做下網站,禁兩下又咩網絡營銷,我地全部打真章!

[img]https://na.cx/i/dtObe1K.png[/img]高抬各巴絲貴手 like/follow 我地嘅 Facebook: http://bit.ly/2BPcSmB
[img]https://na.cx/i/QUOZoU6.png[/img]有咩問題可以 tg 小弟: https://t.me/itdogltd
#adore##adore#


乜嘢橫放的M Sigma Σ係借用希臘字的數學符號 [sosad]


知道理論後,大家可以這個網站 ( [已轉換文字為連結] https://planetcalc.com/2476/) 嘗試計算不同字串的夏農熵

404 wor,ching#ng# #ng# #ng#


知道理論後,大家可以這個網站 ( [已轉換文字為連結] https://planetcalc.com/2476/) 嘗試計算不同字串的夏農熵

404 wor,ching#ng# #ng# #ng#


https://planetcalc.com/2476/

試多次


其實睇唔出你個結論同文章內容有咩關係 [sosad] [sosad]


乜嘢橫放的M Sigma Σ係借用希臘字的數學符號 [sosad]

[sosad] [sosad]


試下將 1~49 號波放入條式度點計


以前係計數機打到deadbeef 呢個英文字覺得好神奇
0xDEADBEEF
個熵一定低到無人有O:-)


果時試過用photoshop generate一個random color pixel square出黎,jpg完/zip完仲大過個bmp files
負壓縮率


你們很快會被數碼世界淘駄


O:-)


講到informarion entropy 點可以唔提decision tree


跳至第



  快速回覆 - 輸入以下項目

本討論區現只接受會員張貼文章,本站會員請先登入。非會員人仕,您可以按此加入為新會員,費用全免,並可享用其他會員服務。


上次光臨時間: 23/2/2019 17:19
今天貼文總數: 565 | 累積文章數目: 6,468,136

聯絡我們 | 服務條款 | 私隱政策 | 廣告查詢 | 職位空缺
Copyright © 2019 HKGolden.com. All Rights Reserved.